Afficher la notice abrégée

ON THE INTERPRETABILITY AND PREDICTIVE PERFORMANCE OF SINGLE AND ENSEMBLE RANK FILTER FEATURE SELECTION METHODS FOR HETEROGENEOUS DATA

dc.contributor.authorChamizo Gonzalez, Aitor
dc.date.accessioned2023-07-20T14:00:09Z
dc.date.available2023-07-20T14:00:09Z
dc.date.issued2023-07-19
dc.identifier.urihttps://hdl.handle.net/10115/23323
dc.descriptionTrabajo Fin de Grado leído en la Universidad Rey Juan Carlos en el curso académico 2022/2023. Directores/as: Cristian David Chushig Muzo, Cristina Soguero Ruíz
dc.description.abstractLa selección de características (FS, del inglés Feature Selection) se ha vuelto clave en la ciencia de datos y otros campos científicos. Una selección adecuada de características puede mejorar el rendimiento de tareas sucesivas de clasificación y regresión. Entre los métodos de FS, los métodos basados en filtros son rápidos y eficientes al seleccionar características considerando únicamente las características inherentes de los datos. En aplicaciones modernas, los enfoques interpretables son cruciales, siendo la estabilidad uno de los conceptos principales dentro de FS para ganar más interpretabilidad. La estabilidad en FS se define como la robustez del subconjunto seleccionado de característi- cas cuando se agregan o eliminan nuevas muestras de entrenamiento. Un subconjunto estable de características podría revelar cuáles son más importantes para un problema específico. Cuando la estabilidad de un método FS es alta, la características seleccionadas son robustas, por lo tanto, más interpretables. En el estado del arte, la mayoría de los estudios sobre estabilidad en FS se han llevado a cabo sobre conjuntos de datos numéricos y sintéticos. Además, los enfoques de FS de que consideran datos de tipo mixto han sido menos explorados. El objetivo de este proyecto es doble. En primer lugar, evaluar el rendimiento predictivo de los métodos FS de filtro utilizando datos de tipo mixto y considerando escenarios de clasi- ficación binaria y multiclase. En segundo lugar, analizar la estabilidad utilizando métodos de FS filtro (Relief, Multisurf y MRMR), evaluando su efectividad sobre conjuntos de datos het- erogéneos. Para realizar este trabajo, se consideraron 24 conjuntos de datos reales, 12 con alta dimensionalidad y 12 con baja dimensionalidad. Para evaluar la estabilidad se consideró la métrica de Nogueira. Los resultados experimentales mostraron que los métodos MultiSurf y Relief (métodos basa- dos en distancias) funcionan mejor que MRMR cuando se trata de conjuntos de datos de alta dimensión, alcanzando mejores resultados predictivos. Al considerar conjuntos de datos de baja dimensión, MRMR funciona mejor en aplicaciones predictivas. En términos generales, el método de FS de conjunto tiende a obtener un mejor rendimiento predictivo que el enfoque único. Pero el enfoque de agregación es clave, siendo el enfoque de votación el mejor para obtener un mejor rendimiento predictivo y estabilidad. Este trabajo contribuye al estado del arte al analizar en profundidad el rendimiento predictivo y la estabilidad de los métodos de FS individuales sobre conjuntos de datos heterogéneos.
dc.language.isoeng
dc.publisherUniversidad Rey Juan Carlos
dc.rights
dc.rights.uri
dc.subjectestabilidad
dc.subjectselección de características
dc.subjectmachine learning
dc.subjectartificial intelligence
dc.subjectstability
dc.subjectfeature selection
dc.subjectfilter feature selection
dc.subjectinterpretability
dc.subjectinterpretabilidad
dc.titleON THE INTERPRETABILITY AND PREDICTIVE PERFORMANCE OF SINGLE AND ENSEMBLE RANK FILTER FEATURE SELECTION METHODS FOR HETEROGENEOUS DATA
dc.typeinfo:eu-repo/semantics/studentThesis
dc.rights.accessRightsinfo:eu-repo/semantics/embargoedAccess


Fichier(s) constituant ce document

Ce document figure dans la(les) collection(s) suivante(s)

Afficher la notice abrégée

Los ítems de digital-BURJC están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario