ON THE INTERPRETABILITY AND PREDICTIVE PERFORMANCE OF SINGLE AND ENSEMBLE RANK FILTER FEATURE SELECTION METHODS FOR HETEROGENEOUS DATA

Chamizo Gonzalez, Aitor

ON THE INTERPRETABILITY AND PREDICTIVE PERFORMANCE OF SINGLE AND ENSEMBLE RANK FILTER FEATURE SELECTION METHODS FOR HETEROGENEOUS DATA

Archivos

2022-23-EIF-A-2229-2229045-a.chamizo.2018-MEMORIA.pdf (5.04 MB)

Fecha

2023-07-19

Autores

Chamizo Gonzalez, Aitor

Editor

Universidad Rey Juan Carlos

URI

https://hdl.handle.net/10115/23323

Resumen

La selección de características (FS, del inglés Feature Selection) se ha vuelto clave en la ciencia de datos y otros campos científicos. Una selección adecuada de características puede mejorar el rendimiento de tareas sucesivas de clasificación y regresión. Entre los métodos de FS, los métodos basados en filtros son rápidos y eficientes al seleccionar características considerando únicamente las características inherentes de los datos. En aplicaciones modernas, los enfoques interpretables son cruciales, siendo la estabilidad uno de los conceptos principales dentro de FS para ganar más interpretabilidad. La estabilidad en FS se define como la robustez del subconjunto seleccionado de característi- cas cuando se agregan o eliminan nuevas muestras de entrenamiento. Un subconjunto estable de características podría revelar cuáles son más importantes para un problema específico. Cuando la estabilidad de un método FS es alta, la características seleccionadas son robustas, por lo tanto, más interpretables. En el estado del arte, la mayoría de los estudios sobre estabilidad en FS se han llevado a cabo sobre conjuntos de datos numéricos y sintéticos. Además, los enfoques de FS de que consideran datos de tipo mixto han sido menos explorados. El objetivo de este proyecto es doble. En primer lugar, evaluar el rendimiento predictivo de los métodos FS de filtro utilizando datos de tipo mixto y considerando escenarios de clasi- ficación binaria y multiclase. En segundo lugar, analizar la estabilidad utilizando métodos de FS filtro (Relief, Multisurf y MRMR), evaluando su efectividad sobre conjuntos de datos het- erogéneos. Para realizar este trabajo, se consideraron 24 conjuntos de datos reales, 12 con alta dimensionalidad y 12 con baja dimensionalidad. Para evaluar la estabilidad se consideró la métrica de Nogueira. Los resultados experimentales mostraron que los métodos MultiSurf y Relief (métodos basa- dos en distancias) funcionan mejor que MRMR cuando se trata de conjuntos de datos de alta dimensión, alcanzando mejores resultados predictivos. Al considerar conjuntos de datos de baja dimensión, MRMR funciona mejor en aplicaciones predictivas. En términos generales, el método de FS de conjunto tiende a obtener un mejor rendimiento predictivo que el enfoque único. Pero el enfoque de agregación es clave, siendo el enfoque de votación el mejor para obtener un mejor rendimiento predictivo y estabilidad. Este trabajo contribuye al estado del arte al analizar en profundidad el rendimiento predictivo y la estabilidad de los métodos de FS individuales sobre conjuntos de datos heterogéneos.

Descripción

Trabajo Fin de Grado leído en la Universidad Rey Juan Carlos en el curso académico 2022/2023. Directores/as: Cristian David Chushig Muzo, Cristina Soguero Ruíz

Palabras clave

estabilidad , selección de características , machine learning , artificial intelligence , stability , feature selection , filter feature selection , interpretability , interpretabilidad

Colecciones

Trabajos Fin de Grado

Página completa del ítem

ON THE INTERPRETABILITY AND PREDICTIVE PERFORMANCE OF SINGLE AND ENSEMBLE RANK FILTER FEATURE SELECTION METHODS FOR HETEROGENEOUS DATA

Archivos

Fecha

Autores

Título de la revista

ISSN de la revista

Título del volumen

Editor

Enlace externo

URI

Resumen

Descripción

Palabras clave

Citación

Colecciones