ON THE INTERPRETABILITY AND PREDICTIVE PERFORMANCE OF SINGLE AND ENSEMBLE RANK FILTER FEATURE SELECTION METHODS FOR HETEROGENEOUS DATA
Fecha
2023-07-19
Autores
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad Rey Juan Carlos
Resumen
La selección de características (FS, del inglés Feature Selection) se ha vuelto clave en la
ciencia de datos y otros campos científicos. Una selección adecuada de características puede
mejorar el rendimiento de tareas sucesivas de clasificación y regresión. Entre los métodos
de FS, los métodos basados en filtros son rápidos y eficientes al seleccionar características
considerando únicamente las características inherentes de los datos. En aplicaciones modernas,
los enfoques interpretables son cruciales, siendo la estabilidad uno de los conceptos principales
dentro de FS para ganar más interpretabilidad.
La estabilidad en FS se define como la robustez del subconjunto seleccionado de característi-
cas cuando se agregan o eliminan nuevas muestras de entrenamiento. Un subconjunto estable de
características podría revelar cuáles son más importantes para un problema específico. Cuando
la estabilidad de un método FS es alta, la características seleccionadas son robustas, por lo tanto,
más interpretables. En el estado del arte, la mayoría de los estudios sobre estabilidad en FS se
han llevado a cabo sobre conjuntos de datos numéricos y sintéticos. Además, los enfoques de
FS de que consideran datos de tipo mixto han sido menos explorados.
El objetivo de este proyecto es doble. En primer lugar, evaluar el rendimiento predictivo
de los métodos FS de filtro utilizando datos de tipo mixto y considerando escenarios de clasi-
ficación binaria y multiclase. En segundo lugar, analizar la estabilidad utilizando métodos de
FS filtro (Relief, Multisurf y MRMR), evaluando su efectividad sobre conjuntos de datos het-
erogéneos. Para realizar este trabajo, se consideraron 24 conjuntos de datos reales, 12 con alta
dimensionalidad y 12 con baja dimensionalidad. Para evaluar la estabilidad se consideró la
métrica de Nogueira.
Los resultados experimentales mostraron que los métodos MultiSurf y Relief (métodos basa-
dos en distancias) funcionan mejor que MRMR cuando se trata de conjuntos de datos de alta
dimensión, alcanzando mejores resultados predictivos. Al considerar conjuntos de datos de
baja dimensión, MRMR funciona mejor en aplicaciones predictivas. En términos generales,
el método de FS de conjunto tiende a obtener un mejor rendimiento predictivo que el enfoque
único. Pero el enfoque de agregación es clave, siendo el enfoque de votación el mejor para
obtener un mejor rendimiento predictivo y estabilidad. Este trabajo contribuye al estado del
arte al analizar en profundidad el rendimiento predictivo y la estabilidad de los métodos de FS
individuales sobre conjuntos de datos heterogéneos.
Descripción
Trabajo Fin de Grado leído en la Universidad Rey Juan Carlos en el curso académico 2022/2023. Directores/as: Cristian David Chushig Muzo, Cristina Soguero Ruíz
Citación
Colecciones
Excepto si se señala otra cosa, la licencia del ítem se describe como