Examinando por Autor "Chamizo Gonzalez, Aitor"
Mostrando 1 - 1 de 1
- Resultados por página
- Opciones de ordenación
Ítem ON THE INTERPRETABILITY AND PREDICTIVE PERFORMANCE OF SINGLE AND ENSEMBLE RANK FILTER FEATURE SELECTION METHODS FOR HETEROGENEOUS DATA(Universidad Rey Juan Carlos, 2023-07-19) Chamizo Gonzalez, AitorLa selección de características (FS, del inglés Feature Selection) se ha vuelto clave en la ciencia de datos y otros campos científicos. Una selección adecuada de características puede mejorar el rendimiento de tareas sucesivas de clasificación y regresión. Entre los métodos de FS, los métodos basados en filtros son rápidos y eficientes al seleccionar características considerando únicamente las características inherentes de los datos. En aplicaciones modernas, los enfoques interpretables son cruciales, siendo la estabilidad uno de los conceptos principales dentro de FS para ganar más interpretabilidad. La estabilidad en FS se define como la robustez del subconjunto seleccionado de característi- cas cuando se agregan o eliminan nuevas muestras de entrenamiento. Un subconjunto estable de características podría revelar cuáles son más importantes para un problema específico. Cuando la estabilidad de un método FS es alta, la características seleccionadas son robustas, por lo tanto, más interpretables. En el estado del arte, la mayoría de los estudios sobre estabilidad en FS se han llevado a cabo sobre conjuntos de datos numéricos y sintéticos. Además, los enfoques de FS de que consideran datos de tipo mixto han sido menos explorados. El objetivo de este proyecto es doble. En primer lugar, evaluar el rendimiento predictivo de los métodos FS de filtro utilizando datos de tipo mixto y considerando escenarios de clasi- ficación binaria y multiclase. En segundo lugar, analizar la estabilidad utilizando métodos de FS filtro (Relief, Multisurf y MRMR), evaluando su efectividad sobre conjuntos de datos het- erogéneos. Para realizar este trabajo, se consideraron 24 conjuntos de datos reales, 12 con alta dimensionalidad y 12 con baja dimensionalidad. Para evaluar la estabilidad se consideró la métrica de Nogueira. Los resultados experimentales mostraron que los métodos MultiSurf y Relief (métodos basa- dos en distancias) funcionan mejor que MRMR cuando se trata de conjuntos de datos de alta dimensión, alcanzando mejores resultados predictivos. Al considerar conjuntos de datos de baja dimensión, MRMR funciona mejor en aplicaciones predictivas. En términos generales, el método de FS de conjunto tiende a obtener un mejor rendimiento predictivo que el enfoque único. Pero el enfoque de agregación es clave, siendo el enfoque de votación el mejor para obtener un mejor rendimiento predictivo y estabilidad. Este trabajo contribuye al estado del arte al analizar en profundidad el rendimiento predictivo y la estabilidad de los métodos de FS individuales sobre conjuntos de datos heterogéneos.