A triple perspective on complexity measures for supervised classification problems
Résumé
Antecedentes. En cualquier proyecto de Ciencia de Datos y, de hecho, en cualquier tipo de estudio que incluya datos, la exploración de los mismos resulta un paso esencial para entender tanto los datos en sí, como la información que contienen y el problema al que nos enfrentamos. Sin embargo, en esta exploración inicial normalmente se omite el estudio de la complejidad de los datos, es decir, el estudio de aquellas características, como el solapamiento o la falta de densidad, que afectan negativamente al rendimiento de los modelos de Machine Learning (ML). El objetivo de las medidas de complejidad es caracterizar estos factores que reflejan la problemática subyacente de los datos. En el caso de los problemas de clasificación supervisada, objeto de estudio de la presente tesis, existen distintos aspectos como la distribución de las clases, la forma de la frontera de decisión o la cantidad de ruido que impactan negativamente en el proceso de aprendizaje de los modelos. Las medidas de complejidad pretenden capturar y cuantificar dichos factores. La información que aportan las medidas de complejidad no sólo sirve para entender la dificultad de un conjunto de datos y el origen de dicha dificultad, si no que dicha información se ha utilizado con éxito para diversas tareas como: selección de instancias, selección de variables, estudio del rango de competencia de un clasificador, recomendación de clasificadores, meta-learning, etc. Las medidas de complejidad fueron inicialmente concebidas a nivel del conjunto de datos, es decir, para ofrecer un valor global de complejidad para todo el conjunto de datos. Más tarde, también se consideró el nivel instancia. Este nivel ofrece información sobre qué instancias son más difíciles de clasificar, contribuyendo por tanto más a la complejidad global, y sobre por qué son más difíciles de clasificar. Aunque menos estudiado, el nivel clase también ha sido contemplado. En particular, adaptando algunas de las medidas de complejidad originales (definidas a nivel del conjunto de datos) para abordar problemas específicos (e.g., los datos desbalanceados). No obstante, a pesar de que los tres niveles de definición han sido abordados en el estado del arte, ninguna medida de complejidad se ha diseñado específicamente para cubrir los tres y, además, ningún estudio ha analizado conjuntamente los tres niveles. Objetivos. Dado los antecedentes de las medidas de complejidad, el principal propósito de la tesis es ofrecer una perspectiva multi-nivel en el estudio de las mismas definiendo la primera medida específicamente diseñada para cubrir los tres niveles: instancia, clase y conjunto de datos. Este propósito se llevará a cabo a través de los siguientes objetivos: • Remarcar la importancia de la fase exploratoria de los datos para la correcta comprensión de los mismos y los beneficios de incluir la complejidad en ella. • Revisar el estado del arte de las medidas de complejidad desde la perspectiva multinivel. • Establecer una definición formal de la dificultad de clasificación contemplando los tres niveles que sirva como referencia teórica para las medidas de complejidad. A partir de dicha definición, proponer la primera medida de complejidad que cubra los tres niveles de definición. • Evaluar y validar la medida propuesta mediante experimentos realizados en los tres niveles. En todo momento se buscará que la medida sea fácil de comprender y de usar y que los resultados sean transparentes e interpretables. • Utilizar la medida de complejidad propuesta para dos objetivos particulares como ejemplos del potencial de la perspectiva multi-nivel de las medidas de complejidad: – Para aliviar el problema de los datos desbalanceados preprocesando el conjunto de entrenamiento con el objetivo de equilibrar la complejidad de las clases en lugar de su tamaño muestral. – En métodos de ensamblados para guiar, buscando la diversidad en complejidad, la selección de instancias que se usan para entrenar los distintos modelos que componen el ensamblado final...
Description
Tesis Doctoral leída en la Universidad Rey Juan Carlos de Madrid en 2023. Directores: Isaac Martín de Diego Javier Martínez Moguerza
Colecciones
- Tesis Doctorales [1552]