A triple perspective on complexity measures for supervised classification problems
Archivos
Fecha
2023
Autores
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad Rey Juan Carlos
Resumen
Antecedentes. En cualquier proyecto de Ciencia de Datos y, de hecho, en cualquier
tipo de estudio que incluya datos, la exploración de los mismos resulta un paso esencial
para entender tanto los datos en sí, como la información que contienen y el problema
al que nos enfrentamos. Sin embargo, en esta exploración inicial normalmente se omite
el estudio de la complejidad de los datos, es decir, el estudio de aquellas características,
como el solapamiento o la falta de densidad, que afectan negativamente al rendimiento
de los modelos de Machine Learning (ML). El objetivo de las medidas de complejidad
es caracterizar estos factores que reflejan la problemática subyacente de los datos. En el
caso de los problemas de clasificación supervisada, objeto de estudio de la presente tesis,
existen distintos aspectos como la distribución de las clases, la forma de la frontera de
decisión o la cantidad de ruido que impactan negativamente en el proceso de aprendizaje
de los modelos. Las medidas de complejidad pretenden capturar y cuantificar dichos
factores. La información que aportan las medidas de complejidad no sólo sirve para
entender la dificultad de un conjunto de datos y el origen de dicha dificultad, si no
que dicha información se ha utilizado con éxito para diversas tareas como: selección
de instancias, selección de variables, estudio del rango de competencia de un clasificador,
recomendación de clasificadores, meta-learning, etc.
Las medidas de complejidad fueron inicialmente concebidas a nivel del conjunto de
datos, es decir, para ofrecer un valor global de complejidad para todo el conjunto de datos.
Más tarde, también se consideró el nivel instancia. Este nivel ofrece información sobre qué
instancias son más difíciles de clasificar, contribuyendo por tanto más a la complejidad
global, y sobre por qué son más difíciles de clasificar. Aunque menos estudiado, el nivel
clase también ha sido contemplado. En particular, adaptando algunas de las medidas de
complejidad originales (definidas a nivel del conjunto de datos) para abordar problemas
específicos (e.g., los datos desbalanceados). No obstante, a pesar de que los tres niveles
de definición han sido abordados en el estado del arte, ninguna medida de complejidad se
ha diseñado específicamente para cubrir los tres y, además, ningún estudio ha analizado
conjuntamente los tres niveles.
Objetivos. Dado los antecedentes de las medidas de complejidad, el principal propósito
de la tesis es ofrecer una perspectiva multi-nivel en el estudio de las mismas definiendo la primera medida específicamente diseñada para cubrir los tres niveles: instancia, clase y
conjunto de datos. Este propósito se llevará a cabo a través de los siguientes objetivos:
• Remarcar la importancia de la fase exploratoria de los datos para la correcta comprensión
de los mismos y los beneficios de incluir la complejidad en ella.
• Revisar el estado del arte de las medidas de complejidad desde la perspectiva multinivel.
• Establecer una definición formal de la dificultad de clasificación contemplando los
tres niveles que sirva como referencia teórica para las medidas de complejidad. A
partir de dicha definición, proponer la primera medida de complejidad que cubra
los tres niveles de definición.
• Evaluar y validar la medida propuesta mediante experimentos realizados en los tres
niveles. En todo momento se buscará que la medida sea fácil de comprender y de
usar y que los resultados sean transparentes e interpretables.
• Utilizar la medida de complejidad propuesta para dos objetivos particulares como
ejemplos del potencial de la perspectiva multi-nivel de las medidas de complejidad:
– Para aliviar el problema de los datos desbalanceados preprocesando el conjunto
de entrenamiento con el objetivo de equilibrar la complejidad de las clases en
lugar de su tamaño muestral.
– En métodos de ensamblados para guiar, buscando la diversidad en complejidad,
la selección de instancias que se usan para entrenar los distintos modelos que
componen el ensamblado final...
Descripción
Tesis Doctoral leída en la Universidad Rey Juan Carlos de Madrid en 2023. Directores:
Isaac Martín de Diego
Javier Martínez Moguerza
Palabras clave
Citación
Colecciones
Excepto si se señala otra cosa, la licencia del ítem se describe como Attribution-NonCommercial-NoDerivatives 4.0 Internacional