Abstract
Antecedentes. En la actualidad, cada vez más decisiones se toman mediante modelos de aprendizaje automático (ML por sus siglas en inglés). Enormes avances se han alcanzado en este ámbito para mejorar el rendimiento de los modelos. Sin embargo, estas mejoras van normalmente acompañadas de una mayor complejidad en los modelos que hacen que éstos sean a su vez más difíciles de entender. La falta de transparencia e interpretabilidad es un desafío de los modelos dentro del ML, conocido como el problema de caja negra.
La visualización de datos ha sido una de las herramientas más importantes para abordar el desafío de la opacidad de los modelos caja negra, pues permite representar de manera intuitiva conceptos complejos. La visualización ayuda a comunicar insights de forma más clara, a la vez que permite a los analistas de datos identificar patrones y relaciones en las variables del conjunto de datos que de otra manera podrían pasar desapercibidos. Como consecuencia, la visualización resulta imprescindible en todas las fases de un proyecto de Ciencia de Datos, facilitando la comprensión de los datos, el ajuste de los modelos, la validación de los mismos y la presentación de resultados.
Mientras que el ML busca automatizar la toma de decisiones, la visualización enfatiza la participación humana y la comprensión de las mismas. La integración de ambos enfoques ha cobrado gran relevancia dentro de la comunidad científica, dando lugar a dos subcampos de investigación emergentes: Visualización para el Aprendizaje Automático (VIS4ML por sus siglas en inglés) y Aprendizaje Automático para la Visualización (ML4VIS por sus siglas en inglés). El primero, VIS4ML, se centra en cómo la visualización puede mejorar la transparencia y la interpretabilidad de los modelos de ML, facilitando la comprensión de los procesos y resultados por parte de los analistas, expertos del dominio y usuarios. Por otro lado, ML4VIS estudia cómo las técnicas de ML pueden mejorar la visualización para obtener una representación más efectiva y comprensible de datos complejos.
Objetivos. El objetivo principal de esta tesis es explorar la integración de la visualización de datos y el ML para guiar la toma de decisiones a lo largo del ciclo de vida de un proyecto de Ciencia de Datos en un problema de clasificación en alta dimensión. Se busca facilitar, mediante visualizaciones, la comprensión de los procesos y modelos complejos tanto a los científicos de datos, como a los expertos en dominio y usuarios finales. En consecuencia, se han establecido los siguientes objetivos:
O1) Destacar la visualización como un recurso necesario para el desarrollo adecuado de un proyecto de Ciencia de Datos.
O2) Enfatizar la necesidad de la interacción de la inteligencia humana con la inteligencia artificial mediante visualizaciones en todas las etapas de la Ciencia de Datos para obtener resultados comprensibles y confiables.
O3) Estudiar el estado del arte en visualizaciones que ayuden a integrar la inteligencia humana dentro del proceso de la Ciencia de Datos. Identificar carencias en la literatura para la visualización de datos y modelos de alta dimensionalidad.
O4) Crear un conjunto de métodos de visualización novedosos para mejorar la interpretabilidad en problemas de clasificación con datos de alta dimensionalidad, haciéndolos accesibles y comprensibles para los científicos de datos, expertos en dominio y usuarios finales. En particular:
O4.1) Apoyar el análisis exploratorio de datos: Ofrecer una técnica de visualización para entender las complejidades en un conjunto de datos de clasificación en alta dimensión analizando los patrones dentro de la variable de clase e identificando las variables explicativas que maximicen la separabilidad de las mismas.
O4.2) Apoyar la construcción del modelo: Ofrecer una técnica de visualización para guiar la selección de parámetros en un modelo de clasificación de alta dimensionalidad.
O4.3) Apoyar la evaluación y exploración del modelo: Ofrecer un método de visualización para explorar y entender el comportamiento de un clasificador en alta dimensión buscando regiones de probabilidad consistentes dentro del espacio de las variables características.
O4.4) Apoyar la comunicación de resultados y nuevas predicciones: Ofrecer un método de visualización para visualizar un conjunto de datos de alta dimensión en función de los patrones relacionales aprendidos con un clasificador y proyectar nuevas predicciones en la visualización lograda para abordar su explicabilidad.
O5) Objetivos comunes a todos los métodos de visualización anteriores son:
O5.1) Ayudar a los científicos de datos en problemas de alta dimensionalidad a tomar decisiones más informadas en cada etapa de la Ciencia de Datos para lograr resultados más comprensibles.
O5.2) Asegurar que las técnicas de visualización estén diseñadas con un enfoque centrado en las necesidades del analista.
O5.3) Crear visualizaciones que comuniquen a los involucrados en un proyecto, que no
tienen un perfil técnico, los resultados obtenidos de manera adecuada. De este
modo, permitir la validación por parte de expertos en el dominio y aumentar
la confianza de los usuarios finales en los resultados.
O5.4) Demostrar cómo el ML y la visualización pueden interactuar para ofrecer representaciones más significativas de los datos.
O6) Evaluar todos los métodos de visualización propuestos a través de un conjunto completo de casos de estudio que abarque distintos escenarios del mundo real.
O7) Ofrecer un repositorio de código abierto con la implementación de los métodos de visualización desarrollados en esta tesis utilizando el software y lenguaje de programación estadística R.
Metodología. Primero se realiza una exhaustiva revisión de VIS4ML yML4VIS, que permite posicionar y motivar los métodos de visualización desarrollados en esta tesis dentro de estos campos. En VIS4ML, se revisan numerosas taxonomías existentes que clasifican las técnicas de visualización en función de su aplicación en diferentes etapas del proceso de aprendizaje automático. Tras ello, se decide trabajar con una concisa taxonomía en tres categorías: técnicas antes del modelo, durante el modelo y después del modelo.
Para alcanzar los objetivos propuestos, se desarrollan tres métodos de visualización para guiar la toma de decisiones en un problema de clasificación con datos de alta dimensión. Estos métodos están motivados por la taxonomía de VIS4ML en tres niveles (antes, durante y después del modelo), asegurando que cada técnica cumpla un propósito específico dentro del flujo de trabajo en un proyecto de Ciencia de Datos.
La primera técnica de visualización propuesta es CSViz (Class Separability Visualization), que ayuda a visualizar un conjunto de datos etiquetados de alta dimensionalidad. CSViz explora la separabilidad de clase dentro del conjunto de datos para ofrecer insights que los científicos de datos puedan aplicar en las siguientes fases del proyecto de Ciencia de Datos. En este punto, es primordial que los expertos del dominio validen la visualización ofrecida por CSViz y los patrones de separabilidad mostrados en ellos. Esto asegura que los resultados obtenidos se alinean con su experiencia y que los insights extraídos
se puedan aplicar en las siguientes fases del proyecto. Para facilitar la validación de los expertos del dominio, CSVIZ explora la separabilidad de clases entre las variables originales del conjunto de datos, sin aplicar ninguna técnica de reducción de dimensión. Para ello, CSViz identifica automáticamente los subconjuntos bidimensionales de datos dentro del espacio de las variables características que contienen los patrones de separabilidad de clase más informativos y significativos. La búsqueda de estos patrones de separabilidad de clase se apoya en medidas de complejidad en clasificación. Cada subespacio bidimensional encontrado por CSViz se presenta a través de un diagrama de dispersión. Dado que los subespacios bidimensionales se construyen de forma secuencial, los subconjuntos de puntos de datos dentro de los subespacios son excluyentes entre sí. Así, los subespacios que CSViz encuentra abarcan conjuntamente todas las observaciones del conjunto de datos.
Esto es clave, ya que implica que el método ofrece una visión general de la separabilidad de las clases en un conjunto de datos de clasificación. Por tanto, CSViz es una novedosa técnica de visualización dentro del campo de VIS4ML que facilita el análisis exploratorio de datos en un proyecto de Ciencia de Datos en un contexto de alta dimensión.
La segunda técnica propuesta es CPRViz (Class Probability Regions Visualization) para ayudar a entender y validar un modelo de clasificación ajustado, visualizando su comportamiento a través de las probabilidades predichas. Como en CSViz, en la validación de un modelo es fundamental que los expertos del dominio validen los resultados obtenidos y para esto, los resultados han de estar expresados en términos de las variables originales y no en términos de una transformación de ellas. Por ello, CPRViz explora el conjunto de datos predicho y busca las regiones bidimensionales de los mismos en las
que las probabilidades predichas son más consistentes. Es decir, el método propuesto busca los subconjuntos de datos bidimensionales dentro del espacio de características en los que el modelo asigna probabilidades similares a observaciones que están cerca entre sí. CPRViz realiza esta búsqueda apoyándose en medidas de complejidad en regresión, buscando así los patrones menos complejos, en las que las probabilidades sean más similares. Cada uno de los subespacios logrados se devuelve en un diagrama de dispersión. Dado que los subespacios en CPRViz se obtienen de forma secuencial, los subconjuntos de datos contenidos en ellos son exclusivos entre sí. Por lo tanto, los subespacios CPRViz abarcan juntos todas las instancias del conjunto de datos. Así, CPRViz es una técnica de visualización dentro del campo VIS4ML que proporciona una visión global de los patrones de probabilidad predicha más consistentes e informativos. Además, como el método propuesto sólo emplea las relaciones de las variables de entrada con la probabilidad predicha sin acceder al mecanismo interno del modelo, CPRViz es una técnica agnóstica, aplicable a todos los modelos de clasificación siempre que devuelvan una probabilidad predicha.
El último método propuesto es BiVizClass (Bidirectional Visualization and Classification), que ayuda tanto en el ajuste de un clasificador como en la presentación de sus predicciones a los usuarios finales de manera comprensible. Este doble propósito es gracias a que BiVizClass es una técnica bidireccional, que puede ir de una clasificación a una visualización y viceversa. En la dirección de visualización a clasificación, el método comienza con una visualización bidimensional de los datos creada y validada por el analista a través de una técnica de reducción de la dimensión para tener en cuenta a todas
las variables en un único gráfico. BiVizClass aprende las relaciones entre los datos en dicha visualización y transfiere este conocimiento al proceso de aprendizaje de un clasificador, guiando la selección de sus parámetros para que reproduzca las mismas relaciones.
En la dirección de clasificación a visualización, BiVizClass recorre el camino contrario, comenzando por un clasificador ajustado y validado por el científico de datos. El método aprende las relaciones captadas por este modelo y las transfiere a una visualización bidimensional, buscando mantener las relaciones captadas por el modelo. Así, los datos se visualizan en función del modelo ajustado y coloreando los puntos por sus probabilidades predichas, se obtiene una representación de los resultados finales del modelo. En esta dirección, BiVizClass permite incorporar al gráfico obtenido nuevas predicciones sobre usuarios finales una vez que el modelo se ha puesto en producción. Así, los usuarios finales pueden entender sus predicciones en el contexto de otros usuarios cerca de ellos en
la visualización, buscando aumentar su confianza en el sistema de decisión automático.
Resultados. Cada uno de los tres métodos de visualización propuestos en esta tesis se ha evaluado a través de diferentes conjuntos de datos reales y sintéticos con distintas características, enfocados en datos de alta dimensión, para validar su idoneidad en aplicaciones del mundo real. Todos han demostrado tener la capacidad de mejorar la transparencia en la toma de decisiones de un proyecto de Ciencia de Datos y así mejorar la interpretabilidad y usabilidad de las soluciones desarrolladas.
CSViz ha demostrado ser eficaz para la exploración de la separabilidad de clase en un conjunto de clasificación en alta dimensión. Al buscar los subespacios bidimensionales más informativos para ese fin, en todos los casos de estudio probados incluyendo contextos de alta dimensión, CSVIZ ha devuelto a lo sumo tres subespacios. Así, comparado con técnicas tradicionales para visualizar datos en función de las variables originales como la matriz de dispersión, los experimentos evidencian que CSViz reduce drásticamente el número de gráficos que el analista debe inspeccionar para descubrir los patrones de
separabilidad de clase más importantes entre los datos. Por tanto, CSViz ha demostrado facilitar significativamente el análisis exploratorio de datos en un proyecto de Ciencia de Datos. A pesar de trabajar con conjuntos de datos de alta dimensionalidad, los resultados de CSViz revelan además una eficiencia computacional adecuada, haciendo viable su aplicación en entornos del mundo real.
Los experimentos realizados para CPRViz revelan que el método permite una fácil comprensión del comportamiento de un modelo de clasificación al visualizar sus regiones probabilísticas más consistentes. En todos los casos de estudio probados, incluyendo los de alta dimensión, CPRViz ha devuelto un máximo de tres subspacios, lo que implica que este método también reduce significativamente el esfuerzo que los analistas deben invertir para explorar visualmente el comportamiento del modelo en función de las variables originales. Por tanto, los experimentos confirman que CPRViz es adecuado para aplicaciones del mundo real, proporcionando resultados comprensibles en un tiempo computacional razonable. Además, CPRViz se ha empleado para la construcción de un modelo subrogado sencillo a partir del modelo caja negra original, construyendo un árbol de decisión a partir de las variables que forman los subsepacios CPRViz. Este experimento ha arrojado resultados satisfactorios, pues el modelo sustituto ajustado ofrece una representación más simple y explicable del modelo original, manteniendo una precisión alta.
Por último, los experimentos también validan la utilidad y adecuación de BiVizClass en entornos reales. Por un lado, el método facilita la presentación de predicciones a los usuarios finales mediante visualizaciones fáciles de entender, sin necesidad de conocimientos técnicos avanzados o conocimiento del dominio. Por otro lado, en la dirección de visualización a clasificación, BiVizClass ha demostrado su eficacia en la selección de parámetros del modelo, alcanzando rendimientos comparables a los que se obtienen mediante métodos tradicionales de selección de parámetros, pero con la ventaja de que BiVizClass aborda este proceso con una mayor transparencia y explicabilidad.
Conclusiones. Esta tesis ha explorado la combinación de la visualización de datos y el aprendizaje automático para ayudar a los analistas en la toma de decisiones durante todo el ciclo de la Ciencia de Datos, con el objetivo de mejorar la transparencia, la interpretabilidad y la usabilidad de las soluciones obtenidas. La tesis ha cumplido con todos los objetivos planteados, ofreciendo herramientas de visualización valiosas para cada una de las fases de un proyecto de Ciencia de Datos, guiándolo desde el principio hasta el final. Todas los métodos de visualización propuestos se han diseñado teniendo en cuenta las necesidades de los científicos de datos, los expertos del dominio y los usuarios finales.
Las técnicas propuestas para las fases de antes y durante el modelo (CSViz, CPRViz y BiVizClass en su dirección de visualización a clasificación), están orientadas a los científicos de datos y expertos en el dominio. En la construcción y validación de un modelo, la retroalimentación de ambos es crucial. Por ello, CSViz y CPRViz se han diseñado para facilitar la validación de los resultados por parte del experto del dominio, visualizando los datos en términos de las variables originales. Esto permite a los científicos de datos tomar decisiones más informadas. Por su parte, BiVizClass en la dirección de visualización
a clasificación arroja luz y transparencia al proceso de selección de parámetros, que generalmente es opaco. En la fase posterior al modelo, el método BiVizClass en su dirección de clasificación a visualización se centra en los usuarios finales, buscando que sus predicciones sean fácilmente comprensibles sin necesidad de conocimientos técnicos ni del dominio. Esta técnica facilita que los usuarios entiendan sus predicciones, permitiéndoles compararse con usuarios similares con la misma o distinta predicción.
Todos los métodos de visualización introducidos en este trabajo apoyan el proceso de la Ciencia de Datos, enmarcándose dentro del campo de VIS4ML. Además, todos utilizan técnicas de ML para ofrecer mejores visualizaciones, integrándose por tanto también en el campo de ML4VIS. Por otro lado, las visualizaciones son interactivas, permitiendo la modificación de una serie de parámetros según las necesidades del analista. Por último, para aumentar la accesibilidad de las técnicas de visualización aquí propuestas, se ofrece un repositorio de código abierto con su implementación preparado para ser usado. Con esto se busca que un mayor número de usuarios puedan utilizar y colaborar en la mejora de estos métodos de visualización.
Journal Title
Journal ISSN
Volume Title
Publisher
URL external
DOI
Date
Description
Citation
Cuesta Santa Teresa, M. (2024). Machine learning-powered data visualizations for guiding data science (Tesis doctoral). Universidad Rey Juan Carlos
Collections
Endorsement
Review
Supplemented By
Referenced By
Document viewer
Select a file to preview:
Reload



