Análisis de datos mediante visualización de información basada en técnicas de reducción de dimensiones y machine learning
Fecha
2021
Autores
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad Rey Juan Carlos
Resumen
En los últimos años, debido al abaratamiento del espacio de almacenamiento y la
proliferación de sensores en cualquier parte, la recolección y cuantificación de datos
se ha extendido entre los distintos campos de investigación. Esto genera grandes conjuntos
de datos, en muchos casos multivariantes. El análisis de estos datos por parte
de los distintos expertos de dominio no es inmediato debido a la naturaleza de estos
datos, que en muchos casos sufren de la llamada ‘Maldición de la Dimensionalidad’
en su representación.
Para poder procesar y analizar estos datos, se han desarrollado diferentes métodos
de aprendizaje automático para ayudar a los analistas a extraer conocimiento de estos
datos en bruto. Estos algoritmos, en muchas ocasiones, trabajan como cajas negras y
no permiten la interacción con el usuario, dificultando la aplicación del conocimiento
previo de los expertos de dominio al análisis, y reduciendo el conocimiento que estos
pueden extraer del análisis.
Una forma de incluir a los expertos de dominio en el análisis exploratorio de
datos es la visualización interactiva. A través de ella, los expertos de dominio pueden
participar del proceso de extracción de información, centrarse en los aspectos más
relevantes para su análisis y aumentar la información extraída del mismo. Para que
los expertos de dominio puedan aplicarlo en su análisis, es necesario la construcción de
herramientas específicas. Las herramientas construidas deben de lidiar con problemas
específicos y generales de los datos multivariantes, así como guiar a los usuarios no
expertos en visualización en el proceso de exploración de datos. Entre los problemas
que debe hacer frente la visualización se encuentran los siguientes: i) permitir al
experto de dominio la inclusión de su criterio evaluador a la hora de determinar la importancia de características; ii) la inclusión del conocimiento del experto de
dominio en la construcción de clasificadores ; y iii) la inclusión del conocimiento del
experto de dominio en el análisis de datos en streaming.
En este documento de tesis, se pondrá el foco en la construcción de soluciones
que potencien la interacción entre el experto del dominio y la visualización, y en
el desarrollo de métodos para incluirle en el análisis y aprovechar su conocimiento
previo al mismo tiempo que puede beneficiarse de las ventajas proporcionadas por
los diferentes algoritmos de machine learning. La construcción de clasificadores, por
ejemplo en forma de árboles de decisión, empleando únicamente algoritmos automáticos
puede desembocar en modelos demasiado complejos y difíciles de seguir por
parte del experto de dominio, ya que no participa de forma activa en su creación.
La visualización de datos puede ayudar al experto de dominio en la construcción
de clasificadores, mostrando por ejemplo, la influencia de las características en las
representaciones, tanto en representaciones lineales como no lineales.
El propósito de la presente tesis doctoral es ofrecer soluciones a estos problemas
inherentes al uso de la visualización, adaptando dichas soluciones a los diferentes
campos de dominio. Adicionalmente, se incluye la gestión de análisis de datos generados
en tiempo real, lo cual añade a la visualización la complicación de representar el
cambio. En concreto se han desarrollado metodologías para i) entender la influencia
de las características en las diferentes visualizaciones mediante los ejes en visualizaciones
lineales coordinadas; ii) incluir a los expertos de dominio en la construcción
de árboles, guiados por la visualización; y iii) cómo mostrar y hacer participes del
análisis a expertos de dominio en entornos cambiantes.
Descripción
Tesis Doctoral leída en la Universidad Rey Juan Carlos de Madrid en 2021. Director de la Tesis: Alberto Sánchez Campos
Palabras clave
Citación
Colecciones
Excepto si se señala otra cosa, la licencia del ítem se describe como Attribution-NonCommercial-NoDerivatives 4.0 Internacional