Machine Learning and Knowledge Management for Decision Support. Applications in Promotional Efficiency and Healthcare
Archivos
Fecha
2015
Autores
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad Rey Juan Carlos
Resumen
El desarrollo alcanzado en las Tecnologías de la Información y las Comunicaciones en las
últimas décadas, ha traído consigo la recopilación y almacenamiento creciente de datos en
ámbitos tan diversos como pueden ser marketing, salud o seguridad. La disponibilidad de grandes
cantidades de datos hace necesaria la búsqueda de nuevos paradigmas de aprendizaje máquina,
capaces de abordar el análisis automatizado de los mismos con la consiguiente extracción de
información.
En concreto, las técnicas de aprendizaje máquina permiten diseñar modelos estadísticos
no paramétricos que aprendan las relaciones existentes entre un conjunto suficientemente
representativo de ejemplos, cada uno de ellos formado por unas variables observadas
(características), y su correspondiente salida. Se desea que el modelo construido pueda
generalizar, es decir, obtener una salida adecuada ante ejemplos de entrada no considerados
durante la fase del diseño. En los últimos años, estas técnicas han experimentado un avance
espectacular, tanto en fundamentos teóricos como en su aplicación a distintos y numerosos
dominios de conocimiento.
El objetivo general de esta Tesis es el desarrollo teórico y la implementación de métodos
de aprendizaje máquina, con énfasis en las etapas de selección de características y diseño del
modelo predictivo, de forma que permita abordar el análisis de grandes cantidades de datos de
naturaleza diversa, creando procedimientos específicos para cada etapa pero al tiempo aplicables
en distintos ámbitos.
En esta Tesis se han abordado tres áreas específicas de creciente interés económico y
social: (a) el modelado de las interacciones entre productos de consumo diario y su eficiencia
promocional; (b) el apoyo a la toma de decisiones para la predicción temprana de complicaciones
tras la cirugía de cáncer de colon; (c) la estratificación de riesgo de muerte súbita cardíaca a
partir de índices predictores obtenidos de las señales eléctricas del corazón, utilizando un modelo
de conocimiento clínico y una terminología estandarizada. El análisis de datos de cada una de
estas aplicaciones presenta como denominador común la utilización de técnicas de aprendizaje máquina, de acuerdo con el objetivo general. Sin embargo, la naturaleza tan diversa de dichas
aplicaciones hace que cada una represente por sí misma un objetivo específico de la presente
Tesis.
El primer objetivo específico consiste en profundizar en la evaluación y análisis de las ventas
promocionales, tradicionalmente basado en técnicas de estadística clásica. Un apoyo sustancial
en la toma de decisiones ha de venir necesariamente del análisis sistemático de datos masivos
sobre el control y monitorización de las promociones y sus complejas interacciones. Por ello se
propone el análisis y la comparación estadística de distintas técnicas de aprendizaje máquina.
Otro ámbito de naturaleza muy diversa al anterior, pero de indudable interés social, es el
de la salud. El análisis de datos clínicos, tanto estructurados (constantes vitales o análisis
de sangre) como no estructurados (texto libre en documentos clínicos), recogidos longitudinal
y sistemáticamente en las historias clínicas electrónicas (HCEs) de un conjunto numeroso de
pacientes, permite incrementar sustancialmente el conocimiento clínico y apoyar la toma de
decisiones. Sin embargo, las técnicas de aprendizaje máquina y el análisis de datos han tenido,
hasta la fecha, un alcance limitado en este ámbito. Esta situación se debe principalmente a
la dificultad de extraer información útil de datos clínicos procedentes de fuentes heterogéneas.
Además, existen muy pocos precedentes de sistemas que permitan la explotación automática de
la información a nivel agregado entre diferentes entidades hospitalarias y existe gran necesidad de
disponer de datos que sirvan de base para el avance científico, con mayor impacto en la práctica
clínica. En esta Tesis se analizan dos dominios del ámbito salud de gran prevalencia en el mundo
occidental, a saber, el cáncer de colon y las enfermedades cardíacas.
El segundo objetivo específico consiste en la adaptación y aplicación de métodos de aprendizaje
máquina para la detección temprana de complicaciones tras la cirugía de cáncer de colon,
analizando tanto individual como conjuntamente variables procedentes de fuentes heterogéneas,
extraídas todas ellas de la HCE.
El tercer objetivo específico consiste en la creación de modelos de conocimiento clínico que
permitan intercambiar datos y comprender semánticamente la información clínica de distintas
HCEs. En los últimos años se han propuesto numerosos índices predictores del riesgo cardíaco.
En concreto, en esta Tesis se analiza el dominio de la turbulencia del ciclo cardíaco por ser un
predictor de muerte súbita cardíaca con guías clínicas claras y concisas.
El análisis de grandes cantidades de datos y el desarrollo teórico de nuevos algoritmos de
aprendizaje estadístico representan hoy, sin duda, un área de investigación muy activa en distintos
dominios. Esta Tesis contribuye a mejorar el conocimiento y la toma de decisiones en aplicaciones
reales de muy diversa naturaleza, y al tiempo con claros denominadores comunes.
Descripción
Tesis Doctoral leída en la Universidad Rey Juan Carlos de Madrid en 2015. Directores de la Tesis: José Luis Rojo Álvarez e Inmaculada Mora Jiménez