Machine Learning and Knowledge Management for Decision Support. Applications in Promotional Efficiency and Healthcare
Abstract
El desarrollo alcanzado en las Tecnologías de la Información y las Comunicaciones en las últimas décadas, ha traído consigo la recopilación y almacenamiento creciente de datos en ámbitos tan diversos como pueden ser marketing, salud o seguridad. La disponibilidad de grandes cantidades de datos hace necesaria la búsqueda de nuevos paradigmas de aprendizaje máquina, capaces de abordar el análisis automatizado de los mismos con la consiguiente extracción de información. En concreto, las técnicas de aprendizaje máquina permiten diseñar modelos estadísticos no paramétricos que aprendan las relaciones existentes entre un conjunto suficientemente representativo de ejemplos, cada uno de ellos formado por unas variables observadas (características), y su correspondiente salida. Se desea que el modelo construido pueda generalizar, es decir, obtener una salida adecuada ante ejemplos de entrada no considerados durante la fase del diseño. En los últimos años, estas técnicas han experimentado un avance espectacular, tanto en fundamentos teóricos como en su aplicación a distintos y numerosos dominios de conocimiento. El objetivo general de esta Tesis es el desarrollo teórico y la implementación de métodos de aprendizaje máquina, con énfasis en las etapas de selección de características y diseño del modelo predictivo, de forma que permita abordar el análisis de grandes cantidades de datos de naturaleza diversa, creando procedimientos específicos para cada etapa pero al tiempo aplicables en distintos ámbitos. En esta Tesis se han abordado tres áreas específicas de creciente interés económico y social: (a) el modelado de las interacciones entre productos de consumo diario y su eficiencia promocional; (b) el apoyo a la toma de decisiones para la predicción temprana de complicaciones tras la cirugía de cáncer de colon; (c) la estratificación de riesgo de muerte súbita cardíaca a partir de índices predictores obtenidos de las señales eléctricas del corazón, utilizando un modelo de conocimiento clínico y una terminología estandarizada. El análisis de datos de cada una de estas aplicaciones presenta como denominador común la utilización de técnicas de aprendizaje máquina, de acuerdo con el objetivo general. Sin embargo, la naturaleza tan diversa de dichas aplicaciones hace que cada una represente por sí misma un objetivo específico de la presente Tesis. El primer objetivo específico consiste en profundizar en la evaluación y análisis de las ventas promocionales, tradicionalmente basado en técnicas de estadística clásica. Un apoyo sustancial en la toma de decisiones ha de venir necesariamente del análisis sistemático de datos masivos sobre el control y monitorización de las promociones y sus complejas interacciones. Por ello se propone el análisis y la comparación estadística de distintas técnicas de aprendizaje máquina. Otro ámbito de naturaleza muy diversa al anterior, pero de indudable interés social, es el de la salud. El análisis de datos clínicos, tanto estructurados (constantes vitales o análisis de sangre) como no estructurados (texto libre en documentos clínicos), recogidos longitudinal y sistemáticamente en las historias clínicas electrónicas (HCEs) de un conjunto numeroso de pacientes, permite incrementar sustancialmente el conocimiento clínico y apoyar la toma de decisiones. Sin embargo, las técnicas de aprendizaje máquina y el análisis de datos han tenido, hasta la fecha, un alcance limitado en este ámbito. Esta situación se debe principalmente a la dificultad de extraer información útil de datos clínicos procedentes de fuentes heterogéneas. Además, existen muy pocos precedentes de sistemas que permitan la explotación automática de la información a nivel agregado entre diferentes entidades hospitalarias y existe gran necesidad de disponer de datos que sirvan de base para el avance científico, con mayor impacto en la práctica clínica. En esta Tesis se analizan dos dominios del ámbito salud de gran prevalencia en el mundo occidental, a saber, el cáncer de colon y las enfermedades cardíacas. El segundo objetivo específico consiste en la adaptación y aplicación de métodos de aprendizaje máquina para la detección temprana de complicaciones tras la cirugía de cáncer de colon, analizando tanto individual como conjuntamente variables procedentes de fuentes heterogéneas, extraídas todas ellas de la HCE. El tercer objetivo específico consiste en la creación de modelos de conocimiento clínico que permitan intercambiar datos y comprender semánticamente la información clínica de distintas HCEs. En los últimos años se han propuesto numerosos índices predictores del riesgo cardíaco. En concreto, en esta Tesis se analiza el dominio de la turbulencia del ciclo cardíaco por ser un predictor de muerte súbita cardíaca con guías clínicas claras y concisas. El análisis de grandes cantidades de datos y el desarrollo teórico de nuevos algoritmos de aprendizaje estadístico representan hoy, sin duda, un área de investigación muy activa en distintos dominios. Esta Tesis contribuye a mejorar el conocimiento y la toma de decisiones en aplicaciones reales de muy diversa naturaleza, y al tiempo con claros denominadores comunes.
Description
Tesis Doctoral leída en la Universidad Rey Juan Carlos de Madrid en 2015. Directores de la Tesis: José Luis Rojo Álvarez e Inmaculada Mora Jiménez
Collections
- Tesis Doctorales [1552]
Los ítems de digital-BURJC están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario