Métodos de muestreo para la mejora de rendimiento en clasificadores de aprendizaje automático
Fecha
2023
Autores
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad Rey Juan Carlos
Resumen
Esta tesis se lleva a cabo en colaboración con la empresa Madox Viajes, en el marco del proyecto Pharaoh, como parte de su estrategia de digitalización. La colaboración entre la empresa y la universidad se logra gracias a la financiación obtenida en
la convocatoria de ayudas para Doctorados Industriales en la Comunidad de Madrid,
que tiene como objetivo fomentar la colaboración entre el mundo académico y empresarial, facilitando la transferencia directa de conocimientos científicos generados
en la universidad a las empresas.
Madox Viajes, fundada en 2008, es una empresa de nicho en el segmento de viajes
a medida. Con el fin de mantenerse competitiva en un mercado turístico cada vez
más desafiante, la empresa apuesta por la innovación científica, las matemáticas y la
tecnología. En este sentido, el proyecto Pharaoh busca proporcionar a Madox Viajes
los recursos necesarios para innovar en sus operaciones, incorporando componentes
tecnológicos y científicos en sus sistemas Enterprise Resource Planning (ERP), Customer Relationship Management (CRM) y eCommerce, adaptándose a un futuro donde
el mercado convergerá hacia el modelo online y competirá en igualdad de condiciones con grandes proveedores.
El objetivo empresarial de esta tesis en el proyecto Pharaoh es desarrollar un modelo de propensión de compra para el scoring de clientes utilizando aprendizaje basado en ejemplos. Para lograr esto, se desarrollarán modelos de aprendizaje automático centrados en mecanismos de muestreo que se adapten a cambios en el comportamiento de clientes y mercado, e identifiquen a los clientes que aporten más información en escenarios de baja tasa de conversión. El objetivo científico es investigar
nuevas técnicas de muestreo para mejorar el rendimiento de modelos de Machine
Learning (ML).
En esta investigación, se explora la aplicación de distintas técnicas de muestreo
en el ML dentro del marco del aprendizaje estadístico, abordando el aprendizaje incremental, el aprendizaje combinado y el análisis de complejidad de los datos. Se
presenta una nueva metodología de reentrenamiento para Support Vector Machine
(SVM) basada en subconjuntos soporte, que permite una rápida y precisa actualización de modelos con nuevos datos, y un marco general de ensamblado llamado
Minimally Overfitted Ensemble (MOE), que mejora la capacidad predictiva tanto de
algoritmos base estables como inestables. Además, se introduce la medida de complejidad Dynamic Disagreeing Neighbors (DDN), que considera la dificultad de clasificar instancias en tres niveles: instancia, clase y conjunto de datos, y se basa en el
cálculo de vecindarios dinámicos.
A lo largo de esta tesis, se han llevado a cabo numerosos experimentos y análisis
para validar las técnicas y modelos propuestos. Estos experimentos se han realizado
utilizando conjuntos de datos reales y sintéticos, y los resultados obtenidos han sido comparados con enfoques y algoritmos del estado del arte. Los hallazgos de estos
experimentos han permitido identificar las fortalezas y debilidades de las técnicas
propuestas, y han servido como base para realizar ajustes y mejoras en los modelos. Estos resultados también han proporcionado información valiosa sobre cómo las
técnicas de muestreo pueden aplicarse de manera efectiva en diferentes contextos y
desafíos empresariales.
La aplicación exitosa de técnicas de muestreo en distintos escenarios del ML en
esta tesis tiene el potencial de impulsar el crecimiento y la competitividad de Madox
Viajes. Los modelos desarrollados mejorarán la eficiencia y precisión en la clasificación de clientes, aumentando la tasa de conversión y optimizando la toma de decisiones. Además, ha proporcionado grandes avances científicos en los tres campos del
ML donde se ha realizado la investigación que han dado lugar a diversas publicaciones científicas en revistas de gran impacto. Esta colaboración entre la universidad y
Madox Viajes en el proyecto Pharaoh resalta cómo la transferencia de conocimientos
científicos entre el mundo académico y empresarial puede generar beneficios mutuos e impulsar la innovación en la industria.
Descripción
Tesis Doctoral leída en la Universidad Rey Juan Carlos de Madrid en 2023. Directores:
Javier Martínez Moguerza y
Isaac Martín de Diego
Palabras clave
Citación
Colecciones
Excepto si se señala otra cosa, la licencia del ítem se describe como Attribution-NonCommercial-NoDerivatives 4.0 Internacional