CLASIFICACIÓN DE GRAFOS MOLECULARES CON APRENDIZAJE AUTOMÁTICO
Fecha
2023-07-11
Autores
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad Rey Juan Carlos
Resumen
En este trabajo se aborda el problema de la clasificación de moléculas haciendo
uso, en concreto, de técnicas de aprendizaje automático. Como objetivo principal,
se plantea la implementación de distintos modelos de representación y clasificación
para su posterior evaluación en términos de rendimiento.
En el capítulo 2 de introducción se va a explicar la necesidad para tratar este
problema, la revolución que se ha llevado a cabo en estos últimos años gracias al
aprendizaje automático y se detallará sobre qué cuestiones particulares versará
este trabajo.
En el tercer capítulo, se detallarán los objetivos de este trabajo. Se describirá
resumidamente el problema, se expondrá la metodología empleada para lograr el
objetivo y se comentarán las alternativas que ha habido a este enfoque.
Los siguientes cuatro capítulos siguen esta lógica. En los capítulos 4 y 5, se
expone el estado del arte. Concretamente, en la cuarta sección se recoge cómo se
representan las moléculas de forma que se puedan procesar y en la quinta qué
modelos existen para clasificar esos datos ya preprocesados. Siguiendo el mismo
esquema, en los capítulos 6 y 7 se explica el estudio comparativo llevado a cabo
para la ocasión. En el capítulo seis se detallan los datos escogidos para el estudio,
mientras que en el séptimo se valora la aplicación de los modelos de aprendizaje
escogidos.
Concretamente, en el capítulo 4, se van a explicar las distintas formas que
existen para representar moléculas, haciendo especial hincapié en las maneras
convenientes para el clasificado automático. No es una cuestión trivial, ya que
los modelos de aprendizaje automático normalmente necesitan trabajar con información vectorizada y esto obliga a que se haga un preprocesado de los datos
cuidadoso.
En el quinto capítulo, se discutirán los distintos modelos de aprendizaje automático que se utilizan en esta tarea. Se expondrá el funcionamiento de los modelos
más exitosos en este problema.
En el siguiente capítulo, se van a presentar los conjuntos de datos que se utilizarán en el estudio comparativo. Se explicará para qué se utilizan en escenarios
reales, qué propiedades tienen, si existe desbalanceo de datos o no, etc., y también
se detallará qué descriptores moleculares se disponen en cada dataset para hacer
el clasificado.
Por otro lado, ya en el capítulo 7, se hará un estudio comparativo entre cinco distintos modelos de aprendizaje automático introducidos en el capítulo 5 y
con los cuatro distintos conjuntos de datos del capítulo 6. Se verá la importancia de una correcta implementación de los métodos escogidos y se valorarán los
resultados obtenidos.
Para finalizar, se dedicarán unas páginas para exponer las conclusiones obtenidas. Principalmente, sobre el rendimiento y las limitaciones de los modelos y
los descriptores tratados a lo largo del trabajo.
Descripción
Trabajo Fin de Grado leído en la Universidad Rey Juan Carlos en el curso académico 2022/2023. Directores/as: Iván Ramírez Díaz
Citación
Colecciones
Excepto si se señala otra cosa, la licencia del ítem se describe como Creative Commons Atribución 4.0 Internacional