Low-Rank Methods in Reinforcement Learning

Fecha

2025

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Rey Juan Carlos

Enlace externo

Citas

plumx
0 citas en WOS
0 citas en

Resumen

Vivimos en una era digital: el mundo está interconectado, es cambiante y profundamente complejo. Cada día, miles de dispositivos electrónicos alrededor del planeta forman redes de intercambio de información que generan cantidades masivas de datos de manera incesante. Este momento histórico presenta tanto desafíos como oportunidades, especialmente en el diseño de sistemas autónomos capaces de operar sin supervisión humana, un objetivo crucial en múltiples ámbitos tecnológicos como la robótica, los vehículos autónomos y la gestión inteligente de recursos. Desarrollar e implementar estos sistemas requiere soluciones que garanticen tanto su eficiencia como su seguridad, especialmente en entornos dinámicos y en constante transformación. Para abordar estos retos, el modelado matemático de sistemas dinámicos se ha consolidado como una herramienta fundamental, representando el mundo como un conjunto de estados interconectados, donde las transiciones son determinadas por leyes físicas y las acciones realizadas. Entre las propuestas teóricas desarrolladas por la comunidad académica, la teoría de control ha sido tradicionalmente una herramienta clave para abordar problemas en sistemas dinámicos. Sin embargo, este enfoque asume que las leyes del mundo físico pueden modelarse con precisión matemática, lo que limita su aplicabilidad en escenarios donde los fenómenos son inciertos o demasiado complejos de representar. En este contexto, el aprendizaje por refuerzo, o reinforcement learning (RL), ha emergido como una alternativa revolucionaria. Este paradigma, que comparte similitudes conceptuales con la teoría de control, prescinde de modelos matemáticos explícitos y, en su lugar, aprende estrategias óptimas, o políticas, a través de la interacción directa con el entorno. Mediante un proceso iterativo de prueba y error, el RL busca maximizar una métrica numérica observable, conocida como recompensa, lo que le permite adaptarse a entornos inciertos y dinámicos. Los métodos para resolver problemas de RL se dividen en dos grandes familias. La primera se centra en estimar las recompensas acumuladas al tomar una acción desde un estado dado, conocidas como funciones de valor o value functions (VF). Si se obtienen las VF óptimas, es posible inferir la política óptima seleccionando las acciones que maximicen dichas funciones en cada estado. La segunda familia de métodos adopta un enfoque diferente al aprender directamente una política, sin necesidad de calcular previamente las VF. En términos simples, una política puede modelarse como una función que toma un estado como entrada y devuelve una acción como salida. Estos métodos, generalmente paramétricos, buscan generar acciones (cuasi-)óptimas de manera eficiente, sin depender explícitamente de las funciones de valor. Ambas metodologías no solo representan avances teóricos, sino que también habilitan el diseño de sistemas autónomos capaces de enfrentar la complejidad y el dinamismo del mundo real. No obstante, el RL enfrenta importantes desafíos. A pesar de su gran potencial, este enfoque suele requerir cantidades significativas de recursos computacionales y datos. En este contexto, la presente tesis examina los principales retos asociados al RL y propone el empleo de modelos parsimoniosos como una estrategia para mitigar dichas dificultades. En particular, se analiza el RL desde la perspectiva de los modelos de bajo rango. Estos modelos aprovechan el hecho de que numerosos sistemas físicos pueden representarse en espacios de baja dimensionalidad, con el objetivo de diseñar algoritmos más eficientes. Asimismo, se evalúa cómo estos métodos pueden integrar principios de control y optimización basados en datos, explorando sus aplicaciones potenciales y las limitaciones que presentan. Este resumen presenta los principales hallazgos y contribuciones de la tesis, y está organizado de la siguiente manera. Primero se proporciona un resumen del estado del arte en problemas de RL. A continuación, se detalla de manera precisa los desafíos que enfrenta el RL, así como los objetivos que esta tesis ha abordado para resolver dichos problemas. Después, se describen los principios metodológicos que han guiado el desarrollo de este trabajo así como los principales resultados generados, tanto en términos de conocimiento como de entregables especí ficos, tales como publicaciones y código abierto. Finalmente, se concluye con una visión general de la tesis, sus implicaciones y posibles líneas de investigación futura.

Descripción

Tesis Doctoral leída en la Universidad Rey Juan Carlos de Madrid en 2025. Director: Antonio García Marqués

Citación

Colecciones

license logo
Excepto si se señala otra cosa, la licencia del ítem se describe como Attribution 4.0 International