End-to-end Vision-based Autonomous Driving using Deep Learning
Abstract
Esta tesis presenta contribuciones significativas en el dominio de la robótica impulsada por IA con visión por computador en el ámbito de la conducción autónoma. Un factor clave en este trabajo es el uso de técnicas de aprendizaje profundo del estado de la cuestión, que forman la base de nuestras contribuciones. Una contribución inicial es nuestra solución para monitoreo de tráfico, TrafficSensor, que aprovecha el aprendizaje profundo para la detección de vehículos. A partir de esta contribución, entendemos la robustez que el aprendizaje profundo aporta a la percepción y la importancia de la evaluación eficiente de las posibles soluciones para el avance del campo. Para abordar esto, desarrollamos Detection Metrics, una herramienta de código abierto diseñada para la evaluación integral y automatizada de modelos de detección de objetos visuales de aprendizaje profundo. Nuestra validación experimental demuestra su eficacia tanto en el seguimiento del tráfico como en los módulos de percepción dentro de los sistemas de conducción autónoma. Sobre esta base, desarrollamos Behavior Metrics, otro software de código abierto diseñado para la evaluación en línea de sistemas de conducción autónoma mediante simulación. Esta herramienta facilita la evaluación detallada de los sistemas de conducción autónoma para diferentes tareas, generando métricas detalladas para la evaluación cuantitativa de las soluciones. Admite diferentes tareas de conducción autónoma como seguimiento de carril, conducción con tráfico y navegación punto a punto. Una vez más, este software se centra en la evaluación automática, masiva y desatendida de soluciones. Un aspecto clave en las contribuciones que presentamos en el campo de la conducción autónoma radica en el empleo de enfoques basados en la visión extremo a extremo junto con el aprendizaje por imitación y el aprendizaje profundo. Estas metodologías están rigurosamente validadas mediante pruebas experimentales. A partir de esta idea base y más allá de generar la aplicación visual básica de seguimiento de carril mediante aprendizaje por imitación, estudiamos las implicaciones de incluir memoria visual y datos cinemáticos a algunos modelos de aprendizaje profundo estrechos para comprender cómo podemos mejorar su comportamiento en una tarea simple de seguimiento de carril, produciendo modelos nuevos con capacidades mejoradas. Además, exploramos la optimización de modelos de aprendizaje profundo para conducir de forma autónoma con idea de mejorar tanto la velocidad como la eficiencia sin comprometer la calidad. Esta contribución tiene como objetivo producir modelos de control capaces de mantener un alto rendimiento y al mismo tiempo ser más rápidos y eficientes en el uso de recursos. Para esta contribución, investigamos exhaustivamente varias técnicas de optimización y realizamos un análisis detallado de cómo cada una contribuye en el sistema de conducción final. Finalmente, proponemos un enfoque basado en la visión con aprendizaje por imitación y aprendizaje profundo para una conducción autónoma segura en escenarios complejos con tráfico. Este enfoque permite el desarrollo de modelos adaptables capaces de navegar eficazmente en diversas condiciones de tráfico y que generalizan a situaciones nunca vistas en entrenamiento. Para ello, se utilizan modelos de aprendizaje profundo estrechos previamente conocidos con pequeñas modificaciones, ampliando su rango de aplicación significativamente.
Description
Tesis Doctoral leída en la Universidad Rey Juan Carlos de Madrid en 2024. Director: José María Cañas Plaza
Collections
- Tesis Doctorales [1552]