Barreiro-Garrido, AlvaroRuiz-Parrado, VictoriaMoreno, A. BelenVelez, Jose F.2025-01-302025-01-302024-06-16Barreiro-Garrido A, Ruiz-Parrado V, Moreno AB, Velez JF. A Pix2Pix Architecture for Complete Offline Handwritten Text Normalization. Sensors. 2024; 24(12):3892.1424-8220https://hdl.handle.net/10115/70877En el ámbito del reconocimiento de texto manuscrito offline, a lo largo de los años se han desarrollado numerosos algoritmos de normalización que sirven como pasos de preprocesamiento antes de aplicar modelos automáticos de reconocimiento a imágenes de texto manuscrito escaneadas. Estos algoritmos han demostrado ser efectivos en mejorar el rendimiento general de las arquitecturas de reconocimiento. Sin embargo, muchos de estos métodos dependen en gran medida de estrategias heurísticas que no están integradas de manera fluida con la propia arquitectura de reconocimiento. Este artículo introduce el uso de un modelo entrenable Pix2Pix, un tipo específico de red generativa antagónica condicional, como el método para normalizar imágenes de texto manuscrito. Además, este algoritmo puede integrarse sin problemas como la etapa inicial de cualquier arquitectura de aprendizaje profundo diseñada para tareas de reconocimiento manuscrito. Todo esto facilita el entrenamiento de los componentes de normalización y reconocimiento como un todo unificado, manteniendo al mismo tiempo cierta interpretabilidad de cada módulo. Nuestro enfoque de normalización propuesto aprende de una combinación de transformaciones heurísticas aplicadas a imágenes de texto, con el objetivo de mitigar el impacto de la variabilidad intra-personal de la escritura entre diferentes escritores. Como resultado, se logran normalizaciones de pendiente e inclinación, junto con otros objetivos convencionales de preprocesamiento, como la normalización del tamaño de los ascenders y descenders en las palabras del texto. Este trabajo muestra que la arquitectura propuesta replica, y en ciertos casos supera, los resultados de un algoritmo heurístico ampliamente utilizado en dos métricas y cuando se integra como el primer paso de una arquitectura de reconocimiento profundo.enAttribution 4.0 Internationalhttp://creativecommons.org/licenses/by/4.0/offline handwritingscanned text preprocessingimage normalizationIAM datasetGANspix2pixdeep learningA Pix2Pix Architecture for Complete Offline Handwritten Text NormalizationArticlehttps://doi.org/10.3390/s24123892info:eu-repo/semantics/openAccess