A Pix2Pix Architecture for Complete Offline Handwritten Text Normalization

dc.contributor.authorBarreiro-Garrido, Alvaro
dc.contributor.authorRuiz-Parrado, Victoria
dc.contributor.authorMoreno, A. Belen
dc.contributor.authorVelez, Jose F.
dc.date.accessioned2025-01-30T09:57:44Z
dc.date.available2025-01-30T09:57:44Z
dc.date.issued2024-06-16
dc.description.abstractEn el ámbito del reconocimiento de texto manuscrito offline, a lo largo de los años se han desarrollado numerosos algoritmos de normalización que sirven como pasos de preprocesamiento antes de aplicar modelos automáticos de reconocimiento a imágenes de texto manuscrito escaneadas. Estos algoritmos han demostrado ser efectivos en mejorar el rendimiento general de las arquitecturas de reconocimiento. Sin embargo, muchos de estos métodos dependen en gran medida de estrategias heurísticas que no están integradas de manera fluida con la propia arquitectura de reconocimiento. Este artículo introduce el uso de un modelo entrenable Pix2Pix, un tipo específico de red generativa antagónica condicional, como el método para normalizar imágenes de texto manuscrito. Además, este algoritmo puede integrarse sin problemas como la etapa inicial de cualquier arquitectura de aprendizaje profundo diseñada para tareas de reconocimiento manuscrito. Todo esto facilita el entrenamiento de los componentes de normalización y reconocimiento como un todo unificado, manteniendo al mismo tiempo cierta interpretabilidad de cada módulo. Nuestro enfoque de normalización propuesto aprende de una combinación de transformaciones heurísticas aplicadas a imágenes de texto, con el objetivo de mitigar el impacto de la variabilidad intra-personal de la escritura entre diferentes escritores. Como resultado, se logran normalizaciones de pendiente e inclinación, junto con otros objetivos convencionales de preprocesamiento, como la normalización del tamaño de los ascenders y descenders en las palabras del texto. Este trabajo muestra que la arquitectura propuesta replica, y en ciertos casos supera, los resultados de un algoritmo heurístico ampliamente utilizado en dos métricas y cuando se integra como el primer paso de una arquitectura de reconocimiento profundo.
dc.identifier.citationBarreiro-Garrido A, Ruiz-Parrado V, Moreno AB, Velez JF. A Pix2Pix Architecture for Complete Offline Handwritten Text Normalization. Sensors. 2024; 24(12):3892.
dc.identifier.doihttps://doi.org/10.3390/s24123892
dc.identifier.issn1424-8220
dc.identifier.urihttps://hdl.handle.net/10115/70877
dc.language.isoen
dc.publisherMDPI
dc.rightsAttribution 4.0 Internationalen
dc.rights.accessRightsinfo:eu-repo/semantics/openAccess
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/
dc.subjectoffline handwriting
dc.subjectscanned text preprocessing
dc.subjectimage normalization
dc.subjectIAM dataset
dc.subjectGANs
dc.subjectpix2pix
dc.subjectdeep learning
dc.titleA Pix2Pix Architecture for Complete Offline Handwritten Text Normalization
dc.typeArticle

Archivos

Bloque original

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
sensors-24-03892_A Pix2Pix Architecture.pdf
Tamaño:
529.19 KB
Formato:
Adobe Portable Document Format