A Pix2Pix Architecture for Complete Offline Handwritten Text Normalization

Barreiro-Garrido, Alvaro; Ruiz-Parrado, Victoria; Moreno, A. Belen; Velez, Jose F.

A Pix2Pix Architecture for Complete Offline Handwritten Text Normalization

dc.contributor.author	Barreiro-Garrido, Alvaro
dc.contributor.author	Ruiz-Parrado, Victoria
dc.contributor.author	Moreno, A. Belen
dc.contributor.author	Velez, Jose F.
dc.date.accessioned	2025-01-30T09:57:44Z
dc.date.available	2025-01-30T09:57:44Z
dc.date.issued	2024-06-16
dc.description.abstract	En el ámbito del reconocimiento de texto manuscrito offline, a lo largo de los años se han desarrollado numerosos algoritmos de normalización que sirven como pasos de preprocesamiento antes de aplicar modelos automáticos de reconocimiento a imágenes de texto manuscrito escaneadas. Estos algoritmos han demostrado ser efectivos en mejorar el rendimiento general de las arquitecturas de reconocimiento. Sin embargo, muchos de estos métodos dependen en gran medida de estrategias heurísticas que no están integradas de manera fluida con la propia arquitectura de reconocimiento. Este artículo introduce el uso de un modelo entrenable Pix2Pix, un tipo específico de red generativa antagónica condicional, como el método para normalizar imágenes de texto manuscrito. Además, este algoritmo puede integrarse sin problemas como la etapa inicial de cualquier arquitectura de aprendizaje profundo diseñada para tareas de reconocimiento manuscrito. Todo esto facilita el entrenamiento de los componentes de normalización y reconocimiento como un todo unificado, manteniendo al mismo tiempo cierta interpretabilidad de cada módulo. Nuestro enfoque de normalización propuesto aprende de una combinación de transformaciones heurísticas aplicadas a imágenes de texto, con el objetivo de mitigar el impacto de la variabilidad intra-personal de la escritura entre diferentes escritores. Como resultado, se logran normalizaciones de pendiente e inclinación, junto con otros objetivos convencionales de preprocesamiento, como la normalización del tamaño de los ascenders y descenders en las palabras del texto. Este trabajo muestra que la arquitectura propuesta replica, y en ciertos casos supera, los resultados de un algoritmo heurístico ampliamente utilizado en dos métricas y cuando se integra como el primer paso de una arquitectura de reconocimiento profundo.
dc.identifier.citation	Barreiro-Garrido A, Ruiz-Parrado V, Moreno AB, Velez JF. A Pix2Pix Architecture for Complete Offline Handwritten Text Normalization. Sensors. 2024; 24(12):3892.
dc.identifier.doi	https://doi.org/10.3390/s24123892
dc.identifier.issn	1424-8220
dc.identifier.uri	https://hdl.handle.net/10115/70877
dc.language.iso	en
dc.publisher	MDPI
dc.rights	Attribution 4.0 International	en
dc.rights.accessRights	info:eu-repo/semantics/openAccess
dc.rights.uri	http://creativecommons.org/licenses/by/4.0/
dc.subject	offline handwriting
dc.subject	scanned text preprocessing
dc.subject	image normalization
dc.subject	IAM dataset
dc.subject	GANs
dc.subject	pix2pix
dc.subject	deep learning
dc.title	A Pix2Pix Architecture for Complete Offline Handwritten Text Normalization
dc.type	Article

Archivos

Bloque original

Mostrando 1 - 1 de 1

Nombre:: sensors-24-03892_A Pix2Pix Architecture.pdf
Tamaño:: 529.19 KB
Formato:: Adobe Portable Document Format

Descargar

Colecciones

Artículos de Revista