A Pix2Pix Architecture for Complete Offline Handwritten Text Normalization
dc.contributor.author | Barreiro-Garrido, Alvaro | |
dc.contributor.author | Ruiz-Parrado, Victoria | |
dc.contributor.author | Moreno, A. Belen | |
dc.contributor.author | Velez, Jose F. | |
dc.date.accessioned | 2025-01-30T09:57:44Z | |
dc.date.available | 2025-01-30T09:57:44Z | |
dc.date.issued | 2024-06-16 | |
dc.description.abstract | En el ámbito del reconocimiento de texto manuscrito offline, a lo largo de los años se han desarrollado numerosos algoritmos de normalización que sirven como pasos de preprocesamiento antes de aplicar modelos automáticos de reconocimiento a imágenes de texto manuscrito escaneadas. Estos algoritmos han demostrado ser efectivos en mejorar el rendimiento general de las arquitecturas de reconocimiento. Sin embargo, muchos de estos métodos dependen en gran medida de estrategias heurísticas que no están integradas de manera fluida con la propia arquitectura de reconocimiento. Este artículo introduce el uso de un modelo entrenable Pix2Pix, un tipo específico de red generativa antagónica condicional, como el método para normalizar imágenes de texto manuscrito. Además, este algoritmo puede integrarse sin problemas como la etapa inicial de cualquier arquitectura de aprendizaje profundo diseñada para tareas de reconocimiento manuscrito. Todo esto facilita el entrenamiento de los componentes de normalización y reconocimiento como un todo unificado, manteniendo al mismo tiempo cierta interpretabilidad de cada módulo. Nuestro enfoque de normalización propuesto aprende de una combinación de transformaciones heurísticas aplicadas a imágenes de texto, con el objetivo de mitigar el impacto de la variabilidad intra-personal de la escritura entre diferentes escritores. Como resultado, se logran normalizaciones de pendiente e inclinación, junto con otros objetivos convencionales de preprocesamiento, como la normalización del tamaño de los ascenders y descenders en las palabras del texto. Este trabajo muestra que la arquitectura propuesta replica, y en ciertos casos supera, los resultados de un algoritmo heurístico ampliamente utilizado en dos métricas y cuando se integra como el primer paso de una arquitectura de reconocimiento profundo. | |
dc.identifier.citation | Barreiro-Garrido A, Ruiz-Parrado V, Moreno AB, Velez JF. A Pix2Pix Architecture for Complete Offline Handwritten Text Normalization. Sensors. 2024; 24(12):3892. | |
dc.identifier.doi | https://doi.org/10.3390/s24123892 | |
dc.identifier.issn | 1424-8220 | |
dc.identifier.uri | https://hdl.handle.net/10115/70877 | |
dc.language.iso | en | |
dc.publisher | MDPI | |
dc.rights | Attribution 4.0 International | en |
dc.rights.accessRights | info:eu-repo/semantics/openAccess | |
dc.rights.uri | http://creativecommons.org/licenses/by/4.0/ | |
dc.subject | offline handwriting | |
dc.subject | scanned text preprocessing | |
dc.subject | image normalization | |
dc.subject | IAM dataset | |
dc.subject | GANs | |
dc.subject | pix2pix | |
dc.subject | deep learning | |
dc.title | A Pix2Pix Architecture for Complete Offline Handwritten Text Normalization | |
dc.type | Article |
Archivos
Bloque original
1 - 1 de 1
Cargando...
- Nombre:
- sensors-24-03892_A Pix2Pix Architecture.pdf
- Tamaño:
- 529.19 KB
- Formato:
- Adobe Portable Document Format