Comparativa de servicios OCR para documentos administrativos en PDF con Java/Tess4J y Python/EasyOCR

Contenido principal del artículo

Israel Ortega Cuevas
https://orcid.org/0000-0001-6352-5400

Resumen

Las entidades y dependencias universitarias manejan documentos administrativos, que a menudo están almacenados en formatos digitales que consisten exclusivamente en imágenes. Esto genera demoras en el acceso al contenido, y dificulta su utilidad en búsquedas y toma de decisiones. Con el propósito de acceder al contenido de texto de estos documentos, se desarrollaron y compararon dos servicios web de procesamiento óptico de caracteres (OCR). El primer servicio está implementado en lenguaje Java, utilizando el marco de desarrollo Spring y la biblioteca Tess4J, mientras que el segundo servicio se ha desarrollado en Python, haciendo uso de la biblioteca EasyOCR. En esta comparación, se evaluaron los tiempos de respuesta al procesar 50 documentos con contenido administrativo y en formato PDF, los cuales contienen información exclusivamente en forma de imágenes. El código fuente de ambos servicios está disponible en el repositorio GitHub, lo que facilita su implementación y uso. Los resultados indican que el servicio Java presenta un tiempo de procesamiento de documentos con una ventaja de dos segundos respecto a Python; sin embargo, se destaca que los resultados pueden variar en condiciones distintas, ya sea porque los algoritmos de OCR utilizados implementan procesos diferentes, o en el caso de documentos de otro ámbito distinto al administrativo, o bien, por encontrarse en equipos con tarjeta gráfica dedicada. Es importante señalar como limitación de este estudio que no se considera la precisión del texto recuperado.

Descargas

Los datos de descargas todavía no están disponibles.

Detalles del artículo

Cómo citar
Ortega Cuevas, I. (2024). Comparativa de servicios OCR para documentos administrativos en PDF con Java/Tess4J y Python/EasyOCR. Cuadernos Técnicos Universitarios De La DGTIC, 2(1). https://doi.org/10.22201/dgtic.ctud.2024.2.1.37 (Original work published 13 de febrero de 2024)
Sección
Reportes técnicos
Biografía del autor/a

Israel Ortega Cuevas, Dirección General de Personal, Universidad Nacional Autónoma de México

.

Citas

Broadcom. (2023). Spring makes Java simple. Recuperado el 28 de noviembre de 2023, de https://spring.io/

Gosling, J., Joy, B., Steele, G., Bracha, G., y Buckley, A. (2015). The Java® Language Specification Java SE 8 Edition. Oracle America, Inc.

JAIDED AI. (2023). EasyOCR. Recuperado de https://github.com/JaidedAI/EasyOCR

Kay, A. (2007). Tesseract: an Open-Source Optical Character Recognition Engine. Linux Journal, (159). Recuperado de https://www.linuxjournal.com/article/9676

Klippa. (2023). Tesseract OCR: ¿Qué es y por qué lo deberías elegir en el 2023? Recuperado de https://www.klippa.com/es/blog/informativo/que-es-tesseract-ocr/

Lind, D. A., Marchal, W. G., y Wathen, S. A. (2019). Estadística aplicada a los negocios y la economía (19 ed.). McGraw Hill.

Llorens F. (2022). Transformación digital, ¿otro término de moda? En Transformación digital de las universidades: hacia un futuro postpandemia / coord. por Faraón Llorens Largo, Rafael López Meseguer (pp. 18–26).

Martelli, A., Ravenscroft, A., y Holden, S. (2017). Python in a Nutshell, 3rd Edition. O’Reilly Media, Inc.

Olah, C. (2015). Understanding LSTM Networks. Recuperado de colah’s blog website: https://colah.github.io/posts/2015-08-Understanding-LSTMs/

Oracle Inc. (2023). Java. Recuperado el 28 de noviembre de 2023, de https://www.oracle.com/java/

Pallets. (2023). Flask. Recuperado el 30 de noviembre de 2023, de https://flask.palletsprojects.com/en/3.0.x/

Tess4J. (2022). Tess4J. Recuperado el 29 de noviembre de 2023, de https://tess4j.sourceforge.net/

The Apache Software Foundation. (2023). Apache PDFBox® - A Java PDF Library. Recuperado el 30 de noviembre de 2023, de https://pdfbox.apache.org/

Wexelblat, R. L. (1981). History of Programming Languages. Academic Press.