Algoritmo basado en inteligencia artificial para el procesamiento de libros caja manuscritos y su conversión a archivos de datos estructurados

Abstract
La digitalización de libros antiguos es una tarea que es aún desafiante en la actualidad, a pesar del avance tecnológico. No toda la información disponible en el mundo ha sido digitalizada, por ende, aún se desconocen varios hechos importantes de la historia. Ante esto, la inteligencia artificial es una herramienta que nos permite convertir texto escrito o impreso en un formato digital manejable, el Reconocimiento Óptico de Caracteres (OCR por sus siglas en inglés). Sin embargo, esta herramienta no entrega un resultado legible si no se tiene en cuenta la estructura de la información a procesar. La tesis tiene como objetivo diseñar y validar un algoritmo basado en inteligencia artificial para el procesamiento de libros caja manuscritos de la empresa Duncan-Fox de los años 1881-1889 y su conversión a archivos de datos estructurados. La solución propuesta es una herramienta que permitiría estudiar la historia económica de Piura mediante la influencia de la casa comercial Duncan-Fox, empresa de gran participación en el mercado piurano entre los siglos XIX – XX. Para la metodología de esta investigación se analizó la precisión de lectura de diversas OCR disponibles en internet, algunas de paga y otras gratuitas, con el fin de encontrar la más adecuada para las características de los libros. Por otra parte, fue necesario el uso de materiales como cámara profesional, guantes quirúrgicos y copy stand para la digitalización de las páginas de los libros caja. Así como el empleo de redes neuronales para diseñar modelos de detección que permitan identificar la estructura de las páginas para, posteriormente estructurar la información mediante programación. El algoritmo diseñado se define en una secuencia de seis pasos: digitalización de libro, normalización, detección de líneas verticales, detección de líneas horizontales, detección de texto y estructuración. Este algoritmo fue validado cumpliendo con el objetivo planteado y sembrando ideas de trabajo a futuro para expandir la investigación.
Description
Keywords
Libros de contabilidad -- Digitalización, Libros antiguos -- Digitalización -- Inteligencia artificial, Manuscritos -- Inteligencia artificial -- Aplicación
Citation
Chapilliquen, D. (2024). Algoritmo basado en inteligencia artificial para el procesamiento de libros caja manuscritos y su conversión a archivos de datos estructurados (Tesis para optar el título de Ingeniero Industrial y de Sistemas). Universidad de Piura. Facultad de Ingeniería. Programa Académico de Ingeniería Industrial y de Sistemas. Piura, Perú.