OCR (Reconocimiento Óptico de Caracteres) - Tesseract

¡Regresando a Code and Fun con nuevo contenido!

Hoy quería hablaros de una librería de lo más interesante que he tenido que descargar y trabajar con ella en una aplicación de Java. De hecho, tiene bastante que ver con la entrada anterior que publiqué.

Os voy a hablar de la librería llamada Tesseract, que básicamente se trata de una librería que contiene una tecnología que es capaz de convertir imágenes de texto en texto editable, de este modo el ordenador es capaz de leerlo, buscarlo, editarlo, etc.

La aplicación de la que estoy hablando tiene la principal función de procesar un PDF y pegar un texto copiado del portapapeles en él, ¿qué ocurrió? que me encontré con el caso de que podría ocurrir que nos dieran un PDF que no es exactamente un PDF real sino una imagen escaneada, entonces tuve que recurrir a esta librería.


Lo primerito que todo, si vais a aplicar esta librería en vuestra aplicación, tenéis que descargaros cierta carpetita que viene con la última versión de Tesseract y esa carpeta la podéis poner dentro de la carpeta de vuestro proyecto donde guardáis todas las librerías, en la típica carpeta a la que llamamos "lib", por ejemplo. 

El contenido de dicha carpeta es el siguiente:


Cosas importantes:

-dist: Aquí incluye el jar con la última versión de Tesseract.

-lib: Incluye todas las librerías de Tesseract necesarias para que todo funcione.

-tessdata: Aquí se incluyen los idiomas que queremos que el propio Tesseract identifique en las imágenes. El idioma inglés ya viene por defecto.


A partir de aquí voy a mostraros el método exacto que define la lógica del OCR de Tesseract, en el que después de haber investigado por muchos días y realizando pruebas cada dos por tres ha dado sus frutos.


Ahora en mi aplicación cuando arrastro un PDF a una zona de arrastre que tengo, lo escanea guiándose con este método, funciona perfectamente.

En mi caso lib/Tess4J es donde indico que he introducido la carpeta de la librería en mi carpeta "lib" de mi proyecto que es donde almaceno todas las librerías con las que la aplicación trabaja.

Y esto sería todo, quería hablaros de esto principalmente porque me parece muy interesante y la verdad es que resulta también bastante útil.

Os dejo el enlace donde podéis descargar Tesseract: https://sourceforge.net/projects/tess4j/

Cualquier cosa, en el caso de que vayáis a usar esta librería y os surjan dudas, escribidme que como sabéis yo siempre estoy y estaré encantada de leeros.

Saludos, programadores y programadoras.

Comentarios

Entradas populares de este blog

Hablemos de los lenguajes "Basic".

¿Qué es Radzen?

Hablemos del próximo material y de JavaFX.