Entradas

Mostrando entradas de noviembre, 2025

OCR (Reconocimiento Óptico de Caracteres) - Tesseract

Imagen
¡Regresando a Code and Fun con nuevo contenido! Hoy quería hablaros de una librería de lo más interesante que he tenido que descargar y trabajar con ella en una aplicación de Java. De hecho, tiene bastante que ver con la entrada anterior que publiqué. Os voy a hablar de la librería llamada Tesseract, que básicamente se trata de una librería que contiene una tecnología que es capaz de convertir imágenes de texto en texto editable, de este modo el ordenador es capaz de leerlo, buscarlo, editarlo, etc. La aplicación de la que estoy hablando tiene la principal función de procesar un PDF y pegar un texto copiado del portapapeles en él, ¿qué ocurrió? que me encontré con el caso de que podría ocurrir que nos dieran un PDF que no es exactamente un PDF real sino una imagen escaneada, entonces tuve que recurrir a esta librería. Lo primerito que todo, si vais a aplicar esta librería en vuestra aplicación, tenéis que descargaros cierta carpetita que viene con la última versión de Tesseract y esa c...