Una de las filosofías que quiero implantar a mi vida de una vez por todas es la del «Paperless», o traducido al idioma de Cervantes, transformar toda mi documentación de papel a pdf para evitar acumular carpetas y carpetas de plástico que posiblemente volvamos a abrir una o ninguna veces en nuestra vida.
En el artículo Hazel, un mayordomo virtual dentro de tu Mac ya os comentaba las bondades que tenía la aplicación Hazel para realizar toda la clasificación de los documentos digitales que descargamos de Internet. El problema surge cuando tenemos un documento escaneado (por ejemplo una factura) y Hazel no es capaz de «leerlo» puesto que el texto del pdf no existe aún si no le aplicamos una técnica de reconocimiento óptico de caracteres (OCR). Pues bien, en esta entrada os voy a hablar de cómo he solucionado el problema de hacer OCR con Hazel y PDFpen.
OCR con Hazel y PDFpen
Hasta ahora no tenia un flujo de trabajo nada claro para el OCR, pero desde que escuche a Emilio Cano en éste episodio de su podcast Emilcar Daily, las ideas se me han aclarado bastante, por lo que en este nuevo artículo os expongo mi flujo de trabajo actual para, por ejemplo, una factura.
La factura la escaneo directamente desde el iPhone 5 usando la fantástica aplicación Evernote Escannable, que podemos descargar de forma gratuita pulsando éste enlace.
- Una vez que la tengo escaneada, no la guardo en el teléfono, si no que la envío directamente a una carpeta de Dropbox que va a ser monitorizada por Hazel, como veremos más adelante.
- Necesitaremos el programa PDFpen (no es necesaria la versión pro) que podemos comprar por 74,99€ en el Mac App Store pulsando este enlace. Si no estamos seguros de si nos va a servir o no, antes de comprarlo podemos descargar y usar una versión de prueba gratuita directamente de su página web pulsando aquí.
- Pues bien, ahora le toca el turno a Hazel el cual deberá monitorizar la carpeta de Dropbox donde enviemos nuestros documentos escaneados que en mi caso se llama Facturas. Para ello necesitamos crear una nueva regla para dicha carpeta:

- En esta regla lo más destacable es un Apple Script que se encargará de invocar a la aplicación PDFpen cada vez que incluyamos un nuevo documento escaneado. Para ello, pulsaremos la opción Edit script de la imagen anterior y pegaremos el siguiente fragmento de código.
tell application «PDFpenPro»
open theFile as alias
tell document 1
ocr
repeat while performing ocr
delay 1
end repeat
delay 1
close with saving
end tell
tell application «PDFpenPro»
quit
end tell
end tell
A esta forma de trabajar, podremos incorporar un escáner Fujitsu ScanSnap que ahora están en oferta como os comentaba el otro día este artículo y que seguro es el complemento perfecto para la cuadratura del círculo a la hora de eliminar cualquier tipo de documento en papel de nuestras vidas.
Pues bien, hasta aquí el articulo donde os cuento la forma de tratar mis documentos escaneados y hacerles OCR con Hazel y PDFpen de forma automática y sin demasiadas complicaciones. Espero que os haya gustado y parecido interesante esta idea y por supuesto si tenéis alguna duda o bien queréis compartir vuestra forma de hacer OCR a los documentos, poneos en contacto conmigo usando éste formulario. No leemos en el próximo.
Adiós, os!!