dijous, 7 de gener del 2010

Practicant amb OCR

Avís!!! Article molt técnic d'interés nul per a no freaks dels ordinadors.

Feia temps tenia pendent el fer algunes d'OCR (reconeixement automàtic de caràcters). Finalment avui m'hi he posat una horeta i ja tinc un parell d'opcions que funcionen força bé al meu Ubuntu 9.04.

Aquí les teniu:
#/bin/bash

INPUT=lala.tif
MID1=out.ppm
MID2=bw.ppm
OUTPUT=result
MID3=$OUTPUT.tif

rm $MID1 $MID2 $MID3 $OUTPUT.txt

## OPTION 1: tesseract
anytopnm < $INPUT > $MID1 ; pnmdepth 1 $MID1 > $MID2 ; pnmtotiff < $MID2 > $MID3 ; tesseract $MID3 $OUTPUT -l eng ; cat $OUTPUT.txt

## OPTION 2: gocr
tifftopnm $INPUT | gocr -v 0 -m 0 -e - -f UTF8 -