[Toulibre] OCR

jdd jdd at dodin.org
Dim 4 Sep 12:40:16 CEST 2011


Le 04/09/2011 12:11, momo a écrit :

> je sais c'est pour ça que je viens de demmarrer avec gscan2pdf, je
> nage encore dans l'inconnu, mon experience a deux heures où j'ai
> commencé a installer , j'ai des fichiers .pnm dans tmp que je sais pas
> quoi en faire, voila je commence juste à apprendre, je peux pas
> conseiller à ce stade.
> je serai plutôt en attente d'aide.
>

:-)

je suis un peu dans le même cas. Il y a des années j'ai scanné des 
livres de mon père sous forme de pdf. Je voudrais maintenant en tirer 
le texte pour qu'il soit plus facilement lisible.

Mon idée est de faire un pdftotif puis de faire un batch scan avec 
tesseract, mais je commence à peine à m'en occuper.

je n'ai, pour l'instant, fait que des essais depuis des jpg. J'utilise 
deux scripts, l'un pour convetir les jpg en tif:

#!/bin/sh
# usage: se placer dans le répertoire des photos originales
#lancer "sh jpgtotif.sh"
#

#for I in *.jpg ; do
#	b=`echo "$I" | cut -d'.' -f1` ;
#	convert $I $b.tif
#	
#done

for I in *.jpeg ; do
#echo $I
	b=`echo "$I" | cut -d'.' -f1` ;
	convert $I $b.tif
	
done

l'autre pour tesseract:

for I in *.tif ; do
	echo $I
	b=`echo "$I" | cut -d'.' -f1` ;
	tesseract $I $b -l fra
	
done

mes originaux sont très mauvais, du coup, hélas, les résultats aussi

les originaux: http://dodin.org/lucien/luciendodin-free/bio/photos.html

jdd

-- 
http://www.dodin.net
http://www.youtube.com/user/jdddodinorg
http://jdd.blip.tv/



Plus d'informations sur la liste de diffusion Toulouse-ll