[Toulibre] OCR

Dim 4 Sep 12:40:16 CEST 2011

Le 04/09/2011 12:11, momo a écrit :

> je sais c'est pour ça que je viens de demmarrer avec gscan2pdf, je
> nage encore dans l'inconnu, mon experience a deux heures où j'ai
> commencé a installer , j'ai des fichiers .pnm dans tmp que je sais pas
> quoi en faire, voila je commence juste à apprendre, je peux pas
> conseiller à ce stade.
> je serai plutôt en attente d'aide.
>

:-)

je suis un peu dans le même cas. Il y a des années j'ai scanné des 
livres de mon père sous forme de pdf. Je voudrais maintenant en tirer 
le texte pour qu'il soit plus facilement lisible.

Mon idée est de faire un pdftotif puis de faire un batch scan avec 
tesseract, mais je commence à peine à m'en occuper.

je n'ai, pour l'instant, fait que des essais depuis des jpg. J'utilise 
deux scripts, l'un pour convetir les jpg en tif:

#!/bin/sh
# usage: se placer dans le répertoire des photos originales
#lancer "sh jpgtotif.sh"
#

#for I in *.jpg ; do
#	b=`echo "$I" | cut -d'.' -f1` ;
#	convert $I $b.tif
#	
#done

for I in *.jpeg ; do
#echo $I
	b=`echo "$I" | cut -d'.' -f1` ;
	convert $I $b.tif

done

l'autre pour tesseract:

for I in *.tif ; do
	echo $I
	b=`echo "$I" | cut -d'.' -f1` ;
	tesseract $I $b -l fra

done

mes originaux sont très mauvais, du coup, hélas, les résultats aussi

les originaux: http://dodin.org/lucien/luciendodin-free/bio/photos.html

jdd

-- 
http://www.dodin.net
http://www.youtube.com/user/jdddodinorg
http://jdd.blip.tv/