[Toulibre] OCR
jdd
jdd at dodin.org
Dim 4 Sep 12:40:16 CEST 2011
Le 04/09/2011 12:11, momo a écrit :
> je sais c'est pour ça que je viens de demmarrer avec gscan2pdf, je
> nage encore dans l'inconnu, mon experience a deux heures où j'ai
> commencé a installer , j'ai des fichiers .pnm dans tmp que je sais pas
> quoi en faire, voila je commence juste à apprendre, je peux pas
> conseiller à ce stade.
> je serai plutôt en attente d'aide.
>
:-)
je suis un peu dans le même cas. Il y a des années j'ai scanné des
livres de mon père sous forme de pdf. Je voudrais maintenant en tirer
le texte pour qu'il soit plus facilement lisible.
Mon idée est de faire un pdftotif puis de faire un batch scan avec
tesseract, mais je commence à peine à m'en occuper.
je n'ai, pour l'instant, fait que des essais depuis des jpg. J'utilise
deux scripts, l'un pour convetir les jpg en tif:
#!/bin/sh
# usage: se placer dans le répertoire des photos originales
#lancer "sh jpgtotif.sh"
#
#for I in *.jpg ; do
# b=`echo "$I" | cut -d'.' -f1` ;
# convert $I $b.tif
#
#done
for I in *.jpeg ; do
#echo $I
b=`echo "$I" | cut -d'.' -f1` ;
convert $I $b.tif
done
l'autre pour tesseract:
for I in *.tif ; do
echo $I
b=`echo "$I" | cut -d'.' -f1` ;
tesseract $I $b -l fra
done
mes originaux sont très mauvais, du coup, hélas, les résultats aussi
les originaux: http://dodin.org/lucien/luciendodin-free/bio/photos.html
jdd
--
http://www.dodin.net
http://www.youtube.com/user/jdddodinorg
http://jdd.blip.tv/
Plus d'informations sur la liste de diffusion Toulouse-ll