[Toulibre] OCR

Sylvain sylvain-liste at marliere.org
Dim 4 Sep 13:10:02 CEST 2011


La plupart des scanners produisent malheureusement par défaut du JPG 
150dpi dans l'encapsulation PDF. Certains sont paramétrables pour 
produire un format bitmap (BMP, TIF, PNG) donc sans pertes.
Ces formats, en 300dpi ou plus, sont mieux que le JPG pour conserver les 
documents (hors photos), surtout le PNG qui est indexable (limitation du 
nombre de couleurs, donc de la taille du fichier) et auto-compressible. 
Un résultat bien meilleur que le JPG, sans pertes.

Pdftoppm permet d'extraire un PDF en bitmap PPM, en choisissant une 
forte résolution pour en prendre "plus que nécessaire".
Ensuite, un traitement avec Gimp (filtres NL et Dépoussiérage) permet 
d'enlever pas mal de piqués et bruits:
  http://docs.gimp.org/en/plug-in-nlfilt.html
  http://docs.gimp.org/en/plug-in-despeckle.html
Les grosses taches peuvent être effacées à la main mais c'est très long 
et fastidieux.
Cela donne toutes les chances pour passer dans une OCR...

Le document peut être sauvé au format PNG, en noir et blanc ou en indexé 
pour prendre le moins de place possible (100Ko/page en moyenne).
Il peut être converti en TIF (2Mo/page) avec convert, si besoin OCR.
Les pages PNG propres peuvent être remises en PDF avec sam2p et 
concaténées avec pdftk en un seul document (100Ko/page).

Les conversions aller-et-retour entre PDF et bitmap sont sans pertes, 
pourvu que l'on choisisse une résolution égale (ou supérieure) à la 
résolution originale du document, et que l'on ne passe pas par du JPEG.

-Sylvain


---------- Original Message ----------
From: jdd at dodin.org
Sent: Sun, 04 Sep 2011 12:40:16 +0200
>
> je suis un peu dans le même cas. Il y a des années j'ai scanné des
> livres de mon père sous forme de pdf. Je voudrais maintenant en tirer le
> texte pour qu'il soit plus facilement lisible.
>
> Mon idée est de faire un pdftotif puis de faire un batch scan avec
> tesseract, mais je commence à peine à m'en occuper.
>
> je n'ai, pour l'instant, fait que des essais depuis des jpg. J'utilise
> deux scripts, l'un pour convetir les jpg en tif:
>



Plus d'informations sur la liste de diffusion Toulouse-ll