[Toulibre] OCR

jdd jdd at dodin.org
Lun 5 Sep 09:07:21 CEST 2011


Le 05/09/2011 08:33, Philippe Masson a écrit :

> ait dans son source sous-jascent à l'image des parties en mode caractère.

tu dois avoir raison. Pour vérifier, j'ai inséré dans libreoffice un 
scan jpg d'un texte et je l'ai sauvé en pdf.

Il n'est pas possible de sélectionner du texte dans ce fichier.

C'est quand même curieux que, par exemple, pdftohtml ne montre que les 
images. Il doit y avoir du code de prorité dans le pdf!

en tout cas cette caractéristique n'était pas signalée dans le 
logiciel original (celui livré avec le scanner).

Note qu'aujourd'hui, tesseract fait un excellent travail

merci
jdd


-- 
http://www.dodin.net
http://www.youtube.com/user/jdddodinorg
http://jdd.blip.tv/



Plus d'informations sur la liste de diffusion Toulouse-ll