[Toulibre] OCR
jdd
jdd at dodin.org
Lun 5 Sep 09:07:21 CEST 2011
Le 05/09/2011 08:33, Philippe Masson a écrit :
> ait dans son source sous-jascent à l'image des parties en mode caractère.
tu dois avoir raison. Pour vérifier, j'ai inséré dans libreoffice un
scan jpg d'un texte et je l'ai sauvé en pdf.
Il n'est pas possible de sélectionner du texte dans ce fichier.
C'est quand même curieux que, par exemple, pdftohtml ne montre que les
images. Il doit y avoir du code de prorité dans le pdf!
en tout cas cette caractéristique n'était pas signalée dans le
logiciel original (celui livré avec le scanner).
Note qu'aujourd'hui, tesseract fait un excellent travail
merci
jdd
--
http://www.dodin.net
http://www.youtube.com/user/jdddodinorg
http://jdd.blip.tv/
Plus d'informations sur la liste de diffusion Toulouse-ll