Retour
Documentation
OCR : rendre un scan cherchable
L'outil OCR n'est pas encore actif. Cette page prépare les bonnes pratiques pour obtenir un scan exploitable quand il ouvrira.
Un bon OCR commence par un bon scan
- 300 DPI minimum — en dessous, les caractères deviennent flous, l'OCR confond e/c, o/0, l/1.
- Contraste fort — noir sur blanc idéal. Évite les fonds colorés ou les photos prises de biais.
- Pas trop incliné — Pdfjet corrige jusqu'à ±5°, au-delà la précision chute.
- Une seule langue par page — si c'est mélangé, sélectionne la langue principale.
Sous le capot
Trois passes en interne :
- Pré-traitement : redressement, contraste, déskew.
- Reconnaissance : moteur ML qui repère chaque caractère, mot, ligne.
- Reconstruction : génération d'une couche texte invisible par-dessus l'image. Le rendu visuel ne change pas, mais le PDF devient cherchable.
Ce que l'OCR ne fait pas
- L'écriture manuscrite — précision <50%, à éviter.
- Les polices très décoratives (gothique, calligraphie).
- Les langues à idéogrammes complexes en basse résolution.
- Les tableaux dont la structure n'est pas conservée (utilise PDF → CSV pour ça).
Bientôt disponible
L'outil OCR PDF est documenté, mais le traitement n'est pas encore ouvert.
Extraire le texte d'un PDF →