Tesseract (logiciel)

Tesseract est un logiciel de reconnaissance optique de caractères sous licence Apache.

Tesseract

Informations
Développé par	Ray Smith (d)
Dernière version	5.3.1 (1^er avril 2023)[1]
Dépôt	github.com/tesseract-ocr/tesseract
Assurance qualité	Intégration continue
Écrit en	C++
Système d'exploitation	GNU/Linux, Microsoft Windows, macOS, BSD, GNU/Hurd (d), Android et iOS
Environnement	Linux, OpenBSD, Mac OS X, Windows
Formats lus	TIFF, Portable Network Graphics, JPEG File Interchange Format (JFIF), JP2 (d) et WebP
Formats écrits	HOCR (en), fichier texte, Portable Document Format, ALTO (XML) et TSV
Type	OCR
Licence	Apache
Documentation	github.com/tesseract-ocr/tessdoc et tesseract-ocr.github.io
Site web	https://github.com/tesseract-ocr/tesseract

Conçu par les ingénieurs de Hewlett Packard de 1985 à 1995, son développement est abandonné pendant les dix années suivantes ; en 2005, les sources du logiciel sont publiées sous licence Apache et Google poursuit son développement. Initialement limité aux caractères ASCII, il reconnaît les caractères UTF-8 dans plus de 100 langues.

Notes et références

« Release 5.3.1 », 1^er avril 2023 (consulté le 4 avril 2023)

Liens externes

(en) Announcing Tesseract OCR (Luc Vincent, Google Code Blog, August 2006)

Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplémentaires peuvent s’appliquer aux fichiers multimédias.