Installation et utilisation de Tesseract 4 sur windows 10

Guides Quantrium

Bharath Sivakumar

Follow

Jul 8, 2020 – 7 min lu

.

Tesseract est un moteur de reconnaissance optique de caractères qui peut être utilisé sur différents systèmes d’exploitation. C’est un logiciel libre, publié sous la licence Apache. À l’origine, Tesseract a été développé par Hewlett-Packard en tant que logiciel propriétaire dans les années 1980, puis il a été publié en tant que logiciel libre en 2005. Puis, à partir de 2006, son développement a été sponsorisé par Google. Dans ce guide, je vais vous montrer les étapes que j’ai suivies afin d’installer Tesseract sur ma machine Windows 10. Je vous montrerai également comment utiliser tesseract en ligne de commande une fois que vous l’aurez installé avec succès.

Pour installer Tesseract 4 sur notre système Windows, rendez-vous sur le lien suivant :

Télécharger le fichier exécutable windows en cliquant sur le lien hypertexte intitulé tesseract-ocr-w64-setup-v4.1.0.20190314.exe. Une notification vous demandant d’enregistrer un fichier exe appelé « Tesseract-ocr-w64-setup-v4.1.0.20190314.exe » apparaîtra. Enregistrez ce fichier .exe là où vous avez suffisamment d’espace de stockage.

Ouvrez ce fichier exe. Si la fenêtre vous demande « Voulez-vous permettre à ce logiciel d’apporter des modifications à votre système », cliquez sur oui. Vous serez amené à la section d’installation.

Cliquez sur suivant, cliquez sur J’accepte les termes et conditions et après avoir sélectionné pour qui et tout ce que vous voulez installer Tesseract (toute personne utilisant cet ordinateur/juste pour moi. Vous pouvez sélectionner l’un ou l’autre), cliquez sur suivant.

Cochez les cases qui disent « ScrollView », « Training Tools », « Shortcuts creation » et surtout « Language data ». Celles-ci devraient être cochées par défaut mais faites-les juste au cas où elles n’auraient pas été cochées dans votre système.

Maintenant, si vous voulez faire des prédictions dans des langues étrangères comme le japonais, le chinois, le kurde ou des langues indiennes comme l’hindi, le tamoul, le bengali etc…, cochez également les « données de script supplémentaires » et les « données de langue supplémentaires ». Si vous voulez faire des prédictions uniquement pour la langue anglaise, vous n’avez pas besoin de cocher cette option.

Cliquez sur Suivant. Sélectionnez le répertoire dans lequel vous souhaitez installer Tesseract. Par défaut, il affiche C:\Program Files\Tesseract-OCR pour moi et c’est là que je l’ai installé. Vous pouvez l’installer comme vous le souhaitez. Mais notez bien le chemin où vous avez installé Tesseract sur votre machine. C’est important.

Maintenant, vous pouvez sélectionner le dossier du menu de démarrage dans lequel vous souhaitez créer le raccourci des programmes. Je l’ai créé dans un dossier appelé « Tesseract-OCR ». Si vous le voulez dans un nouveau dossier, il suffit de taper le nom du dossier dans l’espace vide juste sous le texte « Sélectionnez le dossier du menu Démarrer dans lequel vous souhaitez …. ».

Vous pouvez également cocher la case « Ne pas créer de raccourcis » en bas à gauche si vous ne voulez pas créer de raccourcis. Une fois que vous avez terminé de sélectionner votre option préférée, cliquez sur installer. Cela devrait prendre quelques minutes pour que l’installation se fasse.

Une fois l’installation terminée, allez dans le répertoire où vous avez installé votre Tesseract. Nous voulons utiliser Tesseract à partir de notre ligne de commande windows et pour ce faire, nous devons ajouter Tesseract à notre chemin dans la variable d’environnement du système.

Pour ce faire, cliquez sur votre bouton de démarrage sur windows et recherchez « variable d’environnement ». Vous verrez un résultat intitulé « Modifier les variables d’environnement du système ». Cliquez dessus. Après avoir cliqué là-dessus, vous devriez être dans la section « Avancé » de « Propriétés du système » et un bouton appelé « Variables d’environnement …. » devrait être visible en bas à droite. Cliquez sur ce bouton.

Maintenant, vous verrez deux tables ici. Un nommé User variables for <username>. Ici, le <username> est une variable qui représente le nom d’utilisateur utilisant le PC actuellement. L’autre table appelée « Variables système ». Dans le tableau « Variables système », cliquez sur la variable appelée « Path » et ensuite cliquez sur ce bouton appelé « Edit » juste au-dessus du bouton « OK » comme indiqué dans la capture d’écran ci-dessous.

Définir la variable de chemin pour Tesseract sur Windows

Une fois que vous avez terminé, vous verrez une page appelée « Modifier la variable d’environnement ». Ici, en haut à droite, vous verrez un bouton appelé « Nouveau ». Cliquez sur ce bouton « Nouveau ». Vous obtiendrez un espace vide où vous pourrez ajouter du texte. Ici, ajoutez votre nom de répertoire où tous vos fichiers Tesseract-OCR sont stockés.

Une fois que vous avez saisi le nom du répertoire, appuyez sur « Entrée » et vérifiez si votre nom de répertoire a été ajouté à la « Table des variables d’environnement ». Une fois qu’il l’a été, cliquez sur « OK ». Cliquez à nouveau sur « OK » dans la page « Variables d’environnement ». Cliquez à nouveau sur « OK » dans la page « Propriétés du système ». Vous devez avoir quitté toutes les options de paramétrage maintenant.

Ouvrez l’invite de commande et tapez tesseract --version sur l’invite de commande et appuyez sur entrée. Vous verrez quelque chose comme ceci:

Sortie pour tesseract – commande de version après que tesseract ait été installé avec succès

Si vous voyez une erreur comme tesseract command not found, très probablement vous avez fait une erreur en suivant ce guide. Revenez en arrière et voyez où vous avez fait une erreur et essayez de la corriger. Alternativement, vous pouvez répéter tout le processus à nouveau.

Génial ! Maintenant, vous avez Tesseract installé sur votre machine. Vous pouvez commencer à jouer avec et l’explorer davantage.

Comment utiliser Tesseract 4 en utilisant la ligne de commande sur une machine Windows

Premièrement, assurez-vous que vous avez un certain document manuscrit ou un certain document dactylographié sous la forme d’une image. Disons que vous avez une certaine photo sous forme de png appelée handwritten_photo_1 sur votre bureau et que vous voulez tester Tesseract avec elle. Ouvrez votre invite de commande. Vous allez commencer dans ce répertoire:

C:\Users\username>

username est votre nom d’utilisateur sur ce système. J’ai besoin d’aller dans le répertoire du bureau. J’utilise donc la commande suivante:

C:\Users\username> cd Desktop

Maintenant je suis dans le répertoire Desktop, où se trouve mon image. Vous pouvez voir ce que Tesseract prédit du texte dans le document en utilisant la commande suivante:

C:\Users\username\Desktop> tesseract handwritten_photo_1.png stdout -l eng

Tesseract va directement sortir le texte dans la ligne de commande elle-même. Le paramètre -l est utilisé pour spécifier la langue. Ici, nous l’avons spécifié comme étant l’anglais, ce qui est le cas par défaut de toute façon, donc utiliser -l eng était redondant dans ce cas. Si vous voulez utiliser une autre langue pour l’OCR, vérifiez ce lien ici qui a tous les fichiers .traineddata, qui spécifient la langue:

Disons que vous avez un document texte écrit en hindi. Ensuite, allez sur ce lien ci-dessus, cliquez sur le fichier intitulé hin.traineddata et téléchargez-le. Une fois que vous l’avez téléchargé, vous devez vous déplacer dans le dossier « tessdata », qui sera à l’intérieur de votre répertoire où vous aviez initialement installé tesseract. Une fois que vous avez fait cela, vous pouvez effectuer l’OCR de documents Hindi en utilisant la commande suivante:

C:\Users\username\Desktop> tesseract hindi_image.png stdout -l hin

Au lieu d’afficher la sortie OCR sur la ligne de commande elle-même, disons que vous voulez que votre sortie OCR soit stockée dans un fichier texte. Dans ce cas, vous pouvez entrer la commande suivante à la place:

tesseract handwritten_photo_1.png output.txt

Le texte dans handwritten_photo_1.png sera stocké dans un fichier texte appelé output.txt qui sera situé dans votre répertoire de travail actuel, qui était Desktop dans mon cas.

Tesseract peut également prendre un fichier texte en entrée, où le texte doit contenir tous les chemins absolus des images que vous voulez traiter.

Ceci est particulièrement utile lorsque, disons que vous avez deux images écrites à la main en anglais appelées handwritten_photo_1.png et handwritten_photo_2.png dans le répertoire C:\Program Files. Maintenant, dans votre répertoire de travail actuel, vous avez un fichier texte appelé input.txt dont le contenu est:

C:\Program Files\handwritten_photo_1.png
C:\Program Files\handwritten_photo_2.png

Dans la première et la deuxième ligne respectivement.

Maintenant si vous voulez stocker le contenu de ces deux photos manuscrites dans un fichier texte, vous pouvez simplement faire ce qui suit:

tesseract input.txt output.txt -l eng

output.txt aura le contenu OCR des deux handwritten_photo_1.png et handwritten_photo_2.png, dans cet ordre. Ici, vous devez noter que input.txt était dans le répertoire de travail actuel. Vous pouvez utiliser tesseract sur un fichier texte qui ne se trouve pas non plus dans votre répertoire de travail actuel en incluant l’emplacement du répertoire comme ici:

tesseract C:\Program Files\input.txt output.txt -l eng

output.txt sera à nouveau situé dans le répertoire de travail actuel. Vous pouvez également faire cela pour plus de deux photos. Notez que la prédiction d’une nouvelle photo dans le fichier output.txt sera précédée d’un symbole quelconque comme :

Sortie de Tesseract d’un fichier texte d’entrée avec 5 lignes d’emplacements d’images

Donc dans ce cas, Viral Calic est la prédiction pour la première image, CY am the king of the world la prédiction pour la deuxième image, Com and Serr la prédiction pour la troisième image et ainsi de suite. Vous pouvez vérifier la sortie pour toutes vos images d’entrée et vérifier l’exactitude des prédictions.

C’est tout ! Félicitations, vous êtes maintenant tout à fait prêt à utiliser Tesseract sur votre système Windows 10.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.