Installation og brug af Tesseract 4 på windows 10

Quantrium Guides

Bharath Sivakumar

8. jul, 2020 – 7 min læsning

Tesseract er en motor til optisk tegngenkendelse, som kan anvendes på forskellige styresystemer. Det er en fri software, der er udgivet under Apache-licensen. Oprindeligt blev Tesseract udviklet af Hewlett-Packard som proprietær software i 1980’erne, senere blev den frigivet som open source-software i 2005. Fra 2006 blev udviklingen af programmet sponsoreret af Google. I denne vejledning vil jeg tage dig gennem de trin, som jeg fulgte for at installere Tesseract på min Windows 10-maskine. Jeg vil også vise dig, hvordan du kan bruge tesseract fra kommandolinjen, når du har installeret det med succes.

For at installere Tesseract 4 på vores Windows-system skal du gå til følgende link:

Download windows eksekverbar fil ved at klikke på hyperlinket med titlen tesseract-ocr-w64-setup-v4.1.0.20190314.exe. En meddelelse, der beder dig om at gemme en exe-fil kaldet “Tesseract-ocr-w64-setup-v4.1.0.20190314.exe”, vises. Gem denne .exe-fil, hvor du har tilstrækkelig lagerplads.

Åbn denne exe-fil. Hvis den vinduer spørger dig “Vil du tillade denne software at foretage ændringer i dit system”, skal du klikke på ja. Du vil blive ført til installationsafsnittet.

Klik på næste, klik på Jeg accepterer vilkårene og betingelserne, og efter at du har valgt, hvem og hvad du vil installere Tesseract til (alle, der bruger denne computer/kun mig. Du kan vælge det ene eller det andet), skal du klikke på næste.

Kryds feltet, hvor der står “ScrollView”, “Training Tools”, “Shortcuts creation” og vigtigt “Language data”. Disse bør være afkrydset som standard, men gør det bare, hvis de ikke er blevet afkrydset i dit system.

Nu, hvis du vil lave forudsigelser på fremmedsprog som japansk, kinesisk, kurdisk eller indiske sprog som hindi, tamil, bengali osv. skal du også afkrydse “additional script data” og “additional language data”. Hvis du kun vil lave forudsigelser for det engelske sprog, behøver du ikke at afkrydse denne mulighed.

Klik på Næste. Vælg den mappe, hvor du vil installere Tesseract. Som standard viser den C:\Program Files\Tesseract-OCR for mig, og det er der, jeg har installeret det. Du kan installere det efter dit valg. Men noter dig den sti, hvor du har installeret Tesseract på din maskine. Det er vigtigt.

Nu kan du vælge den mappe i startmenuen, hvor du ønsker at oprette genvejen til programmet. Jeg oprettede den i en mappe, der hedder “Tesseract-OCR”. Hvis du vil have den i en ny mappe, skal du blot skrive navnet på mappen i det tomme felt lige under teksten “Vælg den mappe i startmenuen, hvor du vil have ….”.

Du kan også markere feltet “Opret ikke genveje” nederst til venstre, hvis du ikke vil oprette nogen genveje. Når du er færdig med at vælge din foretrukne indstilling, skal du klikke på Installer. Det bør tage et par minutter, før installationen sker.

Når installationen er overstået, skal du gå til den mappe, hvor du har installeret din Tesseract. Vi ønsker at bruge Tesseract fra vores Windows-kommandolinje, og for at gøre det skal vi tilføje Tesseract til vores sti i systemets miljøvariabel.

For at gøre det skal du klikke på din startknap på Windows og søge på “environment variable”. Du vil se et resultat, der hedder “Edit the system environment variables” (Rediger systemets miljøvariabler). Klik på det. Når du har klikket på dette, bør du være i afsnittet “Avanceret” i “Systemegenskaber”, og en knap kaldet “Miljøvariabler ….” bør være synlig nederst til højre. Klik på denne knap.

Nu vil du se to tabeller her. Den ene hedder User variables for <username>. Her er <username> en variabel, der står for det brugernavn, der bruger pc’en i øjeblikket. Den anden tabel hedder “Systemvariabler”. I tabellen “Systemvariabler” klikker du på variablen kaldet “Path” og klikker derefter på denne knap kaldet “Edit” lige over “OK”-knappen, som vist nede i skærmbilledet nedenfor.

Sæt stivariabel for Tesseract på Windows

Når du er færdig med dette, vil du se en side kaldet “Edit environment variable” (Rediger miljøvariabel). Her øverst til højre vil du se en knap, der hedder “New” (Ny). Klik på denne knap “Ny”. Du vil få et tomt felt, hvor du kan tilføje noget tekst. Her skal du tilføje dit mappenavn, hvor alle dine Tesseract-OCR-filer er gemt.

Når du har indtastet mappenavnet, skal du trykke på “Enter” og kontrollere, om dit mappenavn er blevet tilføjet til “Edit environment variable table”. Når det er blevet det, skal du klikke på “OK”. Klik på OK igen på siden “Environment Variables” (miljøvariabler). Klik på “OK” på siden “System Properties” igen. Du skal have forladt alle indstillingsmulighederne nu.

Åbn kommandoprompten, og skriv tesseract --version på kommandoprompten, og tryk på enter. Du vil se noget som dette:

Output for tesseract – version command after tesseract was successfully installed

Hvis du ser en fejl som tesseract command not found, har du højst sandsynligt begået en fejl, mens du fulgte denne vejledning. Gå tilbage og se, hvor du er gået galt, og prøv at rette det. Alternativt kan du gentage hele processen igen.

Godt! Nu har du Tesseract installeret på din maskine. Du kan begynde at lege med det og udforske det yderligere.

Sådan bruger du Tesseract 4 ved hjælp af kommandolinjen på en Windows-maskine

Først skal du sørge for, at du har et håndskrevet dokument eller et indtastet dokument i form af et billede. Lad os sige, at du har et eller andet billede i png-form kaldet handwritten_photo_1 på dit skrivebord, og du vil teste Tesseract med det. Åbn din kommandoprompt. Du starter i denne mappe:

C:\Users\username>

hvor username er dit brugernavn på det pågældende system. Jeg skal gå til skrivebordmappen. Så jeg bruger følgende kommando:

C:\Users\username> cd Desktop

Nu er jeg i mappen Desktop, hvor mit billede er placeret. Du kan se, hvad Tesseract forudsiger teksten i dokumentet ved hjælp af følgende kommando:

C:\Users\username\Desktop> tesseract handwritten_photo_1.png stdout -l eng

Tesseract vil direkte udgive teksten i selve kommandolinjen. Parameteren -l bruges til at angive sproget. Her har vi angivet det som engelsk, hvilket alligevel er tilfældet som standard, så det var overflødigt at bruge -l eng i dette tilfælde. Hvis du vil bruge et andet sprog til OCR, kan du tjekke dette link her, som har alle .traineddata-filer, der angiver sproget:

Sæt, du har et tekstdokument, der er skrevet på hindi. Gå derefter til dette ovenstående link, klik på filen med titlen hin.traineddata og download den. Når du har downloadet den, skal du flytte til mappen “tessdata”, som vil befinde sig i den mappe, hvor du oprindeligt havde installeret tesseract. Når du har gjort det, kan du udføre OCR af Hindi-dokumenter ved hjælp af følgende kommando:

C:\Users\username\Desktop> tesseract hindi_image.png stdout -l hin

I stedet for at vise OCR-udgangen på selve kommandolinjen, lad os sige, at du ønsker, at din OCR-udgang skal gemmes i en tekstfil. I så fald kan du i stedet indtaste følgende kommando:

tesseract handwritten_photo_1.png output.txt

Teksten i handwritten_photo_1.png vil blive gemt i en tekstfil ved navn output.txt, som vil være placeret i din nuværende arbejdskatalog, hvilket i mit tilfælde var Desktop.

Tesseract kan også tage en tekstfil som input, hvor teksten skal indeholde alle de absolutte stier til de billeder, som du ønsker at behandle.

Dette er især nyttigt, når, lad os sige, du har to billeder håndskrevet på engelsk kaldet handwritten_photo_1.png og handwritten_photo_2.png i mappen C:\Program Files. I din nuværende arbejdskatalog har du nu en tekstfil kaldet input.txt, hvis indhold er:

C:\Program Files\handwritten_photo_1.png
C:\Program Files\handwritten_photo_2.png

I henholdsvis første og anden linje.

Nu, hvis du vil gemme indholdet af disse to håndskrevne billeder i en tekstfil, kan du bare gøre følgende:

tesseract input.txt output.txt -l eng

output.txt vil have OCR-indholdet af både handwritten_photo_1.png og handwritten_photo_2.png, i den rækkefølge. Her skal du bemærke, at input.txt var i den aktuelle arbejdskatalog. Du kan også bruge tesseract på en tekstfil, som ikke ligger i din nuværende arbejdsmappe, ved at medtage mappens placering som her:

tesseract C:\Program Files\input.txt output.txt -l eng

output.txt vil igen være placeret i den nuværende arbejdsmappe. Du kan også gøre dette for mere end to fotos. Bemærk, at forudsigelsen for et nyt foto i output.txt-filen vil blive indledt af et symbol som f.eks:

Tesseract output af en input tekstfil med 5 linjer med billedplaceringer

Så i dette tilfælde er Viral Calic forudsigelsen for det første billede, CY am the king of the world forudsigelsen for det andet billede, Com and Serr forudsigelsen for det tredje billede og så videre. Du kan kontrollere output for alle dine indgangsbilleder og kontrollere nøjagtigheden af forudsigelserne.

Det var det! Tillykke, du er nu helt klar og klar til at bruge Tesseract på dit Windows 10-system.

Quantrium Guides

Sådan bruger du Tesseract 4 ved hjælp af kommandolinjen på en Windows-maskine

Skriv et svar Annuller svar