Tesseract 4:n asentaminen ja käyttö windows 10:ssä

Quantrium-oppaat

Bharath Sivakumar

Seuraa

8.7, 2020 – 7 min lukea

Polkumuuttujan asettaminen Tesseractia varten Windowsissa

Kun olet saanut tämän tehtyä, saat näkyviin sivun nimeltä ”Muokkaa ympäristömuuttuja”. Täällä oikeassa yläkulmassa näet painikkeen nimeltä ”New”. Napsauta tuota ”New”-painiketta. Saat tyhjän tilan, johon voit lisätä tekstiä. Lisää tähän hakemistosi nimi, johon kaikki Tesseract-OCR-tiedostot on tallennettu.

Kun olet kirjoittanut hakemiston nimen, paina ”Enter” ja tarkista, onko hakemistosi nimi lisätty ”Edit environment variable table” -taulukkoon. Kun se on lisätty, napsauta ”OK”. Napsauta OK uudelleen ”Ympäristömuuttujat”-sivulla. Napsauta ”OK” ”Järjestelmän ominaisuudet” -sivulla uudelleen. Sinun on nyt poistuttava kaikista asetusvaihtoehdoista.

Avaa komentorivi ja kirjoita komentoriville tesseract --version ja paina enteriä. Näet jotain tällaista:

Tesseract – version komennon tuloste tesseractin onnistuneen asentamisen jälkeen

Jos näet virheen tesseract command not found kaltaisen virheen, olet luultavasti tehnyt jonkun virheen seuratessasi tätä opasta. Palaa takaisin ja katso, missä olet mennyt pieleen ja yritä korjata se. Vaihtoehtoisesti voit toistaa koko prosessin uudelleen.

Hienoa! Nyt sinulla on Tesseract asennettuna koneellesi. Voit alkaa leikkiä sillä ja tutkia sitä tarkemmin.

How to use Tesseract 4 using Command Line on a Windows Machine

Aluksi varmista, että sinulla on jokin käsinkirjoitettu asiakirja tai jokin koneella kirjoitettu asiakirja kuvan muodossa. Oletetaan, että sinulla on työpöydälläsi jokin png-muotoinen kuva nimeltä handwritten_photo_1 ja haluat testata Tesseractia sen avulla. Avaa komentorivi. Aloitat tästä hakemistosta:

C:\Users\username>

jossa username on käyttäjänimesi kyseisessä järjestelmässä. Minun on mentävä työpöydän hakemistoon. Käytän siis seuraavaa komentoa:

C:\Users\username> cd Desktop

Nyt olen Desktop-hakemistossa, jossa kuvani sijaitsee. Voit nähdä, mitä Tesseract ennustaa asiakirjan tekstiksi seuraavalla komennolla:

C:\Users\username\Desktop> tesseract handwritten_photo_1.png stdout -l eng

Tesseract tulostaa tekstin suoraan itse komentoriville. Parametrilla -l määritetään kieli. Tässä olemme määritelleet sen englanniksi, joka on joka tapauksessa oletusarvoisesti käytössä, joten -l eng:n käyttäminen oli tässä tapauksessa tarpeetonta. Jos haluat käyttää jotain muuta kieltä OCR:ää varten, tarkista tämä linkki, jossa on kaikki .traineddata-tiedostot, jotka määrittelevät kielen:

Esimerkiksi sinulla on hindiksi kirjoitettu tekstiasiakirja. Mene sitten tähän yllä olevaan linkkiin, napsauta tiedostoa hin.traineddata ja lataa se. Kun olet ladannut sen, sinun on siirrettävä ”tessdata”-kansioon, joka on hakemistosi sisällä, johon olit alun perin asentanut tesseractin. Kun olet tehnyt tämän, voit suorittaa Hindi-asiakirjojen OCR-tulostuksen käyttämällä seuraavaa komentoa:

C:\Users\username\Desktop> tesseract hindi_image.png stdout -l hin

Sen sijaan, että näyttäisit OCR-tulostuksen itse komentorivillä, sanotaan, että haluat OCR-tulostuksen tallentuvan tekstitiedostoon. Siinä tapauksessa voit sen sijaan antaa seuraavan komennon:

tesseract handwritten_photo_1.png output.txt

Teksti handwritten_photo_1.png tallennetaan tekstitiedostoon nimeltä output.txt, joka sijaitsee nykyisessä työhakemistossasi, joka minun tapauksessani oli Desktop.

Tesseract voi ottaa syötteenä myös tekstitiedoston, jossa tekstin on sisällettävä kaikki niiden kuvien absoluuttiset polut, joita haluat käsitellä.

Tämä on erityisen hyödyllistä silloin, kun sinulla on vaikkapa kaksi englanninkielistä käsinkirjoitettua kuvaa handwritten_photo_1.png ja handwritten_photo_2.png hakemistossa C:\Program Files. Nyt sinulla on nykyisessä työhakemistossasi tekstitiedosto nimeltä input.txt, jonka sisältö on:

C:\Program Files\handwritten_photo_1.png
C:\Program Files\handwritten_photo_2.png

Ensimmäisellä ja toisella rivillä vastaavasti.

Nyt jos haluat tallentaa näiden kahden käsinkirjoitetun kuvan sisällön tekstitiedostoon, voit tehdä vain seuraavasti:

tesseract input.txt output.txt -l eng

output.txt saat OCR-sisällön molemmista kuvista handwritten_photo_1.png ja handwritten_photo_2.png, tässä järjestyksessä. Tässä kannattaa huomata, että input.txt oli nykyisessä työhakemistossa. Voit käyttää tesseractia myös sellaiseen tekstitiedostoon, joka ei ole nykyisessä työhakemistossasi, lisäämällä hakemiston sijainnin kuten tässä:

tesseract C:\Program Files\input.txt output.txt -l eng

output.txt on taas nykyisessä työhakemistossa. Voit tehdä tämän myös useammalle kuin kahdelle valokuvalle. Huomaa, että output.txt-tiedostossa olevan uuden valokuvan ennustetta edeltää jokin symboli kuten esim:

Tesseractin tuloste syötetystä tekstitiedostosta, jossa on 5 riviä kuvien sijainteja

Tässä tapauksessa siis Viral Calic on ensimmäisen kuvan ennuste, CY am the king of the world toisen kuvan ennuste, Com and Serr kolmannen kuvan ennuste ja niin edelleen. Voit tarkistaa tuloksen kaikille syöttämillesi kuville ja tarkistaa ennusteiden tarkkuuden.

Se on siinä! Onnittelut, olet nyt valmis käyttämään Tesseractia Windows 10 -järjestelmässäsi.

Quantrium-oppaat

How to use Tesseract 4 using Command Line on a Windows Machine

Vastaa Peruuta vastaus