Guias Quantrium
Tesseract é um motor de reconhecimento óptico de caracteres que pode ser usado em vários sistemas operacionais. É um software livre, lançado sob a licença Apache. Originalmente, o Tesseract foi desenvolvido pela Hewlett-Packard como software proprietário nos anos 80, mais tarde, foi lançado como um software de código aberto em 2005. Depois, a partir de 2006, o seu desenvolvimento está a ser patrocinado pelo Google. Neste guia, vou levá-lo através dos passos que segui para instalar o Tesseract na minha máquina Windows 10. Também lhe mostrarei como você pode usar o Tesseract fora da linha de comando depois de tê-lo instalado com sucesso.
Para instalar o Tesseract 4 em nosso sistema Windows, vá para o seguinte link:
Download do arquivo executável do Windows clicando no hiperlink intitulado tesseract-ocr-w64-setup-v4.1.0.20190314.exe. Uma notificação pedindo-lhe para guardar um ficheiro exe chamado “Tesseract-ocr-w64-setup-v4.1.0.20190314.exe” irá aparecer. Salve este arquivo .exe onde você tiver espaço de armazenamento suficiente.
Abra este arquivo exe. Se o Windows lhe perguntar “Você quer permitir que este software faça alterações no seu sistema”, clique sim. Você será levado para a seção de instalação.
A seguir, clique I agree to the terms and conditions e depois de selecionar para quem e tudo que você quer instalar o Tesseract (qualquer um que use este computador/apenas para mim. Você pode selecionar qualquer um dos dois), clique em next.
Clique nas caixas que dizem “ScrollView”, “Training Tools”, “Shortcuts creation” e, o que é importante, “Language data”. Estas devem ser marcadas por padrão, mas apenas as faça caso não tenham sido marcadas em seu sistema.
Agora, se você quiser fazer previsões em línguas estrangeiras como japonês, chinês, curdo ou indiano como o hindi, tâmil, bengali etc., marque também os “dados adicionais do script” e “dados adicionais do idioma”. Se quiser fazer previsões apenas para a língua inglesa, não precisa de assinalar esta opção.
Click on Next. Selecione o diretório onde você quer instalar o Tesseract. Por padrão, ele mostra C:\Program Files\Tesseract-OCR
para mim e é onde eu o instalei. Você pode instalá-lo conforme a sua escolha. Mas tome nota do caminho onde você instalou o Tesseract na sua máquina. Isto é importante.
Agora você pode selecionar a pasta do menu iniciar na qual você gostaria de criar o atalho do programa. Eu criei-o numa pasta chamada “Tesseract-OCR”. Se você o quiser em uma nova pasta, basta digitar o nome da pasta no espaço em branco logo abaixo do texto “Select the Start Menu folder in which you would like ….”.
Você também pode marcar a caixa “Do not create shortcuts” no canto inferior esquerdo se você não quiser criar nenhum atalho. Uma vez terminada a selecção da sua opção preferida, clique em instalar. Deve levar alguns minutos para que a instalação aconteça.
Após a instalação terminar, vá para o diretório onde você instalou seu Tesseract. Queremos usar o Tesseract a partir da nossa linha de comando do windows e para isso, temos de adicionar o Tesseract ao nosso caminho na variável de ambiente do sistema.
Para isso, clique no botão iniciar no windows e procure “variável de ambiente”. Você verá um resultado chamado “Editar as variáveis de ambiente do sistema”. Clique sobre isso. Depois de clicar nisso, você deve estar na seção “Avançado” de “Propriedades do sistema” e um botão chamado “Variáveis de ambiente ….” deve estar visível no canto inferior direito. Clique nesse botão.
Agora, você verá duas tabelas aqui. Uma chamada User variables for <username>
. Aqui, a <username>
é uma variável que representa o nome de usuário usando o PC atualmente. A outra tabela chamada “System variables” (Variáveis do sistema). Na tabela “Variáveis do sistema” clique na variável chamada “Path” e depois clique neste botão chamado “Edit” logo acima do botão “OK” como mostrado na imagem abaixo.
A partir do momento em que você terminar, você verá uma página chamada “Editar variável de ambiente”. Aqui no canto superior direito, você verá um botão chamado “New” (Novo). Clique no botão “Novo”. Você terá um espaço em branco onde você pode adicionar algum texto. Aqui, adicione o nome do seu diretório onde todos os seus arquivos Tesseract-OCR são armazenados.
Após ter digitado o nome do diretório, pressione “Enter” e verifique se o nome do seu diretório foi adicionado à “Edit environment variable table”. Uma vez que tenha sido, clique em “OK”. Clique novamente em OK na página “Variáveis de Ambiente”. Clique novamente em “OK” na página “Propriedades do Sistema”. Você deve ter saído de todas as opções de configuração agora.
Abrir prompt de comando e digite tesseract --version
no prompt de comando e pressione enter. Você verá algo como isto: