Pytesseract 辨識圖片中的文字

4 min readMay 10, 2020

--

OCR 指的是光學字元辨識 (Optical Character Recognition)，將圖片中的文字進行處理來獲得文字上的資訊。其中最鼎鼎大名的就是開源的Tesseract。Tesseract 最早由HP開發，後貢獻給開源軟體。在2005年後Google對Tesseract進行改進、優化。2006年時tesseract是最精準的OCR工具之一。

一、 Tesseract 安裝

如果你是linux系統，你只需要apt-get install tesseract-ocr 即可。如果你要在windows玩玩tesseract，那就比較麻煩了

首先先下載安裝檔: https://github.com/UB-Mannheim/tesseract/wiki

下載後安裝，安裝時順便安裝中文包與確認安裝目錄

接下來進入系統設定添加環境變數

添加環境變數

接下來確認是否完成，打開cmd 輸入tesseract -v，如果有印出東西代表成功了。

接著安裝pytesseract給python與tesseract的接口

pip3 install pytesseract

二、PyTesseract

Pytesseract 是Google’s Tesseract-OCR的python 封裝版，可以讀的圖片格式包含jepg、png、gif….，只要是Pillow能讀取的大部分tesseracct都可以讀取。使用起來也十分簡單。

默認是英文，不過剛剛我們安裝了中文包了，所以中文有可以辨識，修改lang參數即可，另外用+號即可實現中英文夾雜。

pytesseract有一些重要的function與參數如下:

雖然tesseract在辨識電子文檔之類的圖片十分厲害，但也十分容易受到現實環境(雜訊)影響。如果不是白紙黑字顏色稍有差錯辨識容易不准。此時需要用opencv來調整圖片。

OpenCV 侵蝕與膨脹

Written by LUFOR129

中央大學資管碩二

No responses yet

Help
Status
About
Careers
Press
Blog
Privacy
Terms
Text to speech
Teams