OCR 指的是光學字元辨識 (Optical Character Recognition),將圖片中的文字進行處理來獲得文字上的資訊。其中最鼎鼎大名的就是開源的Tesseract。Tesseract 最早由HP開發,後貢獻給開源軟體。在2005年後Google對Tesseract進行改進、優化。2006年時tesseract是最精準的OCR工具之一。
一、 Tesseract 安裝
如果你是linux系統,你只需要apt-get install tesseract-ocr 即可。如果你要在windows玩玩tesseract,那就比較麻煩了
首先先下載安裝檔: https://github.com/UB-Mannheim/tesseract/wiki
下載後安裝,安裝時順便安裝中文包與確認安裝目錄
接下來進入系統設定添加環境變數
添加環境變數
接下來確認是否完成,打開cmd 輸入tesseract -v,如果有印出東西代表成功了。
接著安裝pytesseract給python與tesseract的接口
pip3 install pytesseract
二、PyTesseract
Pytesseract 是Google’s Tesseract-OCR的python 封裝版,可以讀的圖片格式包含jepg、png、gif….,只要是Pillow能讀取的大部分tesseracct都可以讀取。使用起來也十分簡單。
默認是英文,不過剛剛我們安裝了中文包了,所以中文有可以辨識,修改lang參數即可,另外用+號即可實現中英文夾雜。
pytesseract有一些重要的function與參數如下:
雖然tesseract在辨識電子文檔之類的圖片十分厲害,但也十分容易受到現實環境(雜訊)影響。如果不是白紙黑字顏色稍有差錯辨識容易不准。此時需要用opencv來調整圖片。
OpenCV 侵蝕與膨脹