如何配置 Pytesseract 以進行僅數字輸出的單位數字識別？-Python教學-PHP中文網

如何配置 Pytesseract 以進行僅數字輸出的單位數字識別？

Barbara Streisand

發布： 2024-12-03 13:34:10

原創

305 人瀏覽過

How Can I Configure Pytesseract for Single Digit Recognition with Number-Only Output?

具有單位數字識別和僅限數字約束的Pytesseract OCR

在Pytesseract 的上下文中，配置Tesseract 以識別單位輸出數字可能具有挑戰性。為了解決這個問題，我們深入研究了 Tesseract 配置選項的細節。

Tesseract 頁面分割模式

Tesseract 提供了各種頁面分割模式（psm）來處理不同的文字佈局。對於單一字元識別，適當的 psm 為 10。此模式將影像視為單一字元。

字元白名單

為了將辨識的字元限制為數字，我們可以利用 tessedit_char_whitelist 設定參數。透過指定 0123456789 作為白名單，Tesseract 將只接受這些字元。

範例用法

以下是具有多個設定選項的image_to_string 的範例用法：

target = pytesseract.image_to_string(image, lang='eng', boxes=False, 
        config='--psm 10 --oem 3 -c tessedit_char_whitelist=0123456789')

登入後複製

透過將psm 設定為10 並使用字元白名單，此配置可確保Tesseract 識別單一數字，同時將輸出限制為數值。此外，lang 指定語言，boxs 會停用文字方塊邊界，oem 選擇 OCR 引擎。

以上是如何配置 Pytesseract 以進行僅數字輸出的單位數字識別？的詳細內容。更多資訊請關注PHP中文網其他相關文章！