Python / PHP Tesseract Советы по оптимизации вывода

У меня есть скрипт Python, который сканирует квитанцию, а затем выводит ее в отсканированный файл. В новом файле используйте файл вывода tesseract imagefile. Я могу получить хороший читаемый текст, но синтаксический анализ показывает, как показано ниже. Есть ли способ выстроить купленный товар рядом с ценой, используя tesseract? Я предпочитаю делать это на PHP или Python.

WHELE
POODS .4
M

Merchant Name and Address

365 BHCON LS

365 BHCON LS

365 BHCON LS

365 BHCON LS
BROTH CHIC

FLOUR HLHONO

CHKN BRST BNLSS SK
HEAVY CREHH

BHLSHC REOUCT

BEEF GRND 85/1§«
JUICE COF CHSHEU C

i . DOCS PINT ORGRNIC

NP 4.99
NP 4.99
NP 4.99
NP 4.99
NP 2.19
NRuqfl1.99
NP 18.80
NP 3.39
NP §.49
NP ’.04
NP ‘f:,99
NP 14.49

HNY HLMONO BUTTER NP 9.99

**** TEX .00 BRL

1

Решение

Попробуйте использовать аргумент -psm. Для большего количества идей см. Вики [1].

[1] https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality

1

Другие решения

Других решений пока нет …

По вопросам рекламы [email protected]