У меня есть скрипт Python, который сканирует квитанцию, а затем выводит ее в отсканированный файл. В новом файле используйте файл вывода tesseract imagefile. Я могу получить хороший читаемый текст, но синтаксический анализ показывает, как показано ниже. Есть ли способ выстроить купленный товар рядом с ценой, используя tesseract? Я предпочитаю делать это на PHP или Python.
WHELE
POODS .4
M
Merchant Name and Address
365 BHCON LS
365 BHCON LS
365 BHCON LS
365 BHCON LS
BROTH CHIC
FLOUR HLHONO
CHKN BRST BNLSS SK
HEAVY CREHH
BHLSHC REOUCT
BEEF GRND 85/1§«
JUICE COF CHSHEU C
i . DOCS PINT ORGRNIC
NP 4.99
NP 4.99
NP 4.99
NP 4.99
NP 2.19
NRuqfl1.99
NP 18.80
NP 3.39
NP §.49
NP ’.04
NP ‘f:,99
NP 14.49
HNY HLMONO BUTTER NP 9.99
**** TEX .00 BRL
Попробуйте использовать аргумент -psm. Для большего количества идей см. Вики [1].
[1] https://github.com/tesseract-ocr/tesseract/wiki/ImproveQualityДругих решений пока нет …