тессеракт-орк не читает текст даже из простых изображений

Question

тессеракт-орк не читает текст даже из простых изображений

Ради того, чтобы другие нашли это в Google, я подробно объясню свой вопрос, хотя это должно быть очевидно. Я использую tesseract-ocr с надеждой на удаление текста из изображений. Проблема, с которой я борюсь, заключается в том, что tesseract-orc не находит текст даже в самых простых изображениях. см. информацию о моей системе и версии ниже:

[root@tower python2]# uname -a
Linux tower.youds.com 2.6.32-504.12.2.el6.x86_64 #1 SMP Wed Mar 11 22:03:14 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux
[root@tower python2]# tesseract -v
tesseract 3.02.02
leptonica-1.71
libjpeg 6b : libpng 1.2.52 : zlib 1.2.3

Образцы изображений, которые я пытаюсь работать с классом php ocr, но класс or не достаточно мощный для того, что мне нужно сделать, и, очевидно, tesseract есть.

Вот что происходит, когда я запускаю tesseract:

[root@tower phpocr]# tesseract W1.png output.file
Tesseract Open Source OCR Engine v3.02.02 with Leptonica
Empty page!!
Empty page!!
[root@tower phpocr]#

Вот изображения, которые я использую:

http://arbiter.rogues-alliance.com/includes/phpocr/W.png

http://arbiter.rogues-alliance.com/includes/phpocr/W1.png

Отредактировано: включены еще несколько изображений.

1

ocr php tesseract

Решение

Другие решения

Других решений пока нет …

Источник

Accepted Answer

Попробуйте добавить pagesegmode вариант, такой как -psm 10 (то есть 10 = рассматривать изображение как один символ), что, кажется, слишком улучшает идентификацию для отдельных символов. Перечислите другие варианты с помощью tesseract --help,

К сожалению, когда я запускаю ваши файлы примеров с -psm 10 W.png а также W1.png определены как w а также N соответственно, хотя большие изображения, такие как этот правильно идентифицируется как W, Я подозреваю, что это размер / шрифт вашего образца, который вызывает это. Кроме того, и это чистое предположение, тессеракт, вероятно, лучше справился бы с идентификацией этого символа в контексте, то есть наряду с другими символами, использующими тот же шрифт и размер.

2