Ради того, чтобы другие нашли это в Google, я подробно объясню свой вопрос, хотя это должно быть очевидно. Я использую tesseract-ocr с надеждой на удаление текста из изображений. Проблема, с которой я борюсь, заключается в том, что tesseract-orc не находит текст даже в самых простых изображениях. см. информацию о моей системе и версии ниже:
[root@tower python2]# uname -a
Linux tower.youds.com 2.6.32-504.12.2.el6.x86_64 #1 SMP Wed Mar 11 22:03:14 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux
[root@tower python2]# tesseract -v
tesseract 3.02.02
leptonica-1.71
libjpeg 6b : libpng 1.2.52 : zlib 1.2.3
Образцы изображений, которые я пытаюсь работать с классом php ocr, но класс or не достаточно мощный для того, что мне нужно сделать, и, очевидно, tesseract есть.
Вот что происходит, когда я запускаю tesseract:
[root@tower phpocr]# tesseract W1.png output.file
Tesseract Open Source OCR Engine v3.02.02 with Leptonica
Empty page!!
Empty page!!
[root@tower phpocr]#
Вот изображения, которые я использую:
http://arbiter.rogues-alliance.com/includes/phpocr/W.png
http://arbiter.rogues-alliance.com/includes/phpocr/W1.png
Отредактировано: включены еще несколько изображений.
Попробуйте добавить pagesegmode
вариант, такой как -psm 10
(то есть 10 = рассматривать изображение как один символ), что, кажется, слишком улучшает идентификацию для отдельных символов. Перечислите другие варианты с помощью tesseract --help
,
К сожалению, когда я запускаю ваши файлы примеров с -psm 10
W.png а также W1.png определены как w
а также N
соответственно, хотя большие изображения, такие как этот правильно идентифицируется как W
, Я подозреваю, что это размер / шрифт вашего образца, который вызывает это. Кроме того, и это чистое предположение, тессеракт, вероятно, лучше справился бы с идентификацией этого символа в контексте, то есть наряду с другими символами, использующими тот же шрифт и размер.
Других решений пока нет …