поэтому я тренируюсь для адаптивного классификатора (движок по умолчанию в Tesseract).
Но у меня возникли некоторые проблемы с этим, документация очень фрагментирована и / или отсутствует.
Для начала я готовлюсь к очень небольшому набору данных. Я подумал, что я только начинаю использовать arial black, пока не соберу больше данных по моей теме.
Я хотел бы распознать ярлыки на скажем косметика (на датском языке), который является просто список (слова, разделенные запятыми). И только очень конкретные слова, в частности:
SMOR,
ост,
йогурт,
Ymer,
ylette,
fløde,
молочный коктейль,
laktose,
mælkesukker,
Animalsk Fedtstof,
Animalsk Olie,
smørolie,
bagermargarine,
маргарин,
minarine,
risbagemel,
inddampet Mælk,
mælkebestanddele,
mælketørstof,
tørmælk,
mælkepulver,
skummetmælkspulver,
sødmælkspulver,
mælkeprotein,
лактальбумин,
kasein,
kaseinat,
calciumkaseinat,
kaliumkaseinat,
natriumkaseinat,
Валле,
valleprotein,
vallepulver,
Maelk,
И те же слова, начинающиеся с заглавной буквы (пример: «Vallepulver»).
Но я продолжаю испытывать трудности с поиском правильного файла конфигурации для этого типа морфологии, хотя я думаю, что мне, вероятно, следует использовать систему DAWG, так как точность и скорость очень важны.
До сих пор я предпринял следующие шаги:
Использовал jTessboxeditor для создания файла .box
преобразовать файл .box в файл .tr с помощью файла изображения tesseract .exp0, box nobatch box.train
Затем распакуйте unicharset с помощью unicharset_extractor filename.exp0.box
Создайте файл свойств шрифта со следующим содержимым: arial 1 0 0 0 0
Затем объедините функции персонажа с помощью «mftraining», «cntraining», переименовав все файлы в выбранное имя языка.
Создание списка слов, содержащего приведенный выше список
Преобразование списка слов в lang.words.dawg с помощью wordlist2dawg
И, наконец, объединение данных с помощью comb_tessdata lang.
Но я все еще экспериментирую с очень неточными результатами (я использую scantailor для предварительной обработки изображений перед передачей их в Tesseract), вот изображение (в формате .tif), на котором я сейчас тестирую tesseract:
https://drive.google.com/file/d/0B8e0HDFGiNZOOXpWbUQwc0l3N2xqYlE3SGN4d1BPcHlxQVRn/view?usp=sharing
Предполагается, что система распознает только слова из вышеприведенного списка (поэтому единственным соответствием между списком и изображением будет «молоко»).
Любые предложения о том, что я могу сделать неправильно / улучшить (особенно в моем несуществующем конфиге), будут очень признательны, так как я уже давно борюсь с этим.
Искренне отчаянный парень-ботаник.
Задача ещё не решена.