В то время как я использую CRF ++ для моих данных обучения (train.txt), я получил следующую ошибку
C:\Users\2012\Desktop\CRF_Software_Package\CRF++-0.58>crf_learn template train.d
ata model
CRF++: Yet Another CRF Tool Kit
Copyright (C) 2005-2013 Taku Kudo, All rights reserved.
reading training data: tagger.cpp(393) [feature_index_->buildFeatures(this)]
0.00 s
Мои тренировочные данные содержат символы Юникода, и данные сохраняются с помощью Блокнота (кодировка = большой индийский Юникод)
Я не уверен, если проблема с шаблоном или с форматом данных тренировки. Как я могу проверить формат данных тренировки?
Я думаю, что это из-за вашего файла шаблона.
Пожалуйста, проверьте, включили ли вы последний столбец, который является золотым стандартом, в качестве учебных функций. Индекс столбца начинается с 0.
Например, если у вас есть 6 столбцов в вашем файле BIO.
Шаблон не должен иметь что-то вроде% x [0,5]
Проблема с файлом шаблона
проверьте ваши функции на предмет неправильного «грамматика», т.е.
U10:% x [-1,0] /% [0,0]
вы понимаете, что после второго% пропущен ‘x’
исправленная строка должна выглядеть так, как показано ниже
U10:% х [-1,0] /% х [0,0]
У меня была та же проблема, файлы в UTF-8, и файл шаблона и обучающий файл определенно в правильном формате. Причина в том, что CRFPP ожидает максимум 1024 столбца во входных файлах. Было бы здорово, если бы в таком случае выводилось соответствующее сообщение об ошибке.
Проблема не в кодировке Unicode, а в файле шаблона.
Посмотрите на этот похожий вопрос: Отказ в использовании CRF + 0,58 Поезд NE Model