Мы работаем над импортом большого количества резюме, предварительно пометив их
ключевые слова в зависимости от определенных шаблонов, найденных в текстовом блоке (в среднем около 3500 слов на резюме).
Например, если блок текста содержит «codeigniter» или «codeignitor» или «code igniter» или «code ignitor», он должен считать исходное слово «codeigniter» (определенным в некоторых правилах), и тогда мы будем пометить строку, содержащую это ключевое слово (codeigniter).
Я думаю о чем-то вроде:
$rules = array(
"keywords" => array("codeigniter","php","mysql"),
"match_relevance" => 0.8
);
$text_analysis = $search_lib->search($rules,$text_block);
и тогда анализ текста вернется:
print_r($text_analysis);
array(
"codeigniter" => 8,
"mysql" => 4
)
Вышесказанное может быть чрезмерным упрощением того, как это можно сделать, но я ищу какое-то направление относительно того, как этого можно достичь относительно схожим образом.
Решение не должно быть конкретным для любого языка программирования. (может быть php, python и т. д.)
Я знаю, что мог бы достичь аналогичных результатов, используя другие методы, такие как полнотекстовый поиск или другие поисковые системы, такие как (Sphinx, Solr, Lucene и т. Д.), Но этот вариант использования специально требует предварительной обработки текста, так как мы хотим пометить записи.
Разве это не «Распознавание сущностей имен» и «Связывание»?
Есть много исследований по этому вопросу и множество технологий (с открытым исходным кодом или нет) для достижения приемлемых результатов.
Я бы порекомендовал:
— изучить основы распознавания и связывания именных сущностей
— Определите базу знаний для вашего варианта использования (или используйте доступную)
— Реализуйте решение, которое может извлекать и связывать сущности в вашем тексте, вы можете быть потенциально заинтересованы в решении с открытым исходным кодом [1]
— Объединить это с поисковой системой, чтобы иметь мощный, чтобы найти резюме
Других решений пока нет …