Предварительная обработка текста для приблизительного соответствия нескольких ключевых слов

Question

Предварительная обработка текста для приблизительного соответствия нескольких ключевых слов

Мы работаем над импортом большого количества резюме, предварительно пометив их
ключевые слова в зависимости от определенных шаблонов, найденных в текстовом блоке (в среднем около 3500 слов на резюме).

Например, если блок текста содержит «codeigniter» или «codeignitor» или «code igniter» или «code ignitor», он должен считать исходное слово «codeigniter» (определенным в некоторых правилах), и тогда мы будем пометить строку, содержащую это ключевое слово (codeigniter).

Я думаю о чем-то вроде:

$rules = array(
"keywords" => array("codeigniter","php","mysql"),
"match_relevance" => 0.8
);

$text_analysis = $search_lib->search($rules,$text_block);

и тогда анализ текста вернется:

print_r($text_analysis);

array(
"codeigniter" => 8,
"mysql" => 4
)

Вышесказанное может быть чрезмерным упрощением того, как это можно сделать, но я ищу какое-то направление относительно того, как этого можно достичь относительно схожим образом.

Решение не должно быть конкретным для любого языка программирования. (может быть php, python и т. д.)

Я знаю, что мог бы достичь аналогичных результатов, используя другие методы, такие как полнотекстовый поиск или другие поисковые системы, такие как (Sphinx, Solr, Lucene и т. Д.), Но этот вариант использования специально требует предварительной обработки текста, так как мы хотим пометить записи.

-1

full-text-search nlp php python text-processing

Решение

Другие решения

Других решений пока нет …

Источник

Accepted Answer

Разве это не «Распознавание сущностей имен» и «Связывание»?
Есть много исследований по этому вопросу и множество технологий (с открытым исходным кодом или нет) для достижения приемлемых результатов.

Я бы порекомендовал:
— изучить основы распознавания и связывания именных сущностей
— Определите базу знаний для вашего варианта использования (или используйте доступную)
— Реализуйте решение, которое может извлекать и связывать сущности в вашем тексте, вы можете быть потенциально заинтересованы в решении с открытым исходным кодом [1] — Объединить это с поисковой системой, чтобы иметь мощный, чтобы найти резюме

[1] http://stanbol.apache.org

0