Предварительная обработка текста для приблизительного соответствия нескольких ключевых слов

Мы работаем над импортом большого количества резюме, предварительно пометив их
ключевые слова в зависимости от определенных шаблонов, найденных в текстовом блоке (в среднем около 3500 слов на резюме).

Например, если блок текста содержит «codeigniter» или «codeignitor» или «code igniter» или «code ignitor», он должен считать исходное слово «codeigniter» (определенным в некоторых правилах), и тогда мы будем пометить строку, содержащую это ключевое слово (codeigniter).

Я думаю о чем-то вроде:

$rules = array(
"keywords" => array("codeigniter","php","mysql"),
"match_relevance" => 0.8
);

$text_analysis = $search_lib->search($rules,$text_block);

и тогда анализ текста вернется:

print_r($text_analysis);

array(
"codeigniter" => 8,
"mysql" => 4
)

Вышесказанное может быть чрезмерным упрощением того, как это можно сделать, но я ищу какое-то направление относительно того, как этого можно достичь относительно схожим образом.

Решение не должно быть конкретным для любого языка программирования. (может быть php, python и т. д.)

Я знаю, что мог бы достичь аналогичных результатов, используя другие методы, такие как полнотекстовый поиск или другие поисковые системы, такие как (Sphinx, Solr, Lucene и т. Д.), Но этот вариант использования специально требует предварительной обработки текста, так как мы хотим пометить записи.

-1

Решение

Разве это не «Распознавание сущностей имен» и «Связывание»?
Есть много исследований по этому вопросу и множество технологий (с открытым исходным кодом или нет) для достижения приемлемых результатов.

Я бы порекомендовал:
— изучить основы распознавания и связывания именных сущностей
— Определите базу знаний для вашего варианта использования (или используйте доступную)
— Реализуйте решение, которое может извлекать и связывать сущности в вашем тексте, вы можете быть потенциально заинтересованы в решении с открытым исходным кодом [1] — Объединить это с поисковой системой, чтобы иметь мощный, чтобы найти резюме

[1] http://stanbol.apache.org

0

Другие решения

Других решений пока нет …

По вопросам рекламы [email protected]