Генерация ключевых слов для содержания через Solr

Я интегрирую Solr для моего нового PHP приложение.

Поскольку я новичок в разделе Solr, я хочу знать, возможно ли сгенерировать несколько полезных тегов для каждой страницы содержимого с помощью Solr? что-то вроде механизма автоматической пометки.

Заранее спасибо…

P.S Мои материалы доступны на персидском и английском языках.

2

Решение

что-то вроде механизма автоматической пометки.

Да, вы можете построить что-то подобное.

Есть 2 способа понять, что:

  1. Использовать Компонент кластеризации от Solr создавать группы документов и маркировать эти документы по Solr. Ярлыки — это что-то вроде тегов, которые вы ищете.
  2. Реализуйте пометки с помощью MLT особенность.

Я начал проект автоматической пометки с методом 1.) со средним успехом. Поиск ярлыков для группы документов — сложный процесс.
Но, к счастью, у меня уже были некоторые документы taggegd. Если у вас также есть несколько документов с допустимыми тегами, вы можете использовать метод 2.), чтобы использовать этот документ в качестве основы для начала обучения:

Возьмите документ без тегов и выполните поиск MLT по документам с тегами. Возьмите метки из документов, которые вы любите, и сосчитайте их. В зависимости от количества, примените один или несколько тегов к документу untaggegd. В моем случае это работает очень хорошо. Метод 2.) является простой реализацией машинного обучения, но вы получите 95% успеха только с 5% трудозатрат.

2

Другие решения

Так как это приложение PHP, если вы можете генерировать теги в php, а затем вставлять / обновлять в Solr, вот несколько вариантов:

  • Если с помощью веб-службы все в порядке, проверьте Yahoo Term Extractor
  • Если вы можете / хотите разместить услугу извлечения терминов самостоятельно (возможно, на локальном сервере), проверьте FiveFilters
  • Вот это функция php для извлечения ценных слов из текстового блока. Конечно, не так эффективно, как Yahoo Term Extractor, но это может сработать для вас.
1

По вопросам рекламы [email protected]