Распределение скрытого дирихле, как обращаться со словами, которых нет в словаре

Question

Распределение скрытого дирихле, как обращаться со словами, которых нет в словаре

Для скрытого распределения дирихле, поскольку оно предполагает фиксированный словарный запас (я получил с помощью метода tf-idf), как мы можем иметь дело со словами, не входящими в пакет слов, скажем, эти стоп-слова?

Мы все еще считаем, что такие слова занимают какую-то позицию в документе (другими словами, должны ли мы назначать темы этим словам) или просто игнорируем эти слова?

Спасибо!

0

c++text-mining

Решение

Другие решения

Источник

Accepted Answer

Я предполагаю, что эта проблема возникает из-за того, что в вашем корпусе, на котором вы обучали LDA для получения векторов тем, нет слов, которые вы нашли в тестовых документах (привел в эксперимент позже, чтобы разбить их тему). Если это так, то игнорирование новых слов — это нормально, если в вашем корпусе много слов, например если это английский корпус, то объем словаря в 100 000+ слов будет считаться достаточно большим.

С другой стороны, если вышеприведенное не соответствует действительности, и эти новые слова будут отличать один документ от другого, то вам лучше использовать свой LDA, включив эти слова в набор для обучения.

0