c # — алгоритм суммирования контента

Я смотрю на содержание на веб-сайте, который я планирую построить. Вместо страниц и страниц контента я предпочел бы предложить им краткое изложение каждой темы.

Я натолкнулся на некоторую идею о том, как я могу это сделать, что главным образом связано с поиском наиболее распространенных слов и написанием краткой формы. Это помогает, даже один символ меньше имеет большое значение.

Будет ли кто-нибудь достаточно любезен, чтобы сделать некоторые предложения или указать мне правильные источники для правильных алгоритмов? Я знаю, что должен разработать алгоритм самостоятельно, но я провожу некоторые исследования, прежде чем начать.

1

Решение

Я думаю, что это дает хороший обзор различных подходов суммирования: http://en.wikipedia.org/wiki/Automatic_summarization

Инструментарий NLTK также должен быть очень полезен в качестве отправной точки: http://nltk.org/ и он был использован для построения сумматоров, например https://github.com/amsqr/NaiveSumm

0

Другие решения

Других решений пока нет …

По вопросам рекламы [email protected]