python — обработка естественного языка: формат текстового корпуса для word2vec

Question

python — обработка естественного языка: формат текстового корпуса для word2vec

Я нашел учебник, который использует word2vec на большой набор данных Википедии
http://danielfrg.github.io/blog/2013/09/21/word2vec-yhat/
Я хотел бы создать API-интерфейс для отдыха, похожий на тот, который Дэниел продемонстрировал в своем уроке.

Сегодня я собрал несколько статей в испанской газете, которые хотел бы проанализировать. Веб-сайт, на котором я получал свои данные, очень регулярно форматирует свои статьи, поэтому у меня хранится 1000 статей в виде строк, например,

"Otros se dan a conocer por la simpleza, como Sonya Cortés,
quien expresó que atesora compartir en familia y gozar de salud.
En el ambiente del reggaeton, Khriz, del dúo Ángel & Khriz,
aprovechará para estrenar su nueva piscina ya que por su agenda
de trabajo no ha podido darse un chapuzón todavía. Mientras,
Daddy Yankee se tomará un descanso con la familia luego de una larga gira."

Мне удобно с Python, и я надеялся использовать оболочку Python, указанную в руководстве:
https://github.com/danielfrg/word2vec

Как загрузить мой корпус в word2vec? Прямо сейчас у меня есть массив строк.

На данный момент мой корпус вписывается в память. Является ли word2vec правильным инструментом?

1

c++nlp python rest word2vec

Решение

Другие решения

Пытаться http://radimrehurek.com/gensim/models/word2vec.html.

На данный момент мой корпус вписывается в память. Word2vec все еще правильный
инструмент?

Да. Word2vec (версия C и Python) может работать с корпусами, большими, чем RAM. Меньше ОЗУ тоже работает, конечно.

0

Источник

Accepted Answer

Если по

Прямо сейчас у меня есть массив строк

ты имеешь ввиду, что он уже токенизирован.

sentences = gensim.models.word2vec.LineSentence(path_to_corpus)
model = gensim.models.Word2Vec(sentences, min_count=10, size=500, window=10, sg=1, workers=4)

предложения должны быть списком строк, т. е.

[[‘this’, ‘is’, ‘my’, ‘first’, ‘предложение’], [‘this’, ‘is’, ‘the’, ‘second’]]

1