неожиданные результаты с алгоритмом word2vec

Я реализовал Word2vec в C ++.
Я обнаружил, что оригинальный синтаксис неясен, поэтому я решил, что я буду реализовывать его заново, используя все преимущества c ++ (std :: map, std :: vector и т. Д.)

Это метод, который фактически вызывается каждый раз при обучении выборки (l1 обозначает индекс первого слова, l2 — индекс второго слова, метка указывает, является ли она положительной или отрицательной выборкой, а neu1e действует как аккумулятор для градиент)

void train(int l1, int l2, double label, std::vector<double>& neu1e)
{
// Calculate the dot-product between the input words weights (in
// syn0) and the output word's weights (in syn1neg).
auto f = 0.0;

for (int c = 0; c < m__numberOfFeatures; c++)
f += syn0[l1][c] * syn1neg[l2][c];

// This block does two things:
//   1. Calculates the output of the network for this training
//      pair, using the expTable to evaluate the output layer
//      activation function.
//   2. Calculate the error at the output, stored in 'g', by
//      subtracting the network output from the desired output,
//      and finally multiply this by the learning rate.
auto z = 1.0 / (1.0 + exp(-f));
auto g = m_learningRate * (label - z);

// Multiply the error by the output layer weights.
// (I think this is the gradient calculation?)
// Accumulate these gradients over all of the negative samples.
for (int c = 0; c < m__numberOfFeatures; c++)
neu1e[c] += (g * syn1neg[l2][c]);

// Update the output layer weights by multiplying the output error
// by the hidden layer weights.
for (int c = 0; c < m__numberOfFeatures; c++)
syn1neg[l2][c] += g * syn0[l1][c];
}

Этот метод вызывается

void train(const std::string& s0, const std::string& s1, bool isPositive, std::vector<double>& neu1e)
{
auto l1 = m_wordIDs.find(s0) != m_wordIDs.end() ? m_wordIDs[s0] : -1;
auto l2 = m_wordIDs.find(s1) != m_wordIDs.end() ? m_wordIDs[s1] : -1;
if(l1 == -1 || l2 == -1)
return;

train(l1, l2, isPositive ? 1 : 0, neu1e);
}

который в свою очередь вызывается основным методом обучения.

Полный код можно найти по адресу

https://github.com/jorisschellekens/ml/tree/master/word2vec

С полным примером на

https://github.com/jorisschellekens/ml/blob/master/main/example_8.hpp

Когда я запускаю этот алгоритм, первые 10 слов «ближе всего» к father являются:

отец
хан
шах
забывчивый
Майами
сыпь
симптомы
похоронный
Индианаполис
впечатленный

Это метод для вычисления ближайших слов:

std::vector<std::string> nearest(const std::string& s, int k) const
{
// calculate distance
std::vector<std::tuple<std::string, double>> tmp;
for(auto &t : m_unigramFrequency)
{
tmp.push_back(std::make_tuple(t.first, distance(t.first, s)));
}

// sort
std::sort(tmp.begin(), tmp.end(), [](const std::tuple<std::string, double>& t0, const std::tuple<std::string, double>& t1)
{
return std::get<1>(t0) < std::get<1>(t1);
});

// take top k
std::vector<std::string> out;
for(int i=0; i<k; i++)
{
out.push_back(std::get<0>(tmp[tmp.size() - 1 - i]));
}

// return
return out;
}

Что кажется странным.
Что-то не так с моим алгоритмом?

0

Решение

Вы уверены, что получаете «самые близкие» слова (не самые далекие)?

        ...
// take top k
std::vector<std::string> out;
for(int i=0; i<k; i++)
{
out.push_back(std::get<0>(tmp[tmp.size() - 1 - i]));
}
...
0

Другие решения

Других решений пока нет …

По вопросам рекламы [email protected]