Вероятность триграммы в огромном текстовом файле

Question

Вероятность триграммы в огромном текстовом файле

У меня большой бенгальский одноязычный корпус, состоящий из более 100 миллионов бенгальских предложений. Корпус в формате .txt, размер файла 1,8 ГБ.
Теперь, чтобы построить бенгальскую проверку грамматики, мне нужно использовать этот огромный корпус для вычисления вероятности языка триграмм. Тем не менее, кажется, что это занимает огромное количество времени, чтобы найти вероятность Trigram в таком большом файле. Пожалуйста, предложите, как решить эту проблему и какие методы я должен использовать в этом случае. Должен ли я использовать php или python для этого? У меня достаточно знаний в обоих. ТИА

-2

counting nlp php python

Решение

Другие решения

Других решений пока нет …

Источник

Accepted Answer

Если вы уже знать что будет трудно заставить это работать, зачем усложнять свою жизнь и использовать Python или, что еще хуже, PHP?

Это довольно простая задача: считать.

Тот действительно это то, что вы можете реализовать в более эффективная память и более быстрый язык, как C, если вам нужно, чтобы он был быстрым. Например, целое число (а вам понадобится много) в C составляет 4 байта, в Python вам нужно 12, и, скорее всего, они будут храниться в другом месте памяти, поэтому у вас есть еще 8, просто чтобы указать, где находится целое число. Подход на чистом Python потребует в 3–4 раза больше памяти, чем на C-версии. Все эти косвенные изменения памяти также снижают вашу производительность.

Затем вы можете по-прежнему работать с Python для последующих шагов.

0