Как создать словарь слов с частотой каждого слова в php или python

Question

Как создать словарь слов с частотой каждого слова в php или python

У меня большой текстовый файл scrapped_db.txt который содержит более 100 миллионов слов, а размер файла составляет 1,7 ГБ. Я создал этот файл с помощью Python Scrapy Framework, чтобы очистить сайт газеты.

Теперь я хочу создать словарь УНИКАЛЬНЫХ слов (бенгальский алфавит, UTF8), каждое из которых имеет свою частоту (количество раз, когда слово появлялось в файле scrapped_db.txt). Что-то вроде этого

আমি 201523

তুমি 15014

33 1233

দেখা 18556

или же

23 201523, তুমি 15014, ভালোবাসি 1233, দেখা 18556

в словаре должен быть другой текстовый файл. так что я могу легко обработать выходной файл.
Одной из основных проблем является то, что всякий раз, когда я пытался использовать файл, он показывает несколько ошибок, касающихся размера файла. Пожалуйста, предложите путь в php или python.

-9

corpus dictionary file php python

Решение

Другие решения

Других решений пока нет …

Источник

Accepted Answer

Решение Python, как упоминалось в комментариях, будет работать как —

from collections import Counter
word_count = Counter()
# Read File
with open("your_file.txt") as f:
for line in f:
l = line.split() # your words have to be separated by spaces for this to work as we need an iterable
word_count.update(l)

С этим вы получите словарь, как —

word_count = {'আমি': 201523, 'তুমি': 15014 ,'ভালোবাসি': 1233, 'দেখা': 18556}

Теперь все, что вам нужно сделать, это записать этот файл в файл. Вы могли бы просто сделать json.dumps(word_count) в файле, в который вы пишете. Как прочти и напиши в файл в Python.

0