У меня большой текстовый файл scrapped_db.txt
который содержит более 100 миллионов слов, а размер файла составляет 1,7 ГБ. Я создал этот файл с помощью Python Scrapy Framework, чтобы очистить сайт газеты.
Теперь я хочу создать словарь УНИКАЛЬНЫХ слов (бенгальский алфавит, UTF8), каждое из которых имеет свою частоту (количество раз, когда слово появлялось в файле scrapped_db.txt). Что-то вроде этого
আমি 201523
তুমি 15014
33 1233
দেখা 18556
или же
23 201523, তুমি 15014, ভালোবাসি 1233, দেখা 18556
в словаре должен быть другой текстовый файл. так что я могу легко обработать выходной файл.
Одной из основных проблем является то, что всякий раз, когда я пытался использовать файл, он показывает несколько ошибок, касающихся размера файла. Пожалуйста, предложите путь в php или python.
Решение Python, как упоминалось в комментариях, будет работать как —
from collections import Counter
word_count = Counter()
# Read File
with open("your_file.txt") as f:
for line in f:
l = line.split() # your words have to be separated by spaces for this to work as we need an iterable
word_count.update(l)
С этим вы получите словарь, как —
word_count = {'আমি': 201523, 'তুমি': 15014 ,'ভালোবাসি': 1233, 'দেখা': 18556}
Теперь все, что вам нужно сделать, это записать этот файл в файл. Вы могли бы просто сделать json.dumps(word_count)
в файле, в который вы пишете. Как прочти и напиши в файл в Python.
Других решений пока нет …