Я буду первым, кто признает, что я не самый умный человек в мире, но я в растерянности от этого.
Я хочу получить доступ к словам и деталям каждого слова английского проекта Wiktionary.
Я видел, что они делают дампы данных, и был взволнован. Это продолжалось всего 3 секунды.
С тех пор все, что я делал, это ругался и курил в приступах разочарования и раздражения.
Я использую Windows 7.
Я установил последнюю версию xampp (64-битную, установлен в корне).
Я установил последнюю версию Java DK.
Я установил Xampp и JDK для работы в качестве администратора.
Я взял файлы статей-страниц.
Я их распаковал.
Я использовал инструмент mwxml2sql.
Я не смог заставить его работать (независимо от того, какие настройки / флаги я пробовал).
Я использовал версию графического интерфейса инструмента mwxml2sql.
Это бежало — и затем допустило ошибку в 4300 рядах.
Ошибка была о двойных ключах в name_title.
Я смотрел на викитофит — но это, кажется, несколько лет назад.
Я в недоумении.
Я посмотрел на данные, которые попали в БД до появления ошибки двойного ключа.
Я могу видеть некоторые данные в формате Blob.
Как мне получить доступ к этой информации через php?
Нет ли приличного (как в «идиотах»: D) руководства для этого?
Мне действительно нужно захватить все файлы, установить вики, разобрать файлы?
Как мне решить проблемы с дублирующими ключами (не так, как я могу открыть файл sql и найти соответствующую строку!)?
Итак, пожалуйста — кто-нибудь сделал это или знает способ сделать это?
Единственное, о чем я могу думать, — это на самом деле попытаться почистить сайт — чего я бы предпочел не делать (и не будет вики-группы).
В случае, если это уместно — я специально после слова-формы, PoS, произношения, определений, любых фраз и связанных слов.
Такие вещи, как этимология и т. Д., Были бы хороши, но не так важны.
Если это предложено, да, я посмотрел на WordNet (удалось найти дамп mysql, и получил это работает). Я также видел такие ресурсы, как MRC и CMU dict — но ни у одного из них нет необходимых прав доступа. Вот почему Викисловарь выглядел так привлекательно. Но похоже формат / дампы далеко не дружелюбны 🙁
Итак, любая помощь или идеи?
Альтернативные источники, гиды, проходные … все поможет.
В качестве альтернативы, если вы можете сказать мне, что является причиной ошибки и как ее обойти, и как получить доступ к слову data, это было бы превосходно.
С уважением — разочарован.
Я смотрел на викитофит — но это, кажется, несколько лет назад.
Нет, проект wikokit жив 🙂 ссылка: https://github.com/componavt/wikokit
Вы можете скачать проанализированную английскую базу данных Викисловаря: http://whinger.krc.karelia.ru/soft/wikokit/index.html Загрузите файл дампа SQL в MySQL и поиграйтесь с определениями, синонимами и переводами, извлеченными из английского Викисловаря.
Других решений пока нет …