Уважаемое сообщество Stackoverflow,
У меня есть файл JSON объемом 34 ГБ, в котором много данных. Я попытался импортировать в мой mongodb, используя mongoimport —file file.json — но он, конечно, не удался, файл слишком велик и выдал ошибку сброса системы памяти, которую вы знаете. Можно ли использовать php-код для перебора файла с курсором? У меня нет опыта в этом, кто-то сказал мне, что это будет возможно. Я хочу знать, как создается файл, но я не знаю, как просмотреть пример его массива. Из источника я мог получить пример массива:
{
"_id": ObjectId("53b29644aafd413977b23b7e"),
"summonerId": NumberLong(24570940),
"region": "euw",
"updatedAt": NumberLong(1404212804),
"season": NumberLong(4),
"stats": {
"110": {
"totalSessionsPlayed": NumberLong(3),
"totalSessionsLost": NumberLong(2),
"totalSessionsWon": NumberLong(1),
"totalChampionKills": NumberLong(34),
"totalDamageDealt": NumberLong(415051),
"totalDamageTaken": NumberLong(63237),
"mostChampionKillsPerSession": NumberLong(12),
"totalMinionKills": NumberLong(538),
"totalDoubleKills": NumberLong(5),
"totalTripleKills": NumberLong(1),
"totalDeathsPerSession": NumberLong(18),
"totalGoldEarned": NumberLong(40977),
"totalTurretsKilled": NumberLong(6),
"totalPhysicalDamageDealt": NumberLong(381668),
"totalMagicDamageDealt": NumberLong(31340),
"totalAssists": NumberLong(25),
"maxChampionsKilled": NumberLong(12),
"maxNumDeaths": NumberLong(10)
}
}
}
Поле stats содержит больше массивов, 110 — только пример.
Как я могу перебрать этот файл большого размера или как я могу импортировать его в мой mongodb?
Например; Я хочу повторить summonerid, championid (в данном случае это 110), totalSessionsPlayed.
Он должен перебираться столько, сколько ему нужно, до тех пор, пока для этого конкретного суммонерида не останется чемпионов.
Опять же … У summonerID есть список чемпионов, в которых он играл за свою игровую карьеру. Чемпионы имеют в виду (в этом примере) 110. Каждый отдельный суммонерид может содержать несколько чемпионов, и я хочу, чтобы у всех чемпионов было сколько раз чемпион играл (totalsessionplayed) с помощью summonerid.
Вы захотите использовать потоковый парсер. Они вытягивают только небольшие части вашего файла в память за раз.
Они бывают разных видов: push-парсеры типа SAX и парсеры pull. Модели чтения XML: SAX против XML-парсера дает обзор разницы.
Это быстрый пример использования козлобородник / JSON-потоковый-анализатор.
Когда он катится по файлу, мы будем следить за summonerId
, championId
и гос. Все это основано на событиях — вы не получаете произвольный доступ с последовательным парсером, поэтому вы должны сами следить за вещами. Каждый раз totalSessionsPlayed
подходит, это будет эхо summonerId, championId, а также totalSessionsPlayed.
Это спаренный JSON-файл для демонстрационных целей.
[
{
"_id": "53b29644aafd413977b23b7e",
"summonerId": 24570940,
"region": "euw",
"stats": {
"110": {
"totalSessionsPlayed": 3,
"totalSessionsLost": 2,
"totalSessionsWon": 1
},
"112": {
"totalSessionsPlayed": 45,
"totalSessionsLost": 2,
"totalSessionsWon": 1
}
}
},
{
"_id": "asdfasdfasdf",
"summonerId": 555555,
"region": "euw",
"stats": {
"42": {
"totalSessionsPlayed": 65,
"totalSessionsLost": 2,
"totalSessionsWon": 1
},
"88": {
"totalSessionsPlayed": 99,
"totalSessionsLost": 2,
"totalSessionsWon": 1
}
}
}
]
class ListMatchUps extends JsonStreamingParser\Listener\IdleListener
{
private $key;
private $summonerId;
private $championId;
private $inStats;
public function start_document()
{
$this->key = null;
$this->summonerId = null;
$this->championId = null;
$this->inStats = false;
}
public function start_object()
{
if ($this->key === 'stats') {
$this->inStats = true;
} else if ($this->inStats) {
$this->championId = $this->key;
}
}
public function end_object()
{
if ($this->championId !== null) {
$this->championId = null;
} else if ($this->inStats) {
$this->inStats = false;
} else {
$this->summonerId = null;
}
}
public function key($key)
{
$this->key = $key;
}
public function value($value)
{
switch ($this->key) {
case 'summonerId':
$this->summonerId = $value;
break;
case 'totalSessionsPlayed':
echo "{$this->summonerId},{$this->championId},$value\n";
break;
}
}
}
$stream = fopen('data.json', 'r');
$listener = new ListMatchUps();
try {
$parser = new JsonStreamingParser_Parser($stream, $listener);
$parser->parse();
} catch (Exception $e) {
fclose($stream);
throw $e;
}
24570940,110,3
24570940,112,45
555555,42,65
555555,88,99
Это использует парсер, который я недавно написал, pcrov / jsonreader (требуется PHP 7.)
Тот же data.json, что и выше.
use pcrov\JsonReader\JsonReader;
$reader = new JsonReader();
$reader->open("data.json");
while($reader->read("summonerId")) {
$summonerId = $reader->value();
$reader->next("stats");
foreach($reader->value() as $championId => $stats) {
echo "$summonerId, $championId, {$stats['totalSessionsPlayed']}\n";
}
}
$reader->close();
24570940, 110, 3
24570940, 112, 45
555555, 42, 65
555555, 88, 99
Других решений пока нет …