У меня есть ситуация, как показано ниже.
Каждый день я получаю информацию о продуктах 256 ГБ из разных интернет-магазинов и поставщиков контента (например, источник данных CNET).
Эта информация может быть файлами CSV, XML и TXT. Файлы будут проанализированы и сохранены в MongoDB.
Позднее информация будет преобразована в поисковую и проиндексирована в Elasticsearch.
Вся информация на 256 ГБ не отличается каждый день. В большинстве случаев информация на 70% будет одинаковой, а некоторые поля, такие как цена, размер, имя и т. Д., Будут часто меняться.
Я обрабатываю файлы с использованием PHP.
Моя проблема
Пожалуйста, предложите мне подходящую базу данных для этой проблемы.
парсинг огромных данных — Spark — это самое быстрое распределенное решение для ваших нужд, хотя у вас есть 70% одинаковых данных, просто для сравнения их дубликаты вам все равно придется обрабатывать, здесь вы также можете выполнить сопоставление n.
хранилище данных, если вы проводите агрегацию здесь, я бы порекомендовал использовать HBase / Impala, если каждая строка продукта важна для вас, используйте cassandra
Для поиска нет ничего быстрее, чем lucene, поэтому используйте Solr или Elasticsearch, как вам удобно, оба хороши.
Других решений пока нет …