Нужна лучшая база данных для обработки огромных данных

У меня есть ситуация, как показано ниже.

Каждый день я получаю информацию о продуктах 256 ГБ из разных интернет-магазинов и поставщиков контента (например, источник данных CNET).
Эта информация может быть файлами CSV, XML и TXT. Файлы будут проанализированы и сохранены в MongoDB.
Позднее информация будет преобразована в поисковую и проиндексирована в Elasticsearch.

Вся информация на 256 ГБ не отличается каждый день. В большинстве случаев информация на 70% будет одинаковой, а некоторые поля, такие как цена, размер, имя и т. Д., Будут часто меняться.
Я обрабатываю файлы с использованием PHP.

Моя проблема

  1. Разбор огромных данных
  2. Сопоставление полей внутри БД (например, title не является заголовком для всех онлайн-магазинов. Они будут давать имя поля в виде Short-Title или другого имени)
  3. Увеличение ГБ информации каждый день. Как хранить все и обрабатывать. (может быть Bigdata, но не уверен, как его использовать)
  4. Быстрый поиск информации с огромными данными.

Пожалуйста, предложите мне подходящую базу данных для этой проблемы.

-2

Решение

  1. парсинг огромных данных — Spark — это самое быстрое распределенное решение для ваших нужд, хотя у вас есть 70% одинаковых данных, просто для сравнения их дубликаты вам все равно придется обрабатывать, здесь вы также можете выполнить сопоставление n.

  2. хранилище данных, если вы проводите агрегацию здесь, я бы порекомендовал использовать HBase / Impala, если каждая строка продукта важна для вас, используйте cassandra

  3. Для поиска нет ничего быстрее, чем lucene, поэтому используйте Solr или Elasticsearch, как вам удобно, оба хороши.

0

Другие решения

Других решений пока нет …

По вопросам рекламы [email protected]