Несколько вопросов о тестировании и производительности, когда огромное количество файлов в файловой системе ext4

файловая система: ext4 (rw, natime, nodiratime, delalloc, заказано)

ситуация:
У меня есть сервер данных, на нем может быть 10 или более дисков, каждый диск сохраняет на нем более 4 миллионов файлов. В предыдущей версии сервера данных эти файлы
в том же каталоге. Заботясь о производительности, я добавляю новую функцию
положить эти файлы в 1000 хешированные каталоги в следующем выпуске.

Чтобы представить мой вопрос просто, скажем, оригинальный каталог с именем ‘WorkingDir»,
новые хеш-каталоги в WorkingDir под названием ‘HashedDir

Мой вопрос заключается в следующем:

  • Из-за большого количества удалений и созданий файлов в WorkingDir, WorkingDir может быть очень большим (так как ext4 не перезапускает этот удаленный узел). В связи с этим даже файлы находятся под HashedDir. Есть ли какое-либо ухудшение производительности, когда файлы RECURSIVE LIST WorkingDir или ACCESS в HashedDir или некоторые другие операции выполняются?
  • Как я могу сравнить изменение производительности между этими двумя версиями, поскольку у сервера нет определенного шаблона доступа? Как мне проверить? Должен ли я беспокоиться об открытом Qps или распределении открытого времени или о некоторых других вещах?
  • Есть ли какие-либо способы утилизации inode этих удаленных файлов в большом каталоге?

Вот некоторые мои мысли:

  • рекурсивный список WorkingDir может не иметь изменений между двумя выпусками. Но задержка доступа к файлам уменьшится при использовании HashedDir, даже если WorkingDir довольно большой с большим количеством удаленных inode
  • Я должен беспокоиться о распределении времени открытия файла, так как наибольшее влияние на производительность оказывает время пропуска кеша.

Я прав? Что-нибудь еще, о чем я должен волноваться?

Извините за мой бассейн английский. Спасибо вам всем.

1

Решение

Задача ещё не решена.

Другие решения

Других решений пока нет …

По вопросам рекламы [email protected]