Я использую ArrayFire (OpenCL, а не cuda) прямо сейчас, и мне было интересно, есть ли способ выполнить несколько параллельных 1D сверток (для вычисления скользящего среднего) действительно большого (50M + 32-битный float) вектора. Я видел несколько примеров, но в недавнем выпуске с открытым исходным кодом некоторые старые функции не работают. Размер окна на самом деле большой (1k-10k). Будет ли метод БПФ (продукт свертки) быстрее, чем прямая свертка?
Задача ещё не решена.