Результаты tbb ::rallel_reduce и std :: аккумулируются по-разному

Question

Результаты tbb ::rallel_reduce и std :: аккумулируются по-разному

я учусь Библиотека Intel TBB. При суммировании всех значений в std::vector результат tbb::parallel_reduce отличается от std::accumulate в случае более 16.777.220 элементов в векторе (ошибки в 16.777.320 элементах). Вот мой минимальный рабочий пример:

#include <iostream>
#include <vector>
#include <numeric>
#include <limits>
#include "tbb/tbb.h"
int main(int argc, const char * argv[]) {

int count = std::numeric_limits<int>::max() * 0.0079 - 187800; // - 187900 works

std::vector<float> heights(size);
std::fill(heights.begin(), heights.end(), 1.0f);

float ssum = std::accumulate(heights.begin(), heights.end(), 0);
float psum = tbb::parallel_reduce(tbb::blocked_range<std::vector<float>::iterator>(heights.begin(), heights.end()), 0,
[](tbb::blocked_range<std::vector<float>::iterator> const& range, float init) {
return std::accumulate(range.begin(), range.end(), init);
}, std::plus<float>()
);

std::cout << std::endl << " Heights serial sum: " << ssum << "   parallel sum: " << psum;
return 0;
}

который выводит на моем OSX 10.10.3 с XCode 6.3.1 и стабильной TBB 4.3-20141023 (залил из заваривать):

Heights serial sum: 1.67772e+07   parallel sum: 1.67773e+07

Это почему? Должен ли я сообщить об ошибке разработчикам TBB?

Дополнительное тестирование, применяя ваши ответы:

 correct value is: 1949700403
cause we add 1.0f to zero 1949700403 times

using (int) init values:
Runtime: 17.407 sec. Heights serial   sum: 16777216.000, wrong
Runtime:  8.482 sec. Heights parallel sum: 131127368.000, wrong

using (float) init values:
Runtime: 12.594 sec. Heights serial   sum: 16777216.000, wrong
Runtime:  5.044 sec. Heights parallel sum: 303073632.000, wrong

using (double) initial values:
Runtime: 13.671 sec. Heights serial   sum: 1949700352.000, wrong
Runtime:  5.343 sec. Heights parallel sum: 263690016.000, wrong

using (double) initial values and tbb::parallel_deterministic_reduce:
Runtime: 13.463 sec. Heights serial   sum: 1949700352.000, wrong
Runtime: 99.031 sec. Heights parallel sum: 1949700352.000, wrong >>> almost 10x slower !

Почему все сокращения звонков дают неправильную сумму? Является (double) не достаточно?
Вот мой тестовый код:

    #include <iostream>
#include <vector>
#include <numeric>
#include <limits>
#include <sys/time.h>
#include <iomanip>
#include "tbb/tbb.h"#include <cmath>

class StopWatch {
private:
double elapsedTime;
timeval startTime, endTime;
public:
StopWatch () : elapsedTime(0) {}
void startTimer() {
elapsedTime = 0;
gettimeofday(&startTime, 0);
}
void stopNprintTimer() {
gettimeofday(&endTime, 0);
elapsedTime = (endTime.tv_sec - startTime.tv_sec) * 1000.0;             // compute sec to ms
elapsedTime += (endTime.tv_usec - startTime.tv_usec) / 1000.0;          // compute us to ms and add
std::cout << " Runtime: " << std::right << std::setw(6) << elapsedTime / 1000 << " sec.";             // show in sec
}
};

int main(int argc, const char * argv[]) {

StopWatch watch;
std::cout << std::fixed << std::setprecision(3) << "" << std::endl;
size_t count = std::numeric_limits<int>::max() * 0.9079;

std::vector<float> heights(count);
std::cout << " Vector size: " << count << std::endl;
std::fill(heights.begin(), heights.end(), 1.0f);

watch.startTimer();
float ssum = std::accumulate(heights.begin(), heights.end(), 0.0); // change type of initial value here
watch.stopNprintTimer();
std::cout << " Heights serial   sum: " << std::right << std::setw(8) << ssum << std::endl;

watch.startTimer();
float psum = tbb::parallel_reduce(tbb::blocked_range<std::vector<float>::iterator>(heights.begin(), heights.end()), 0.0, // change type of initial value here
[](tbb::blocked_range<std::vector<float>::iterator> const& range, float init) {
return std::accumulate(range.begin(), range.end(), init);
}, std::plus<float>()
);
watch.stopNprintTimer();
std::cout << " Heights parallel sum: " << std::right << std::setw(8) << psum << std::endl;

return 0;
}

Ответ на мой последний вопрос: все они дают неправильные результаты, потому что они не предназначены для сложения целых чисел с большими числами. Переключение на int решает, что:

[...]
std::vector<int> heights(count);
std::cout << " Vector size: " << count << std::endl;
std::fill(heights.begin(), heights.end(), 1);

watch.startTimer();
int ssum = std::accumulate(heights.begin(), heights.end(), (int)0);
watch.stopNprintTimer();
std::cout << " Heights serial   sum: " << std::right << std::setw(8) << ssum << std::endl;

watch.startTimer();
int psum = tbb::parallel_reduce(tbb::blocked_range<std::vector<int>::iterator>(heights.begin(), heights.end()), (int)0,
[](tbb::blocked_range<std::vector<int>::iterator> const& range, int init) {
return std::accumulate(range.begin(), range.end(), init);
}, std::plus<int>()
);
watch.stopNprintTimer();
std::cout << " Heights parallel sum: " << std::right << std::setw(8) << psum << std::endl;
[...]

результаты в:

Vector size: 1949700403
Runtime: 13.041 sec. Heights serial   sum: 1949700403, correct
Runtime:  4.728 sec. Heights parallel sum: 1949700403, correct and almost 4x faster

3

c++c++11 reduce tbb

Решение

Другие решения

Это может решить эту проблему для вас:

Ваш вызов std :: аккумулировать выполняет целочисленное сложение, а затем преобразовывает результат в число с плавающей точкой в конце вычисления.

НО добавление с плавающей точкой НЕ является ассоциативной операцией:

С накоплением: (… ((s + a1) + a2) + …) + an
С parralel_reduce: возможна любая перестановка скобок.

http://docs.oracle.com/cd/E19957-01/806-3568/ncg_goldberg.html

3

На другие правильные ответы на вопрос «почему?» часть, я бы также добавил, что TBB обеспечивает parallel_deterministic_reduce который гарантирует воспроизводимые результаты между двумя и более прогонами на одних и тех же данных (но он все равно может отличаться от std :: аккумулировать). Увидеть блог описание проблемы и детерминированный алгоритм.

Таким образом, относительно «Должен ли я сообщать об ошибке разработчикам TBB?» отчасти ответ, очевидно, нет (если только вы не найдете что-то недостаточное на стороне TBB).

1

Источник

Accepted Answer

Ваш звонок в std::accumulate выполняет целочисленное сложение, а затем преобразовывает результат в float в конце расчета. Для накопления по числам с плавающей запятой аккумулятор должен быть float^*.

float ssum = std::accumulate(heights.begin(), heights.end(), 0.0f);
^^^^

^{* Или любой другой тип, который может накапливаться float правильно.}

8