Intel MIC трафарет вычислений

Я хочу написать эффективное параллельное приложение для сопроцессора Intel Xeon Phi (61 ядро), которое выполняет пятиточечный расчет трафарета. Я написал две версии кода.

Первый:
Я использовал OpenMP «#pragma omp parralel для»

void ParallelStencil(const double* macierzIn, double* macierzOut, const int m, const int n)
{
int m_real = m + 2;
int n_real = n + 2;

TimeCPU t;
t.start();
#pragma omp parallel for schedule(static,1) shared(macierzIn, macierzOut)
for(int i=1; i<m_real-1; ++i)
{
for(int j=1; j<n-1; ++j)
{
macierzOut[i * n_real + j] = Max(macierzIn[i * n_real + j], macierzIn[(i - 1) * n_real + j], macierzIn[(i + 1) * n_real + j],
macierzIn[i * n_real + (j - 1)], macierzIn[i * n_real + (j + 1)]);
}
}
t.stop();
cout << "\nTime: " << t.time();
}

Во-вторых:
Я разделил матрицу между 61 ядром. Каждая часть матрицы вычисляется четырьмя потоками HW, работающими на каждом ядре. В этой версии я попытался уменьшить пропуск кеша, выполнив расчеты для 4 потоков в одном и том же кеше L2.

void ParallelStencil(const double* macierzIn, double* macierzOut, int m, int n)
{
int m_real = m + 2;
int n_real = m + 2;
int coreCount = threadsCount / 4;
int tID, coreNum, start, stop, step;

TimeCPU t;
t.start();
#pragma omp parallel shared(macierzIn, macierzOut, m, n, m_real, n_real, coreCount) private(tID, coreNum, start, stop, step)
{
tID = omp_get_thread_num();
coreNum = tID / 4;
start = tID % 4 + ((m / coreCount) * coreNum) + 1;
stop = (m / coreCount) * (coreNum + 1) + 1;
if(coreNum == coreCount - 1 && stop != m_real - 1)
{
stop = m_real -1;
}
step = 4;

for(int i=start; i<stop; i+=step)
{
for(int j=1; j<n+1; ++j)
{
macierzOut[i * n_real + j] = Max(macierzIn[i * n_real + j], macierzIn[(i - 1) * n_real + j], macierzIn[(i + 1) * n_real + j],
macierzIn[i * n_real + (j - 1)], macierzIn[i * n_real + (j + 1)]);

}
}
}
t.stop();
cout << "\nTime: " << t.time();
}

В этом итерационном цикле итерации в каждой части матрицы выполняются следующим образом:
я = 0 -> нить 0
я = 1 -> поток 1
я = 2 -> нить 2
я = 3 -> поток 3
я = 4 -> нить 0

После запуска этого кода. Вторая версия была медленнее. Но почему?

0

Решение

Вероятно, это скорее комментарий, чем ответ. Прежде чем углубляться в проблемы с эффективным использованием кэша, вы должны исправить два кода так, чтобы они были эквивалентны. В настоящее время они не.

Разница № 1

Первый код:

int m_real = m + 2;
int n_real = n + 2;

Второй код:

int m_real = m + 2;
int n_real = m + 2; // <---- m instead of n

Разница № 2

Первый код:

for(int j=1; j<n-1; ++j)

Второй код:

for(int j=1; j<n+1; ++j) // <---- n+1 instead of n-1

Если ваша матрица не квадратная и m > nтогда второй код будет определенно медленнее, так как ему придется больше вычислять.

0

Другие решения


По вопросам рекламы [email protected]