Я работаю над проектом SGX, обрабатывающим секретные данные, и в какой-то момент мне нужно оценить натуральный логарифм числа с плавающей запятой. Процесс оценки должен быть устойчивым к побочным каналам, что означает, что его время работы и схемы доступа к памяти должны быть независимыми от его входа и выхода.
Есть ли такая реализация в дикой природе? Была ли проблема решена в литературе?
Тег SGX предполагает, что ваша аппаратная платформа — совсем новый процессор Intel x86_64, который также поддерживает AVX2 и работу FMA. Ключом к реализации, которая инвариантна во время выполнения и в схеме доступа к памяти, является предотвращение ветвлений. Если компилятор взаимодействует и преобразует простые условные присвоения в соответствующие инструкции условного перемещения или смешивания, реализация logf()
ниже должно работать нормально. Тем не менее, полагаться на генерацию кода компилятора хрупко, и из различных компиляторов, предлагаемых компилятором, я мог только заставить clang что-то доставить близко к желаемому результату, со всеми преобразованными ветвями, кроме одной (условное присвоение a = t
в обработке ненормальных входов).
Таким образом, вам, вероятно, придется выполнять ручную работу, чтобы обеспечить выбор результата с помощью соответствующих инструкций вместо кода перехода-y, например, с помощью встроенных функций.
Как EOF Как отмечалось в комментариях, устранение ветвей является необходимым, но не достаточным условием, поскольку отдельные операции с плавающей запятой также могут иметь переменное время выполнения, даже если они являются просто сложениями, умножениями и FMA. Это не проблема для архитектур, которые обрабатывают специальные операнды, такие как субнормалы (часто называемые денормалями) на скорости, например Графические процессоры. Однако это проблема процессоров x86, с которыми я работал и работал. Обычно наиболее сильная изменчивость возникает из-за ненормальных результатов с гораздо меньшим воздействием операндов из ненормированного источника.
Код, показанный ниже, содержит несколько операций, использующих исходный аргумент a
в качестве исходного операнда, который подвергает его риску изменения времени выполнения из-за ненормальных входных данных. Следует ли тщательно проверить потенциальные изменения во время выполнения над уровнем шума (например, из-за изменчивости состояния конвейера в точке, где вызывается функция), для конкретной платформы (платформ), на которой планируется развернуть код.
#include <cstdint>
#include <cstring>
#include <cmath>
int __float_as_int (float a)
{
int r;
memcpy (&r, &a, sizeof(r));
return r;
}
float __int_as_float (int a)
{
float r;
memcpy (&r, &a, sizeof(r));
return r;
}
/* maximum error 0.85417 ulp */
float my_logf (float a)
{
float m, r, s, t, i, f, u;
int32_t e;
/* result for exceptional cases */
u = a + a; // silence NaNs if necessary
if (a < 0.0f) u = 0.0f / 0.0f; // NaN
if (a == 0.0f) u = -1.0f / 0.0f; // -Inf
/* result for non-exceptional cases */
i = 0.0f;
/* fix up denormal input if needed */
t = a * 8388608.0f;
if (a < 1.17549435e-38f) {
a = t;
i = -23.0f;
}
/* split argument into exponent and mantissa parts */
e = (__float_as_int (a) - 0x3f2aaaab) & 0xff800000;
m = __int_as_float (__float_as_int (a) - e);
i = fmaf ((float)e, 1.19209290e-7f, i);
/* m in [2/3, 4/3] */
f = m - 1.0f;
s = f * f;
/* Compute log1p(f) for f in [-1/3, 1/3] */
r = -0.130310059f;
t = 0.140869141f;
r = fmaf (r, s, -0.121489234f);
t = fmaf (t, s, 0.139809728f);
r = fmaf (r, s, -0.166844666f);
t = fmaf (t, s, 0.200121239f);
r = fmaf (r, s, -0.249996305f);
r = fmaf (t, f, r);
r = fmaf (r, f, 0.333331943f);
r = fmaf (r, f, -0.500000000f);
r = fmaf (r, s, f);
r = fmaf (i, 0.693147182f, r); // log(2)
/* late selection between exceptional and non-exceptional result */
if (!((a > 0.0f) && (a <= 3.40282347e+38f))) r = u;
return r;
}
Потенциальные проблемы, указанные выше, могут быть решены путем выполнения как обработки специального случая при вычислении логарифма, так и выбора результата с помощью переносимого целочисленного кода. Очевидный компромисс — потеря производительности. Обработка ненормальных аргументов требует нормализации, основанной на количестве ведущих нулей (CLZ). В то время как у процессора x86 есть инструкции для этого, они могут быть недоступны в портативном виде из C ++. Но переносимая реализация с инвариантной средой выполнения может быть построена простым способом. Это приводит к реализации без ответвлений, которая, как я ожидаю, будет хорошо работать с большинством компиляторов, но двойная проверка сгенерированного машинного кода будет существенной. Я использовал Compiler Explorer, чтобы убедиться, что он компилируется как нужно с НКУ
#include <cstdint>
#include <cstring>
#include <cmath>
int __float_as_int (float a)
{
int r;
memcpy (&r, &a, sizeof(r));
return r;
}
float __int_as_float (int a)
{
float r;
memcpy (&r, &a, sizeof(r));
return r;
}
/* branch free implementation of ((cond) ? a : b). cond must be in {0,1} */
int32_t mux (int cond, int32_t a, int32_t b)
{
int32_t mask = cond * 0xffffffff;
return (mask & a) | (~mask & b);
}
/* portable implementation of leading zero count with invariant runtime */
int clz (uint32_t x)
{
int n = 32;
uint32_t y;
y = x >> 16; n = mux (!!y, n - 16, n); x = mux (!!y, y, x);
y = x >> 8; n = mux (!!y, n - 8, n); x = mux (!!y, y, x);
y = x >> 4; n = mux (!!y, n - 4, n); x = mux (!!y, y, x);
y = x >> 2; n = mux (!!y, n - 2, n); x = mux (!!y, y, x);
y = x >> 1; n = mux (!!y, n - 2, n - x);
return n;
}
/* maximum error 0.85417 ulp */
float my_logf (float a)
{
float m, r, s, t, i, f;
int32_t e, ia, ii, ir, it, iu, shift;
const int32_t abs_mask = 0x7fffffff;
const int32_t qnan_bit = 0x00400000;
const int32_t pos_inf = 0x7f800000;
const int32_t neg_inf = 0xff800000;
const int32_t indefinite = 0xffc00000;
const int32_t tiny_float = 0x00800000; // 1.17549435e-38f
const int32_t huge_float = 0x7f7fffff; // 3.40282347e+38f
ia = __float_as_int (a);
/* result for exceptional cases */
iu = mux (ia < 0, indefinite, ia); // return QNaN INDEFINITE
iu = mux ((ia & abs_mask) == 0, neg_inf, iu); // return -Inf
iu = mux ((ia & abs_mask) > pos_inf, ia | qnan_bit, iu); // convert to QNaN
/* result for non-exceptional cases */
shift = clz (ia) - 8;
it = (ia << shift) + ((23 - shift) << 23);
ii = mux (ia < tiny_float, -23, 0);
it = mux (ia < tiny_float, it, ia);
/* split argument into exponent and mantissa parts */
e = (it - 0x3f2aaaab) & 0xff800000;
m = __int_as_float (it - e);
i = fmaf ((float)e, 1.19209290e-7f, (float)ii);
/* m in [2/3, 4/3] */
f = m - 1.0f;
s = f * f;
/* Compute log1p(f) for f in [-1/3, 1/3] */
r = -0.130310059f;
t = 0.140869141f;
r = fmaf (r, s, -0.121489234f);
t = fmaf (t, s, 0.139809728f);
r = fmaf (r, s, -0.166844666f);
t = fmaf (t, s, 0.200121239f);
r = fmaf (r, s, -0.249996305f);
r = fmaf (t, f, r);
r = fmaf (r, f, 0.333331943f);
r = fmaf (r, f, -0.500000000f);
r = fmaf (r, s, f);
r = fmaf (i, 0.693147182f, r); // log(2)
/* late selection between exceptional and non-exceptional result */
ir = __float_as_int (r);
ir = mux ((ia > 0) && (ia <= huge_float), ir, iu);
r = __int_as_float (ir);
return r;
}
Других решений пока нет …