Дзета-переменная САРСА (лямда)

Что дзета представляет в методе критики? Я полагаю, что он отслеживает пары состояния-действия и представляет собой трассы приемлемости, которые являются временной записью действий-состояния, но что именно представляет дзета и как он выглядит в c ++ (например, вектор двойных чисел)?

Критик
Критик

0

Решение

Как вы уже заявили, дзета представляет следы соответствия. Интуитивно это можно понимать как содержащую «разложившуюся смесь всех векторов признаков состояния-действия, встречающихся на всех предыдущих временных шагах». Это след того, что мы видели ранее, и поэтому мы должны отдать должное тем наградам, которые мы наблюдаем сейчас.

Более формально, это просто то, что требуется, если вы хотите писать инкрементальные реализации (с равномерным распределением времени вычислений по всем вашим временным шагам) алгоритмов RL, которые при написании более простым / очевидным / наивным способом могут быть реализованы только в неинкрементным образом, потому что они имеют обновленные правила, которые требуют информации от всех временных шагов в вашем эпизоде ​​(например, лямбда-возврат / Монте-Карло возвращается). Возможно, это звучит довольно сложно, но лучше придерживаться интуитивного объяснения.

Что касается того, как это выглядело бы в C ++, да, в значительной степени вектор удваивается. «z \in R^d«Прямо перед первой строкой кода на изображении означает, что это d-мерный вектор действительных чисел (удваивается или плавает в C ++), где d это размерность ваших векторов признаков состояния-действия (phi).

Вы также можете сказать, что это должно быть dвектор из-за того, что он должен быть добавлен к другим dвекторы (phi а также theta) в нескольких других местах псевдокода. Это может правильно сработать только математически, если сам дзета также dвектор.

1

Другие решения

Других решений пока нет …

По вопросам рекламы [email protected]