я ищу решатель для решателя / оптимизатор для процесса принятия решений Markov /
Стохастическая задача оптимального управления (см. также Последовательное принятие решений
в условиях неопределенности.
Задача описывается системой дифференциальных уравнений, но она может быть дискретизирована по времени.
d w / dt = u f(w) + z * w
d R / dt = (1-u) g(w)
где f (.), g (t) — некоторая функция, z — случайная величина с распределением вероятностей нормального / логарифмического нормального / степенного закона, u — элемент управления, содержащийся в [0,1]. Вы можете измениться во времени.
Критериями оптимизации могут быть средние доходы в последний раз T:
max_u E[R(T)]_z
Я ищу библиотеку, что-то похожее на http://nicky.vanforeest.com/probability/mdp/mdp.html но в c / c ++ это решает такие проблемы.
Задача ещё не решена.