База ответов ИНТУИТ

Машинное обучение

<<- Назад к вопросам

Какую величину называют относительной ценностью?

(Отметьте один правильный вариант ответа.)

Варианты ответа
Q(s_t, a_t) \gets Q(s_t, a_t) + \alpha [v_{t+1} + \gamma \max_{\alpha} Q(s_{t+1}, a) - Q(s_t, a_t)]
;
\delta_t = r_{t+1} + \gamma V(S_{t+1}) - V(S_t)
;
\hat Q^{\pi}(s,a) = \sum_{k=1}^\infty E_A\{r_{t+k} - \rho^{\pi} | S_t=s, a_t=a\}
.
(Верный ответ)
Похожие вопросы
Какую функцию называют функцией ценности действия для стратегии
\pi
?
Какую функцию называют функцией ценности состояния для стратегии
\pi
?
Какое условие, из ниже перечисленных, должно выполнятся, чтобы обеспечить достаточную величину шага, позволяющую справится с начальными условиями?
Что называют многослойной сетью?
Что называют нейронами Кохонена?
Что называют моделью алгоритмов?
Что называют обучением с подкреплением?
Что называют выбором метода?
Что называют методом обучения?
Что называют синтезом признаков?