База ответов ИНТУИТ

Машинное обучение

<<- Назад к вопросам

Какая форма будет называться Q-обучением?

(Отметьте один правильный вариант ответа.)

Варианты ответа
Q(s_t, a_t) \gets Q(s_t, a_t) + \alpha [v_{t+1} + \gamma \max_{\alpha} Q(s_{t+1}, a) - Q(s_t, a_t)]
;
(Верный ответ)
\hat Q^{\pi}(s,a) = \sum_{k=1}^\infty E_A\{r_{t+k} - \rho^{\pi} | S_t=s, a_t=a\}
.
\delta_t = r_{t+1} + \gamma V(S_{t+1}) - V(S_t)
;
Похожие вопросы
Какая сеть будет называться полносвязной?
Что будет называться псевдообратной для прямоугольной матрицы F?
Как будет называться модель, в которой учитывается 11 слов?
Как будет называться модель, в которой учитывается тройка слов?
Функция F будет называться разделяющими точками множества X, если:
Как будет называться модель, в которой учитывается пара слов?
При каком условии множество
w \subseteq \{1,...,n\}
будет называться тестом?
Что будет называться в параметрическом семействе отображений:
a(x,w) = sign f(x,w)
, вектором параметров?
Что будет называться в параметрическом семействе отображений:
a(x,w) = sign f(x,w)
, вектором параметров?
При каком условии совокупность
\langle w,i \rangle
будет называться представительным набором?