База ответов ИНТУИТ

Машинное обучение

<<- Назад к вопросам

Какое соотношение позволяет реализовать идею, согласно которой высокие вознаграждения должны увеличивать вероятность повторного выбора предпринятого действия?

(Отметьте один правильный вариант ответа.)

Варианты ответа
p_{t+1}(a_t) = p_t(a_t)+\beta [r_t - \bar r_t], где \beta -положительное
;
(Верный ответ)
\bar r_{t+1} = \bar r_t + \alpha [r_t - \bar r_t], где \alpha, 0 < \alpha \le 1
\frac{e^{Q_t(a)/ \tau}}{\sum_{b=1}^n e^{Q_t(a)/ \tau}}
;
Q_t(a) = \frac{r_1+r_2+...+r_{k_a}}{k_a}
Q_t(a^*) = \max_a Q_t(a)
Похожие вопросы
Какая идея, из ниже перечисленных, описывает идею алгоритма
SARSA(\lambda)
?
Вероятность правильной классификации имеет вид:
Вероятность ошибочной классификации имеет вид:
Какую функцию невозможно реализовать одним нейроном с 2-мя входами
x^'
и
x^2
?
Как называют априорную вероятность вида:
q_r = \frac{1}{1+\gamma+\varepsilon}
?
Как называется метод, который варьирует вероятность действий, представляемых посредством некоторой функции от предполагаемых значений ценности?
В каком методе из исходной обучающей выборки длины l формируются различные обучающие подвыборки той же длины l с помощью случайного выбора с возвращениями?
Верно ли, что оценить вероятность
P(y|b_j(x) = 1)
можно, только с помощью эмпирической оценкой по различным данным?
Как называют априорную вероятность вида:
q_Ф = \frac{\varepsilon}{1+\gamma+\varepsilon}
?
Как называют априорную вероятность вида:
q_m = \frac{\gamma}{1+\gamma+\varepsilon}
?