Машинное обучение

<<- Назад к вопросам

Какое соотношение позволяет реализовать идею, согласно которой высокие вознаграждения должны увеличивать вероятность повторного выбора предпринятого действия?

(Отметьте один правильный вариант ответа.)

Варианты ответа

$p_{t+1}(a_t) = p_t(a_t)+\beta [r_t - \bar r_t], где \beta -положительное$

;(Верный ответ)

$\bar r_{t+1} = \bar r_t + \alpha [r_t - \bar r_t], где \alpha, 0 < \alpha \le 1$

$\frac{e^{Q_t(a)/ \tau}}{\sum_{b=1}^n e^{Q_t(a)/ \tau}}$

;

$Q_t(a) = \frac{r_1+r_2+...+r_{k_a}}{k_a}$

$Q_t(a^*) = \max_a Q_t(a)$

Похожие вопросы

Какая идея, из ниже перечисленных, описывает идею алгоритма

$SARSA(\lambda)$

Вероятность правильной классификации имеет вид:

Вероятность ошибочной классификации имеет вид:

Какую функцию невозможно реализовать одним нейроном с 2-мя входами

Как называют априорную вероятность вида:

$q_r = \frac{1}{1+\gamma+\varepsilon}$

Как называется метод, который варьирует вероятность действий, представляемых посредством некоторой функции от предполагаемых значений ценности?

В каком методе из исходной обучающей выборки длины l формируются различные обучающие подвыборки той же длины l с помощью случайного выбора с возвращениями?

Верно ли, что оценить вероятность

можно, только с помощью эмпирической оценкой по различным данным?

Как называют априорную вероятность вида:

$q_Ф = \frac{\varepsilon}{1+\gamma+\varepsilon}$

Как называют априорную вероятность вида:

$q_m = \frac{\gamma}{1+\gamma+\varepsilon}$