Машинное обучение

<<- Назад к вопросам

Какой метод оценивает
$V^{\pi}(S)$
как среднее значение выгод, соответствующих всем посещениям s в некоторой совокупности эпизодов?

(Отметьте один правильный вариант ответа.)

Варианты ответа

МК - метод первого посещения;

МК - метод всех посещений;(Верный ответ)

МК - метод классической итерации.

метод поддерживающего изучения;

Похожие вопросы

Предположим, что требуется оценить величину

$V^{\pi}(s)$

, имея набор эпизодов, полученных при применении стратегии

$\pi$

и прохождении через состояние s. Как тогда будет называться каждое появление состояния s в эпизоде?

Перейти

Какой метод усредняет выгоды, соответствующие только первым посещениям s?

Перейти

Какой метод строит алгоритм, доставляющий минимальное значение внутреннему критерию:

$\mu(X^l) = arg \min_{a\in A}Q(a,X^l)$

?

Перейти

Какой получится алгоритм, если ввести функцию ядра

k(z)

невозрастающую на

$[0, \infty)$

и положив

$w(i,u)=k(\frac{1}{h} \rho(u, x_u^{(i)}))$

в формуле

$a(u;X^l) = \arg \max_{y \in Y} Г_y(u;X^l)$

?

Перейти

Какой получится алгоритм, если

определить как наибольшее число, при котором ровно

ближайших соседей объекта

получают нулевые веса:

$h(u)=\rho(u,x_u^{(k+1)})$

.

Перейти

Если известны

P_y = P(y)

и

P_y(x) = p(x|y)

, и

$\lambda_{yy} = 0$

, а

$\lambda_{ys} = \lambda_y$

для всех

,

$s \in Y$

, то минимум среднего риска

R(a)

достигается при:

Перейти

Если выполнены условия: 1) выборка

X^m

простая, получена из плотности распределения

p(x)

; 2) ядро

K(z)

непрерывно, его квадрат ограничен:

$\int_x k^z (z)dz<\infty$

; 3) последовательность

h_m

такова, что

$\lim_{\limits {m \to \infty}} h_m = 0$

и

$\lim _{\limits{m \to \infty}} mh_m = \infty$

, тогда:

Перейти

Если в семействе А выделена последовательность подсемейств возрастающей ёмкости

$A_1 \subset A_2 \subset ... \subset A_h = A$

и в ней можно выбрать оптимальное подсемейство, для которого достигается минимальное значение правой части из формулы

$\nu (\mu(X^l), X^k) < \nu (\mu(X^l), X^l) + \sqrt{\frac{n}{l}(ln \frac{2l}{n}+1) - \frac{ln n}{l}}$

, то этот метод называют:

Перейти

Если в корректирующей операции

$b(x) = F(b_1(x),g_1(x),...,b_r(x), g_r(x)) = \sum_{t=1}^T gt(x) b_t(x)$

функция

gt(x)

принимает только два значения

$\{0,1\}$

, то множество всех

$x \in X$

, для которых

gt(x) = 1

, называется:

Перейти

Определите название данной задачи: имеется метод обучения

$\mu_G$

использующий только признаки из заданного набора признаков

$G \subseteq F=\{f_1,...,f_n\}$

. Требуется найти набор признаков, при котором алгоритм

$a=\mu_G(X^l)$

имеет наилучшую обобщающую способность.

Перейти