База ответов ИНТУИТ

Машинное обучение

<<- Назад к вопросам

Предположим, что требуется оценить величину
V^{\pi}(s)
, имея набор эпизодов, полученных при применении стратегии
\pi
и прохождении через состояние s. Как тогда будет называться каждое появление состояния s в эпизоде?

(Отметьте один правильный вариант ответа.)

Варианты ответа
посещение s;(Верный ответ)
первое посещение;
перебор состояния s;
действие.
Похожие вопросы
Набор функций
F \subseteq C(x)
будет называться замкнутым относительно функции
\varphi : R \to R
, если:
Какую функцию называют функцией ценности состояния для стратегии
\pi
?
Если выполнены условия: 1) выборка
X^m
простая, получена из плотности распределения
p(x)
; 2) ядро
K(z)
непрерывно, его квадрат ограничен:
\int_x k^z (z)dz<\infty
; 3) последовательность
h_m
такова, что
\lim_{\limits {m \to \infty}} h_m = 0
и
\lim _{\limits{m \to \infty}} mh_m = \infty
, тогда:
Как будет называться предикат
\varphi(x)
, если
E_c(\varphi,X^l) \le \varepsilon
и
D_c(\varphi, X^l) \ge \delta
при заданных достаточно малом
\varepsilon
и достаточно большом
\delta
из отрезка [0,1]?
Если известны
P_y = P(y)
и
P_y(x) = p(x|y)
, и
\lambda_{yy} = 0
, а
\lambda_{ys} = \lambda_y
для всех
y
,
s \in Y
, то минимум среднего риска
R(a)
достигается при:
Определите название данной задачи: имеется метод обучения
\mu_G
использующий только признаки из заданного набора признаков
G \subseteq F=\{f_1,...,f_n\}
. Требуется найти набор признаков, при котором алгоритм
a=\mu_G(X^l)
имеет наилучшую обобщающую способность.
Если в корректирующей операции
b(x) = F(b_1(x),g_1(x),...,b_r(x), g_r(x)) = \sum_{t=1}^T gt(x) b_t(x)
функция
gt(x)
принимает только два значения
\{0,1\}
, то множество всех
x \in X
, для которых
gt(x) = 1
, называется:
Как будет называться закономерность
\varphi
, если
n_c(\varphi)=0
?
Как будет называться закономерность
\varphi
, если
n_c(\varphi)>0
?
Какую функцию называют функцией ценности действия для стратегии
\pi
?