Машинное обучение - ответы

Количество вопросов - 525

Действительно ли то, что ёмкость однопараметрического семейства может быть бесконечной?

Какие данные не используют в картах Кохонена в качестве входных?

Выберите правильный ответ. Задача ранжирования - это:

Верно ли утверждение. Наивный байесовский классификатор может быть как параметрическим, так и непараметрическим.

Как будет называться закономерность
\varphi
, если
n_c(\varphi)>0
?

Какой алгоритм позволяет найти пару вершин
(x_i, x_j) \in X^{l+k}
с наименьшим
\rho(x_i, y_i)
и соединить их ребром?

Как называется операция, отбирающая
N
наиболее адаптивных индивидов популяции
П
в алгоритме CCEL?

Какой пример, из ниже перечисленных, является примером смеси алгоритмов?

Выберите неверные утверждения:

Семейство линейных решающих правил будет выглядеть как:

Что, из ниже перечисленного, называется областью компетенции базового алгоритма
b_t(x)
?

Как называется величина
M_i(w) = y_if(x_i,w)
объекта
x_i
относительно алгоритма классификации
a(x, w) = sign f(x, w)
?

Этап обучения - это:

Отступ показывает:

Какой алгоритм удаляет, те связи, к изменению которых функционал Q наименее чувствителен?

Чему соответствует прямоугольное ядро
k(z)=\frac{1}{2}[|z|<1]

Чему способствует увеличение параметра
\lambda
?

Вероятность правильной классификации имеет вид:

Что называют эффективной размерностью задачи?

Как формула подходит для абсолютного значения ошибки для задач регрессии?

Что называют
n
-мерным нормальным (гауссовским) распределением с вектором матожидания
\mu \in R^n
и ковариационной матрицей
\sum \in R^{n \times n}
?

Что означает запись
n_w = \sum_{d \in D} nd_w
?

Как называется основная процедура в алгоритме КОРА?

Правильнее и надежнее классификация объекта
x_i
будет, если:

За что штрафует функция потерь
\alpha(M) = (1 - |M|)_+
?

Что означает
C_m
в правиле справедливой конкуренции CWTA?

Что должно поступать на вход в алгоритме поочередного добавления и удаления?

По какой из формул вычисляются веса в областях локальных сгущений оптимальна меньшая ширина окна?

Что называют многослойной сетью?

Определите название данной задачи: имеется метод обучения
\mu_G
использующий только признаки из заданного набора признаков
G \subseteq F=\{f_1,...,f_n\}
. Требуется найти набор признаков, при котором алгоритм
a=\mu_G(X^l)
имеет наилучшую обобщающую способность.

Объекты состоят из признаков?

Что является квадратичной ошибкой для задачи регрессии?

Если происходит средняя потеря на всех объектах, то это есть:

Верно ли следующее утверждение? Многие виды задач медицинской диагностики решаются задачами классификации.

Какие задачи, из ниже перечисленных, являются задачами прогнозирования?

Какие, из ниже перечисленных задач, являются задачами классификации?

Какой тип экспериментального исследования имеет цель - понимание, на что влияют параметры метода обучения?

Метод обучения - это:

Функционал среднего риска - это:

Если известны
P_y = P(y)
и
P_y(x) = p(x|y)
, то минимум среднего риска
R(a)
достигается при:

Формула восстановления смеси распределений может выглядеть как:

На какой из теории основан байесовский подход?

Общий вид равновероятных классов будет выглядеть:

Выберите правильный ответ. Эмперическая оценка среднего риска вычисляется по:

В формуле совместной плотности
p(x,y) = p(x) P(y|x) = P(y)p(x|y)
функцией априорной вероятности класса
y
будет функция:

На локальной аппроксимации плотности
p(x)
в окрестности классифицируемого объекта
x \in X
основано:

Что, из ниже перечисленного, относится к недостаткам квадратичного дискриминанта?

Верно ли, что если классы имеют нормальные функции правдоподобия, то байесовское решающее правило имеет квадратичную разделяющую поверхность.

Если при переобучении: на
X^l
всё хорошо, на
X^k
всё плохо, то это проявление:

Что применяют для проверки на равенство нулю элементов
\sigma_{ij}
ковариационной матрицы
\hat \Sigma
.

В какой из выборок
x_i
является гистограммой значений для оценки плотности:

Если выполнены условия: 1) выборка
X^m
простая, получена из плотности распределения
p(x)
; 2) ядро
K(z)
непрерывно, его квадрат ограничен:
\int_x k^z (z)dz<\infty
; 3) последовательность
h_m
такова, что
\lim_{\limits {m \to \infty}} h_m = 0
и
\lim _{\limits{m \to \infty}} mh_m = \infty
, тогда:

Верно ли утверждение. Функции правдоподобия принадлежат параметрическому семейству распределений
\varphi(x;\Theta)
и отличаются только значениями параметра
p_j(x) = \varphi(x;\Theta)
.

Выберите верные утверждения:

Константы смеси имеют
n
-мерные нормальные распределения
\varphi(x;\Theta_j) = N(x;\mu_j,\Sigma_j)
с параметрами
\Theta_j = (\mu_j,\Sigma_j)
, где
\Sigma_j \in R^{n \times n}
- это:

Весовой функцией является функция:

Какой алгоритм относит классифицируемый объект
u \in X^l
к тому классу, которому принадлежит обучающий объект?

К какому алгоритму можно отнести формулу:
w(i,u)=[i=1]; a(u;X^l)=y_u^{(1)}
?

Какой получится алгоритм, если ввести функцию ядра
k(z)
невозрастающую на
[0, \infty)
и положив
w(i,u)=k(\frac{1}{h} \rho(u, x_u^{(i)}))
в формуле
a(u;X^l) = \arg \max_{y \in Y} Г_y(u;X^l)
?

Какие, ниже перечисленные, недостатки можно отнести к метрическим алгоритмам
kNN
?

Отступом (margin) объекта
x_i \in X^l
относительно алгоритма классификации, имеющего вид
a(u) = \arg \max_{y \in Y} Г_y(u)
называется величина:

Большой положительный отступ, плотно окруженный объектами своего класса имеют:

Как называется функция
f(x,w)
?

Пусть есть задача с 2-мя классами
Y = {-1, +1}
. К какому классу будет относится алгоритм, если
f(x,w) > 0
?

Правильнее и надежнее классификация объекта
x_i
будет, если:

Какая, из перечисленных ниже функций, соответствует методу опорных векторов?

Для чего вводится параметрическое семейство априорных распределений
p(w; \gamma)
?

Что, из ниже перечисленного, относится к недостаткам метода SG?

Какой вид будет иметь правило обновления весов на каждой итерации метода стохастического градиента?

Какая функция, из ниже перечисленных, является функцией активации?

Как называется функция
f(x,w)
?

Пусть есть задача с 2-мя классами
Y = {-1, +1}
. К какому классу будет относится алгоритм, если
f(x,w) = 0
?

Будет ли алгоритм допускать ошибку на объекте
x_i
, если
M_i(w) < 0
?

Какая, из перечисленных ниже функций, соответствует линейному дискриминанту Фишера?

Для чего вводится параметрическое семейство априорных распределений
p(w; \gamma)
?

Что, из ниже перечисленного, относится к недостаткам метода SG?

Какой вид будет иметь правило обновления весов на каждой итерации метода стохастического градиента?

Какая функция, из ниже перечисленных, является функцией активации?

Действительно ли что, ширина полосы минимальна, когда норма вектора w минимальна?

Что следует из формулы
w = \sum_{i=1}^l \lambda_i y_i x_i
?

Какие объекты называются опорными?

Если объекты
x_i
либо лежат внутри разделяющей полосы, но классифицируются правильно
(0 < \xi_i < 1, 0 < m_i < 1)
, либо попадают на границу классов
(\xi_i = 1, m_i = 0)
, либо вообще относятся к чужому классу
(\xi_i > 1, m_i < 0)
, то их называют:

Действительно ли, что построение адекватного ядра является искусством и, как правило, опирается на априорные знания о предметной области?

Что, из ниже перечисленного, не является входными данными в последовательном методе активных ограничений?

Выберите верное утверждение.

Какая функция не считает за ошибки отклонения
a(x_i)
от
y_i
, меньшие
\varepsilon
?

Какая функция позволяет говорить о "близости" объектов, на множестве
X
?

На что влияет выбор ядра K?

При каком размере окна h функция чрезмерно сглаживается?

Формула скользящего контроля с исключением объектов по одному выглядит:

Как называются методы восстановления регрессии, устойчивые к шуму в исходных данных?

Что будет являтся решением нормальной системы?

Что надо добавить для решения проблемы мультиколлинеарности?

Как выглядит гессиан функционала Q в точке
\alpha^t
?

В какой из формул указан итерационный процесс уточнения вектора коэффициентов
w^{t+1}
?

Что представляет собой матрица
\tilde F = ГF
?

Что получают на выходе в алгоритме IRLS?

Набор функций
F \subseteq C(x)
будет называться замкнутым относительно функции
\varphi : R \to R
, если:

Как называется метод, который позволял вычислять градиент, при котором каждый градиентный шаг выполняется за число операций, лишь немногим больше, чем при обычном вычислении сети на одном объекте?

Верно ли что, если обучающая выборка имеет большой объем, то можно использовать метод Хебба?

Процесс упрощения сети, в алгоритме OBD, останавливается, когда:

Что, из ниже перечисленного, не относится к целям кластеризации?

Какую функцию невозможно реализовать одним нейроном с 2-мя входами
x^'
и
x^2
?

Какие слои в нейронной сети называются скрытыми?

Что такое
\eta
в формуле:
w_m:=w_m + \eta(x_i - w_m)[a(x_i) = m]
?

Что называют нейронами Кохонена?

Какое правило означает следующая формула
a(x)=arg \min_{m \in Y} \rho(x,w_m)
?

Самоорганизующиеся карты Кохонена применяются для:

Как выглядет формула стресса в задаче многомерного шкалирования?

Верно ли, что при n=3 многомерное шкалирование позволяет отобразить выборку в виде множества точек на плоскости?

От чего зависит функционал стресса
S(X^l)
?

Верно ли, что при частичном обучении можно получить метки
\{ y_{l+1},...,y_{l+k} \}
зная все
\{ y_{l+1},...,y_{l+k} \}
?

Какой алгоритм является self-traning для композиции простого голосования базовых алгоритмов
a_1,...,a_T
?

Какая из формул позволит решить задачу с помощью алгоритма co-learning?

Какой алгоритм имеет процедуру удаления k-1 самых длинных ребер?

К какому алгоритму относится недостаток неустойчивого решения, если нет области разреженности?

Верно ли, что оценить вероятность
P(y|b_j(x) = 1)
можно, только с помощью эмпирической оценкой по различным данным?

Оценка расстояний между двумя распределениями с помощью дивергенции Кульбака-Лейблера будет выглядеть:

Как называется функция
b:X \to R
в алгоритмах имеющих вид суперпозиции
a(x) = C(b(x))
?

Как называется алгоритм
a:X \to Y
вида
a(x) = C(F(b_1(x), ..., b_r(x))), x \in X
?

Что из ниже перечисленного относится к корректирующим операциям?

Какой пример, из ниже перечисленных, является примером простого голосования?

Если в корректирующей операции
b(x) = F(b_1(x),...,b_r(x)) = \sum_{t=1}^T \alpha_t b_t(x)
, параметры
\alpha_t
неотрицательны и нормированы,
\sum_{t=1} \alpha_t = 1
, то композиция называется:

Чему эквивалентна минимизация функционала
Q(a) = Q(F(b_1,...,b_t))
по базовому алгоритму
b_t
?

Что не способствует уменьшению параметра
\lambda
?

Что из ниже перечисленного относится к недостаткам алгоритма AdaBoost?

Какой алгоритм предпочтительней, когда признаков больше, чем объектов?

Какие параметры участвуют в алгоритмической композиции CCEL?

В каком методе из исходной обучающей выборки длины l формируются различные обучающие подвыборки той же длины l с помощью случайного выбора с возвращениями?

Сколько популяций строится на t-м поколении алгоритма CCEL?

Что такое селекция
(П, N)
в методе CCEL?

Действительно ли, что беггинг работает лучше на больших обучающих выборках?

Какие параметры используются в алгоритме последовательного построения смеси?

Как определяется индикатор ошибки в задачах обучения по прецедентам?

Что называют частотой ошибок алгоритма a на произвольной подвыборке
U \subseteq X^l
?

Как определить функционал в качестве вероятности частоты ошибок на контроле превышающее заданное число
\epsilon \in [0,1]
?

Как будет выглядеть формула вероятности ошибки в интерпретации обобщающей способности метода
\mu
?

Алгоритмы
a
и
a'
неразличимы на выборке
X^l
, если:

Верно ли, что функция роста не зависит ни от выборки, ни от метода обучения?

Верно ли утверждение, что ёмкость семейства линейных решающих правил А равна размерности пространства n?

Что называют выбором структуры модели?

Что называют моделью алгоритмов?

Определите название данной задачи: имеется конечное множество альтернативных моделей
A_1,...,A_T
, каждая со своим методом обучения,
M=\{\mu_1,...,\mu_T\}
. Требуется найти модель, наиболее адекватную для данной выборки.

Функционал
Q_{int}(\mu, X^l)
, характеризующий качество метода
\mu
по обучающей выборке
X^l
называют:

Как называется функционал
CV(\mu, X^l)=\frac{1}{N}\sum_{n=1}^{N}Q(\mu(X_n^l), X_n^k)
?

Как называется критерий
BIC(\mu,X^l)=\frac{l}{\hat \delta^2}(Q(\mu(X^l), X^l)+\frac{\hat\delta^2 ln l}{l} n)
?

Выберите правильную характеристику для внешнего критерия.

Что должно поступать на вход в алгоритме полного перебора?

Как называется алгоритм, который осуществляет полный перебор всевозможных наборов признаков G в порядке возрастания сложности?

Как будет называться предикат
\varphi(x)
, если
E_c(\varphi,X^l) \le \varepsilon
и
D_c(\varphi, X^l) \ge \delta
при заданных достаточно малом
\varepsilon
и достаточно большом
\delta
из отрезка [0,1]?

Что, из ниже перечисленного характеризует энтропийное определение информативности?

Что, из ниже перечисленного характеризует взвешенную информативность?

Какая формула характерна, если
f
представляет количественный признак?

Что называют рангом в форме конъюнкций?

Какие данные подаются на вход "градиентного" алгоритма синтеза конъюнкции?

Какой алгоритм использует только операцию добавления термов?

По какой из формул параметрическое семейство Ф можно отнести к параметрическому семейству шаров?

Какой входной набор данных характерен для жадного алгоритма построения решающего списка?

К чему приводит уменьшение параметра
E_{max}
при оптимизации сложности решающего списка?

Что такое бинарное решающее дерево?

Что является выходными данными в алгоритме синтеза бинарного решающего дерева
ID3
?

Что, из ниже перечисленного характерно для предредукции?

Какой алгоритм строит набор конъюнктивных закономерностей?

Что, из ниже перечисленного является достоинством алгоритма КОРА?

При каком условии множество
w \subseteq \{1,...,n\}
будет называться тестом?

Выберите верный вариант. Если для каждого класса
c \in Y
построено множество логических правил, специализирующихся на различении объектов данного класса
R_c=\{\varphi_c^t:X \to \{0,1\}|t=1,...,T_c\}
и если
\varphi_c^t(x)=0
, то:

Выберите правило, при голосовании которым берётся взвешенная сумма голосов?

Что делает конъюнкция
\varphi
в алгоритме КОРА, если она выделяет слишком мало объектов своего класса?

Что из ниже перечисленного не относится к задачам коллаборативной фильтрации?

В какой модели по данным
D
оцениваются векторы: профили клиентов и профили объектов?

Что является основой латентного семантического анализа?

Какие данные в качестве входных применяются в алгоритме двухступенчатой симметризации?

Что из ниже перечисленного не относится к моделям основанным на хранении исходных данных?

Что является недостатком модели от клиента?

Что из ниже перечисленного не является типом латентной модели?

Что из ниже перечисленного является функционалом качества кластеризации?

Что из ниже перечисленного не относится к вероятностной модели коллекции документов?

Что означает запись
n = \sum_{d \in D} \sum_{w \in d} nd_w
?

Какая запись соответствует числу троек, связанных с темой t?

Какое обозначение соответствует задаче приближенного представления заданной матрицы частот?

Как будет называться модель, в которой учитывается 11 слов?

Приведение каждого слова в документе к его нормальной форме называется:

Что является элементами кластеров?

Какая компонента, из ниже перечисленных, является шумовой компонентой?

Как называют априорную вероятность вида:
q_r = \frac{1}{1+\gamma+\varepsilon}
?

Что из ниже перечисленного не определяет метаинформацию?

Что характеризует гипотеза условной независимости вида:
p(w|t,c,d) = p(w|t)
?

Какие модели, из ниже перечисленных относятся к динамическим тематическим моделям?

Что называют обучением с подкреплением?

Как называется метод, который использует жадные действия большую часть времени?

Какое соотношение позволяет реализовать идею, согласно которой высокие вознаграждения должны увеличивать вероятность повторного выбора предпринятого действия?

Что называется вероятностями перехода?

Какую функцию называют функцией ценности состояния для стратегии
\pi
?

Какой метод усредняет выгоды, соответствующие только первым посещениям s?

Какая форма будет называться Q-обучением?

Какая идея, из ниже перечисленных, описывает метод
Q(\lambda)
Уоткинса?

Что будет градиентным шагом в формуле
w_m:=w_m + \eta(x_i - w_m)[a(x_i) = m]
?

Каким способом можно получить гребневую регрессию?

Выберите, что подходит под определение коэффициента разнообразия
\Delta^A(X^L)
множества алгоритмов А на выборке
X^L
?

Какая оценка справедлива для функции роста, если множество А конечно, а число алгоритмов, попарно неразличимы на выборке
X^L
?

Чему соответствует точечное ядро
k(z)=[z=0]
при единичной ширине окна
h=1
:

Выберите правильный ответ. Задача классификации - это:

Что из ниже перечисленного представления описывает процесс порождения коллекции D?

Есть гипотеза, где классы имеют
n
-мерные гауссовские плотности:
p_y(x) = N(x; \mu_y; \sum y) = \frac {e^{-\frac{1}{2}(x-\mu_y)^T \sum \limits_ {y}^{-1} (x-\mu_y) } }{\sqrt {(2\pi)^n det \sum_y}}
, где -
y \in Y
, то вектором матожидания класса
y \in Y
будет:

Выберите верные утверждения.

Как будет называться закономерность
\varphi
, если
n_c(\varphi)=0
?

Эмпирической оценкой плотности является функция:

Что из ниже перечисленного является типом латентной модели?

Какая из формул позволит решить задачу частичного обучения?

Верно ли, что при n=1 многомерное шкалирование позволяет отобразить выборку в виде множества точек на плоскости?

В задачах классификации признаки могут быть строковыми, вещественными, числовыми.

В зависимости от значений отступа обучающие объекты условно делятся на:

Что, из ниже перечисленного является достоинством алгоритма ТЭМП?

Какое выражение, из перечисленных ниже, называется байесовским решающим правилом:

Какой получится алгоритм, если
h
определить как наибольшее число, при котором ровно
k
ближайших соседей объекта
u
получают нулевые веса:
h(u)=\rho(u,x_u^{(k+1)})
.

Локальную аппроксимацию выборки
X^l
строит алгоритм:

Какой метод оценивает
V^{\pi}(S)
как среднее значение выгод, соответствующих всем посещениям s в некоторой совокупности эпизодов?

Как будет выглядеть формула вероятности, когда переобученность превышает допустимый порог
\epsilon
?

Если функция
g(x,a)
достаточное число раз дифференцируема по
\alpha
, то:

Что, из ниже перечисленного характерно для постредукции?

Что, из ниже перечисленного, не подается на вход в алгоритме IRLS?

Что из ниже перечисленного не является элементом обучения с подкреплением?

Какая форма является TD-ошибкой?

За что штрафует функция
\alpha(M) = (1 - |M|)_+
?

Какие пространства признаков называются спрямляющими?

Действительно ли, что метод INCAS позволяет решать задачи, в которых нет линейной разделимости?

Какой алгоритм имеет такое условие, что пока есть путь между двумя вершинами разных классов, то удалить самое длинное ребро на этом пути?

Верно ли, что трансдуктивное обучение - это построение алгоритма классификации
a:X \to Y
?

К какому алгоритму относится недостаток настройки двух параметров
C, \gamma
?

Что называют данными в машинном обучении?

Что служит индикатором ошибки для задач классификации?

Эмпирический риск - это средняя потеря на одном объекте.

Какие задачи из ниже перечисленных относятся к задачам классификации?

Что, из ниже перечисленного, не относится к типу экспериментального исследования?

Апостеорной вероятностью класса
y
для объекта
x
называется:

Формула параметрического оценивания плотности может выглядеть как:

Если байесовское решающее правило написать через апостериорные вероятности, то получится формула вида:

В формуле совместной плотности
p(x,y) = p(x) P(y|x) = P(y)p(x|y)
функцией правдоподобия класса
y
будет функция:

Выберите неверные утверждения:

Если матрица
\hat \Sigma
близка к вырожденной, то это называется:

Идея EM-алгоритма с последовательным длбавлением компоненты заключается в следующем:

Константы смеси имеют
n
-мерные нормальные распределения
\varphi(x;\Theta_j) = N(x;\mu_j,\Sigma_j)
с параметрами
\Theta_j = (\mu_j,\Sigma_j)
, где
\mu_j \in R^n
- это:

Выберите какие недостатки относятся не к алгоритму ближайшего соседа?

К какому алгоритму можно отнести формулу:
w(i,u) = [i \le k]w_i; a(u;X^l,k) = \arg \max_{y \in Y}\sum_{i=1}^k [y_{(n)}^{(i)} = y]
?

Отрицательные отступы и классифицирующиеся неверно имеют:

Что будет называться в параметрическом семействе отображений:
a(x,w) = sign f(x,w)
, вектором параметров?

Будет ли алгоритм допускать ошибку на объекте
x_i
, если
M_i(w) < 0
?

Какая, из перечисленных ниже функций, соответствует алгоритму бустинга Ada Boost?

Какой эвристический приём характеризует нормализацию признаков?

Что будет называться в параметрическом семействе отображений:
a(x,w) = sign f(x,w)
, вектором параметров?

Пусть есть задача с 2-мя классами
Y = {-1, +1}
. К какому классу будет относится алгоритм, если
f(x,w) < 0
?

Какая, из перечисленных ниже функций, соответствует алгоритму бустинга Ada Boost?

В формуле
\ln p(w, \sigma)
, что будет выступать в роли гиперпараметра?

Что получится, если дискриминантная функция определяется как скалярное произведение вектора
x
и вектора параметров
w \in R^n
?

Какое условие называют условием дополняющей нежёсткости?

Объекты называются периферийными?

Если объекты
x_i
классифицируется правильно и находятся далеко от разделяющей полосы, то их называют:

В чем преимущества SVM перед метдом стохастического градиента?

Что, из ниже перечисленного, является входными данными в последовательном методе активных ограничений?

При каком размере окна h функция в пределе
h \to \infty
вырождается в константу?

Вычисление оценки скользящего контроля на каждом объекте выглядит следующим образом:

Каким способом можно уменьшить норму вектора коэффициентов?

Как будет выглядеть градиент функционала Q в точке
\alpha^t
?

Выражение для градиента будет выглядеть:

Функция F будет называться разделяющими точками множества X, если:

Какие будут входные данные, если сеть обучать методом обратного распространения ошибки?

Верно ли что, если обучающая выборка имеет большой объем или если решается задача классификации, то можно использовать метод стохастического градиента с адаптивным шагом?

Что означает, если веса
w_j h
между входными и скрытым слоем будут обнулены?

Как называют выражение
a(x) = arg \min_{m \in Y} \rho (x,w_m)
?

Какой нейрон называют нейроном-победителем?

Какое правило означает следующая формула
w_m:=w_m + \eta (x_i - w_m) K(\rho(x_i, w_m))
?

Какие входные данные нужны для карт Кохонена?

Формула гладкой аппроксимации имеет вид:

Верно ли, что при n=2 многомерное шкалирование позволяет отобразить выборку в виде множества точек на плоскости?

Верно ли, что частичное обучение - это построение алгоритма классификации
a:X \to Y
?

Степень доверия классификации
a(x_i):M_i(a) = Гy_i(x_i) - \max_{y \in Y \setminus y_i} Г_y(x_i)
называется:

За что штрафует функция
\alpha(M) = (1 - M)_+
?

Действительно ли, что метод XR слабо чувствителен к выбору
C, \gamma
?

С помощью какой формулы можно оценить вероятность
P(y|b_j (x) = 1)
по размеченным данным
X^l
?

Оценка расстояний между двумя распределениями с помощью расстояния Хелингера будет выглядеть:

В каком алгоритме встречается алгоритмический оператор
b:X \to R
?

Как называются операторы
b_t(x)
при фиксированном решающем правиле?

К какому классу отнесет объект решающее правило С:
C(b) \equiv C(b^{(1)},...,b^\mu) = \arg \max_{y \in Y} b^{(y)}
?

Как называют произведения
g_t(x) b_t(x)
в смесях алгоритмов?

Что объясняет эффективность бустинга?

Какие алгоритмы лучше работают на больших обучающих выборках?

Какие параметры участвуют в алгоритме RSM?

В каком методе базовые алгоритмы обучаются на различных подмножествах признакового описания, которые выделяются случайным образом?

Что такое рекомбинация
(П, N_1)
в методе CCEL?

К любым ли базовым алгоритмам и их методам обучения применим алгоритм CCEL?

Что, из ниже перечисленного называют компонентами смеси?

Что будет на выходе в алгоритме M2E?

Что называют разностью
\delta(\mu, X^l, X^k) = \nu (a, X^k) - \nu (a,X^l)
?

Как определяется функционал полного скользящего контроля?

Что называют синтезом признаков?

Какой метод строит алгоритм, доставляющий минимальное значение внутреннему критерию:
\mu(X^l) = arg \min_{a\in A}Q(a,X^l)
?

Как называется критерий:
LOO(\mu,X^l)=\frac{1}{L}\sum_{i=1}^kQ(\mu(X^l\backslash \{x_i\}, \{x_i\}))
?

Как называется критерий
Q(\mu(X^l), X^k) < Q(\mu(X^l),X^l) + \sqrt{\frac{h}{l}(ln \frac{2l}{n}+1)-\frac{ln n}{l}}
?

Как называется алгоритм, который добавляет к набору G по одному признаку, каждый раз выбирая тот признак, который приводит к наибольшему уменьшению внешнего критерия?

Что, из ниже перечисленного характеризует энтропийный критерий?

Какая формула характерна, если
f
представляет порядковый признак?

Что называют зонами значений признака
f
?

Какие данные подаются на вход жадного алгоритма слияния зон?

По какой из формул параметрическое семейство Ф можно отнести к параметрическому семейству областей?

Что, из ниже перечисленного является недостатком решающих списков?

Что такое решающий список?

Какой алгоритм подсчитывает долю правил в наборах
R_c
, относящих объект
x
к каждому из классов?

При каком условии представительный набор
\langle w,i \rangle
называется тупиковым?

Определите какая из формул не участвует ни в простом ни взвешенном голосовании:

Задача выявления содержательно интерпретируемых латентных характеристик клиентов и ресурсов относится к задаче коллаборативной фильтрации?

Как называется вектор условных вероятностей
q_{t_r} = q(t|r)
, если данный ресурс
r
соответствует теме
t \in T
?

Что является основой анамнестических алгоритмов?

Что из ниже перечисленного не относится к латентной модели?

Являются ли вероятностные модели типом латентных моделей?

Что из ниже перечисленного является Е-шагом ЕМ-алгоритма?

Что означает запись
nd = \sum_{w \in W} nd_w
?

Какая запись соответствует числу троек, в которых термин w связан с темой t?

Какое обозначение соответствует матрице тем документов
\varTheta
?

Как будет называться модель, в которой учитывается пара слов?

Что определяет векторный параметр
\alpha
?

Какая компонента, из ниже перечисленных, является файловой компонентой?

Какие модели, из ниже перечисленных относятся к многоязычным тематическим моделям?

Какие элементы, из ниже перечисленных относятся к обучению с подкреплением?

Как называется метод, который применяют для оценивания ценности?

Что называют финитным марковским процессом принятия решений?

Какую величину называют относительной ценностью?

Какая идея, из ниже перечисленных, описывает идею алгоритма
SARSA(\lambda)
?

Что показывает величина
E(m) = \frac{||GU^T-F||^2}{||F||^2} = \frac{\lambda_{m+1}+...+\lambda_n}{\lambda_1+...+\lambda_n}\le \varepsilon
?

Чему способствует уменьшение параметра
\lambda
?

Какой входной набор данных является лишним для жадного алгоритма построения решающего списка?

Что называют в теории нейронных сетей сокращением весов?

Идея алгоритма EM заключается в следующем:

Радиальными функциями принято называть функции:

Верно ли, что по мере увеличения сложности модели
|G|
внутренний критерий возрастает?

Какой алгоритм представляет функцию
a:X \to Y
, которая любому объекту
x \in X
ставит в соответствие метку кластера
y \in Y
?

Что такое мутация (П) в методе CCEL?

Как называется функция вида:
a_t(x) = C(b_t(x))
?

Этап тестирования - это:

Оценка расстояния между двух распределений с помощью статистики
xu
- квадрат будет выглядеть:

Что получается на выходе в алгоритме жадного построения решающего списка?

Разделяющая поверхность
\{ x \in X | \lambda_y P_y p_y(x)=\lambda_s P_s p_s (x) \}
квадратичная для всех
y
,
s \in Y, y \ne s
будет вырождена в линейную, если:

Какой алгоритм на каждом шаге отбирает целые популяции?

По какой формуле определяется энтропия?

Выберите верный вариант. Если для каждого класса
c \in Y
построено множество логических правил, специализирующихся на различении объектов данного класса
R_c=\{\varphi_c^t:X \to \{0,1\}|t=1,...,T_c\}
и если
\varphi_c^t(x)=1
, то:

Если в корректирующей операции
b(x) = F(b_1(x),g_1(x),...,b_r(x), g_r(x)) = \sum_{t=1}^T gt(x) b_t(x)
функция
gt(x)
принимает только два значения
\{0,1\}
, то множество всех
x \in X
, для которых
gt(x) = 1
, называется:

Величина потери от ошибки - это:

Что поступает на вход рекурсивного алгоритма синтеза бинарного решающего дерева
ID3
?

Какие ценности действий называют методами Монте-Карло?

Что, из ниже перечисленного, относится к обучающей выборке?

Верно ли утверждение? Всякая оптимизация по неполной информации и избыточная сложность параметров приводит в переобучению.

Какая, из ниже перечисленных задач, является задачей классификации на 4 класса?

Если известны
P_y = P(y)
и
P_y(x) = p(x|y)
, и
\lambda_{yy} = 0
, а
\lambda_{ys} = \lambda_y
для всех
y
,
s \in Y
, то минимум среднего риска
R(a)
достигается при:

Какие, из ниже перечисленных подходов, относятся к подходам оцениванию:

Выберите правильный ответ. По контрольной выборке вычисляется:

В формуле совместной плотности
p(x,y) = p(x) P(y|x) = P(y)p(x|y)
функцией апостеорной вероятности класса
y
будет функция:

Если нормаль разделяет гиперплоскость
\alpha_y = \hat\Sigma^{-1} \hat\mu_y
неустойчива, то это проявление:

Чтобы использовать расстояние Махаланобиса в задаче определения принадлежности заданной точки одному из
N
классов, нужно найти матрицы ковариации всех классов.

Если объекты описываются
n
числовыми признаками
f_i:X \to R, i=1,...,n
, тогда:

Плотность распределения на
X
имеет вид смеси
k
распределений
p(x) = \sum_{j=1}^k w_j p_j(x), \sum_{j=1}^k w_j = 1, w_j \ge 0
, где
w_j(x)
- это:

Выберите, какие недостатки относятся к алгоритму ближайшего соседа?

Как называется параметр
h
в формуле
a(u; X^l,h) = \arg \max_{y \in Y} \sum_{i=1}^l[y_n^{(i)}=y] k(\frac{\rho(u,x_u^{(i)})}{h})
?

Какие преимущества, из ниже перечисленных, относятся к преимуществам метода SG?

Что называют в теории нейронных сетей сокращением весов?

Что получится, если дискриминантная функция определяется как скалярное произведение вектора
x
и вектора параметров
w \in R^n
?

С чем, из ниже перечисленного сравнивают линейный классификатор?

Какая, из перечисленных ниже функций, соответствует методу опорных векторов?

Какая величина называется гиперпараметром?

Действительно ли что, ширина полосы максимальна, когда норма вектора w максимальна?

Какие объекты не являются опорными?

В ядре
w_i(x) = K(\frac{\rho(x,x_i)}{h})
, параметр
h
- называется:

Что будет называться псевдообратной для прямоугольной матрицы F?

Выражение для гессиана будет выглядеть:

Что подается на вход в алгоритме IRLS?

Какая сеть будет называться полносвязной?

Что означает обнуление веса
w_{hm}
между скрытым и входным слоями?

Дробление крупных кластеров на более мелкие называется задачей:

С помощью какой формулы решается задача исключающего ИЛИ?

Каким способом можно избавиться от неинформативного пустого кластера?

С помощью какого правила можно построить гладкую аппроксимацию?

Какая из формул позволит решить задачу кластеризации?

Как называется функция
C:R \to Y
в алгоритмах имеющих вид суперпозиции
a(x) = C(b(x))
?

Что из ниже перечисленного не относится к корректирующим операциям?

Какой пример, из ниже перечисленных, является примером взвешенного голосования?

Какой алгоритм позволяет получить на выходе алгоритмическую композицию
F(b_1,...,b_r)
?

Что из ниже перечисленного является достоинством алгоритма AdaBoost?

Какие алгоритмы лучше работают на коротких обучающих выборках?

Какая функция, из ниже перечисленных, представляет собой квазилинейную корректирующую операцию?

Что получается на выходе при построении 2-х базовых алгоритмов?

Что называют методом обучения?

Определите название данной задачи: имеется одна модель А, и один метод обучения
\mu_w
с параметром
w
, который не может быть настроен по обучающей выборке. Требуется подобрать наиболее подходящие значения гиперпараметра.

Как называется критерий, который характеризует качество метода
\mu
по тем данным, которые не использовались в процессе обучения?

Выберите правильную характеристику для внутреннего критерия.

Как называется алгоритм, который последовательно удаляет избыточные признаки?

Что, из ниже перечисленного характеризует эффективное вычисление информативности с применением формулы Стирлинга?

Выберите верное утверждение:

Что не является входными данными в алгоритме синтеза бинарного решающего дерева
ID3
?

Что из ниже перечисленного относится к задачам коллаборативной фильтрации?

Какие данные не являются входными в алгоритме двухступенчатой симметризации?

Что из ниже перечисленного представления называется гипотезой условной независимости?

Какая запись соответствует числу троек, в которых термин документа d связан с темой t?

Какое обозначение соответствует матрице терминов тем Ф?

Отбрасывание изменяемых частей слов, главным образом, окончаний называется:

Какая компонента, из ниже перечисленных, является тематической компонентой?

Как называют априорную вероятность вида:
q_Ф = \frac{\varepsilon}{1+\gamma+\varepsilon}
?

Что, из ниже перечисленного называют метаинформацией?

Какие модели, из ниже перечисленных относятся к многомодальным тематическим моделям?

Как называется метод, который варьирует вероятность действий, представляемых посредством некоторой функции от предполагаемых значений ценности?

Верно ли, что метод
SARSA(\lambda)
не принимает в расчет все будущие ситуации вплоть до конца эпизода при выполнении дублирования?

Пусть есть задача с 2-мя классами
Y = {-1, +1}
. К какому классу будет относится алгоритм, если
f(x,w) > 0
?

Что из ниже перечисленного относится к моделям основанным на хранении исходных данных?

Что называют методом обучения?

Какую функцию называют функцией ценности действия для стратегии
\pi
?

Верно ли утверждение? Метод SG позволяет настраивать веса на избыточно больших выборках, за счет того, что случайной подвыборки может оказаться достаточно для обучения.

Какой тип экспериментального исследования имеет цель - либо решение конкретной прикладной задачи, либо выявление «слабых мест»?

Что, из ниже перечисленного, является функцией активации?

В чем недостатки SVN?

Какие задачи, из ниже перечисленных, являются задачами ранжирования?

Какой пример подходит для задачи восстановления регрессии?

На предположении, что плотность распределения известна с точностью до параметра,
p(x) = \varphi (x, \Theta)
, где
\varphi
- фиксированная функция, основано:

Есть гипотеза, где классы имеют
n
-мерные гауссовские плотности:
p_y(x) = N(x; \mu_y; \sum y) = \frac {e^{-\frac{1}{2}(x-\mu_y)^T \sum \limits_ {y}^{-1} (x-\mu_y) } }{\sqrt {(2\pi)^n det \sum_y}}
, где -
y \in Y
, то ковариационной матрицей класса
y \in Y
будет:

К какому алгоритму можно отнести формулу:
w(i,u) = [i \le k]w_i; a(u;X^l,k) = \arg \max_{y \in Y}\sum_{i=1}^k [y_{(n)}^{(i)} = y]w_i
?

Что, из нижк перечисленного, можно назвать достоинством метода потенциальных функций?

Пусть есть задача с 2-мя классами
Y = {-1, +1}
. К какому классу будет относится алгоритм, если
f(x,w) < 0
?

Какие преимущества, из ниже перечисленных, относятся к преимуществам метода SG?

Какой эвристический приём характеризует нормализацию признаков?

Действительно ли что, ширина полосы максимальна, когда норма вектора w минимальна?

Какое условие называют опорным вектором?

Какие объекты называются нарушителем?

Выберите противоречивое утверждение.

Какие объекты являются опорными?

Что называют задачей восстановления регрессии?

Следующая формула
a_h(x;X^l) = \frac{\sum_{i=1}^l y_iw_i(x)}{\sum_{i=1}^lw_i(x)} = \frac{\sum_{i=1}^ly_iK(\frac{\rho(x,x_i)}{h})}{\sum_{i=1}^lK(\frac{\rho(x,x_i)}{h})}
, называется:

При каком размере окна h функция
a_h(x)
стремится пройти через все точки выборки?

Если используется квартическое ядро
\hat K(\varepsilon) = K_Q(\frac{\varepsilon}{6med\{ \varepsilon_i \}})
, где
med\{ \varepsilon_i \}
- медиана вариационного ряда ошибок, то это называют:

Что называют линейной комбинацией признаков с коэффициентами
\alpha \in R^n:g(x,a)=\sum_{j=1}^n \alpha_j f_j(x)
?

Верно ли, что любая непрерывная функция n аргументов на единичном кубе
[0,1]^n
представлена в виде суперпозиции непрерывных функций одного аргумента и операции сложения:
f(x^1,x^2,...,x^n)=\sum_{k=1}^{2n+1}h_k(\sum_{i=1}^n \varphi_i k(x^i))
?

Когда появляется неинформативный пустой кластер при конкурентном обучении по правилу WTA?

Каким способом можно избавиться от медленной скорости сходимости в правиле WTA?

С помощью какой формулы можно оценить вероятность
P(y|b_j (x) = 1)
по неразмеченным данным
X^k
и линейной модели?

Чтобы оценить качество алгоритмических операторов
Q(b; X^l, Y^l, W^l) = \sum_{i=1}^l w_i  \tilde L (b(x_i), y_i)
надо:

Какие параметры участвуют в алгоритме Беггинга?

Действительно ли, что RSM выполняется строго последовательно не допуская эффективного распространения?

Как будет выглядеть формула вероятности ошибки в интерпретации обобщающей способности метода
\mu
, если взять матожидание по выборке
X^l
от функционала
Q_с
?

Если алгоритмы a и a' допускают ошибки на одних и тех же объектах, то их называют:

Что называется переобучением?

Что называют выбором метода?

Какой алгоритм пытается улучшить конъюнкцию
\varphi
, удаляя или заменяя по одному терму?

Какой алгоритм каждому правилу
\varphi_c^t
приписывает вес
\alpha_c^t \ge 0
, и при голосовании берётся взвешенная сумма голосов
Г_c(x)=\sum_{t=1}^{T_c} \alpha_c^t \varphi_c^t(x), \alpha_c^t \ge 0
?

При каком условии совокупность
\langle w,i \rangle
будет называться представительным набором?

На что, из ниже перечисленного, влияют параметры
D_{min}
и
E_{max}
?

Какие данные являются выходными в алгоритме двухступенчатой симметризации?

Что из ниже перечисленного не относится к недостаткам тривиальной рекомендующей системой?

Как будет называться модель, в которой учитывается тройка слов?

Как называют априорную вероятность вида:
q_m = \frac{\gamma}{1+\gamma+\varepsilon}
?

Относится ли список ярлыков
L_d
, присвоенных пользователями документу d к метаинформации?

Что характеризует гипотеза условной независимости вида:
p(c|t,d) = p(c|t)
?

С какой вероятностью осуществляется выбор действия
\alpha
в t-й игре?

Предположим, что требуется оценить величину
V^{\pi}(s)
, имея набор эпизодов, полученных при применении стратегии
\pi
и прохождении через состояние s. Как тогда будет называться каждое появление состояния s в эпизоде?

Верно ли утверждение? Метод SG позволяет настраивать веса на избыточно больших выборках, за счет того, что случайной подвыборки может оказаться достаточно для обучения.

Что называют марковским процессом принятия решений?

Какая формула характерна, если
f
представляет номинальный признак?

Выберите правильный ответ. Задача регрессии - это:

Вероятность ошибочной классификации имеет вид:

Выберите правильный ответ. По обучающей выборке
X^l
настраивается:

С помощью чего, из ниже перечисленного, можно определить сходство неизвестной и известной выборки?

Плотность распределения на
X
имеет вид смеси
k
распределений
p(x) = \sum_{j=1}^k w_j p_j(x), \sum_{j=1}^k w_j = 1, w_j \ge 0
, где
p_j(x)
- это:

Выберите верные утверждения:

С чем, из ниже перечисленного сравнивают линейный классификатор?

Пусть есть задача с 2-мя классами
Y = {-1, +1}
. К какому классу будет относится алгоритм, если
f(x,w) = 0
?

Какая, из перечисленных ниже функций, соответствует линейному дискриминанту Фишера?

В формуле
\ln p(w, \sigma)
, что будет выступать в роли гиперпараметра?

Как называется величина
M_i(w) = y_if(x_i,w)
объекта
x_i
относительно алгоритма классификации
a(x, w) = sign f(x, w)
?

Если объекты
x_i
классифицируется правильно и лежат в точности на границе разделяющей полосы, то их нахывают:

Какая формула, из ниже перечисленных, позволяет организовать итерационный процесс?

Что представляет собой матрица
F_{l\times n}=(f_i(x_i))
?

Как называется метод, который удаляет те связи, к изменению которых функционал Q наименее чувствителен?

При каком условии в субквадратичном алгоритме многомерного шкалирования все точки будут "скелетными"?

Если есть два существенно различных метода обучения использующих разные наборы признаков, то это алгоритм:

Как определяется следующий функционал
Q_c (\mu, X^l) = E_n V_n^k = \frac{1}{N}\sum_{n=1}^N V_n^k
?

Какие входные данные являются лишние в алгоритме жадного слияния зон?

По какой из формул параметрическое семейство Ф можно отнести к параметрическому семейству полуплоскостей?

Верно ли, что если правило
\varphi_c^t(x)=1
, то объект будет определен в другом классе?

Выберите правило, которое подсчитывает долю голосов, относящих объект
x
к каждому из классов:

Что из ниже перечисленного является моделью усреднения по блокам?

Какое условие, из ниже перечисленных, должно выполнятся, чтобы обеспечить достаточную величину шага, позволяющую справится с начальными условиями?

Что называют индикатором ошибки?

Что, из ниже перечисленного является достоинством алгоритма бустинга?

Укажите, что входит в преимущества байесовского подхода.

Какая функция, из перечисленных ниже, является кусочно-постоянной?

Какая величина называется гиперпараметром?

Что, из ниже перечисленного, является функцией активации?

Если строится вариационный ряд ошибок
\varepsilon^{(1)} \le ... \le \varepsilon^{(l)}
и отбрасывается некоторое количество t объектов с наибольшей ошибкой, тогда это называют:

Что называют функцией роста множества алгоритмов А?

Функция роста множества всех конъюнкций ранга не выше K будет выглядеть как:

Как называется критерий, для которого выборка случайным образом разбивается на q непересекающихся блоков одинаковой длины
l_1,...,l_q
?

Что, из ниже перечисленного принято решать достоинством решающего списка?

Что такое решающее дерево?

При каком n в карте сходства отображается результат многомерного шкалирования в виде плоского точечного графика?

Оценкой близости объекта
u
к классу
y
называется функция:

Что, из ниже перечисленного, является выходными данными в последовательном методе активных ограничений?

К какому методу обучения относится метод главных компонент?

Как будет выглядеть индикатор ошибки в случае классификации при конечном Y?

Что называют размерностью Вапника-Червоненкиса?

Если в семействе А выделена последовательность подсемейств возрастающей ёмкости
A_1 \subset A_2 \subset ... \subset A_h = A
и в ней можно выбрать оптимальное подсемейство, для которого достигается минимальное значение правой части из формулы
\nu (\mu(X^l), X^k) < \nu (\mu(X^l), X^l) + \sqrt{\frac{n}{l}(ln \frac{2l}{n}+1) - \frac{ln n}{l}}
, то этот метод называют:

Что, из ниже перечисленного характеризует статический критерий?

Выберите верное определение коллаборативной фильтрации.

Какое правило означает следующая формула
a(x)=arg \min_{m \in Y} Cm \rho(x,w_m)
?

Небольшое число объектов с большими отрицательными отступами называют:

Что , из ниже перечисленного, служит целями кластеризации?

Как называется процедура создающая
N_0
индивидов в алгоритме CCEL?

Что должно поступать на вход в алгоритме жадного добавления?

Что, из ниже перечисленного является определением критерия замены?

Как называется технология основанная на правилах морфологии языка?

В чём заключается задача кластеризации?

В какой функции множества нулей и единиц линейно неразделимы?

Какой метод представляет собой итерационный процесс смены поколений?

Что является недостатком тривиальной рекомендующей системой?

Что характеризует гипотеза условной независимости вида:
p(t|c,d) = p(t|c)
?

Как называется критерий
AIC(\mu,X^l) = Q(\mu(X^l),X^l)+\frac{2\hat\delta^2}{l}n
?

Если известны
P_y = P(y)
и
P_y(x) = p(x|y)
, то минимум среднего риска
R(a)
не будет достигнут при:

Какие, ниже перечисленные, недостатки можно отнести к методу потенциальных функций?

Что представляют векторы
\varphi_t = p(w|t)
в пространстве терминов
R^{|W|}
?

Что представляет собой матрица
\tilde y_i = y_i \sqrt{(1-\sigma_i)/ \sigma_i}
?