Алгоритмы интеллектуальной обработки больших объемов данных - ответы

Количество вопросов - 194

Как называется данный граф?

Выберите составляющие шаги для аггломеративного подхода в иерархической кластеризации ?

В теореме Мерсера функция k(x;z) является ядром тогда и только тогда, когда она…

Для 10 значений количественного признака X 1; 2; 3; 4; 5; 6; 7; 8; 9; 10 даны соответствующие значения Y: 2,5; 3,1; 0,4; -2,3; -3,2; -0,8; 2,0; 3,0; 1,2; -2,0. Функция регрессии ищется в виде Y=A*sin(X), A=3,174 (квадратичная функция потерь). Для более стабильного результата был применен алгоритм бэггинга (bagging). С помощью датчика случайных чисел были сделаны четыре выборки из указанных 10 примеров с возвращением (указаны только значения X): {1; 1; 2; 3; 4; 6; 8; 8; 10; 10}, {2; 2; 3; 4; 5; 7; 7; 8; 9; 10}, {1; 3; 3; 3; 6; 6; 7; 8; 8; 9}, {4; 4; 4; 5; 5; 5; 6; 9; 9; 9}. Для каждой из четырех выборок вычислите коэффициент A при sin (X) с квадратичной функцией потерь. В качестве ответа укажите среднее арифметическое этих четырех значений с точностью до двух знаков после запятой.

Недостаток алгоритма Expectation Maximization (EM) заключается в следующем:

Принцип Maximum Likelihood $p(y1,x)=p(y1)p(x|y1)=\pi N(x|\mu 1,\sum)p(y2,x)=p(y2)p(x|y2)=(1-\pi) N(x|\mu 2,\sum)$. Функция правдоподобия $p(Y,X|\pi ,\mu 1,\mu 2,\sum)=N\qquad n=1\qquad [\pi N(x|\mu 1,\sum)]\quad yn[(1-\pi)N(x|\mu 2,\sum)]\quad 1-yn.$. Максимизируя $log p()Y,X|\pi ,\mu 1,\mu 2,\sum)$, в результате имеем одну из составляющих ?

Выберите вариант, НЕ являющийся преимуществом вероятностных моделей

Нейрон i получает входной сигнал только от трех других нейронов с выходными сигналами 1, 2, -3 по связям с весами 0,3, 0,4, 0,5 соответственно. Смещение нейрона i равно 0,2. Функция активации нейрона i – логистическая функция с параметром a=1. Найдите выходной сигнал нейрона i с точностью до двух знаков после запятой.

В документе d слово "кластер" встречается с частотой TF("кластер",d)=0,0125. Мы имеем возможность программным образом изучить миллион документов, и выяснить, что указанное слово встречается только в 100 из них. Вычислите TF-IDF слова "кластер" в документе d с точностью до двух знаков после запятой:

Максимальный зазор между классами Margin - это ?

Имеется стохастическая нейронная сеть ограниченная машина Больцмана (restricted Boltzmann machine - RBM) с возможными состояниями нейронов 1/0. Рассмотрим видимый нейрон i с состоянием Vi и скрытый нейрон j с состоянием Hj. Для определения изменения весов применим алгоритм Contrastive Divergence. Найдено следующее соответствие состояний нейронов для 6 моментов времени. t=0: Vi=0, Hj=1; t=1: Vi=1, Hj=1; t=2: Vi=0, Hj=1; t=3: Vi=1, Hj=1; t=4: Vi=0, Hj=0; t=5: Vi=1, Hj=1. Постройте 2 статистики для вычисления математических ожиданий произведений состояний нейронов i и j: одна из них (позитивная фаза) является средним из 6 чисел, другая (негативная фаза) - из 5. Найдите величину необходимого изменения веса связи между нейронами i и j, если параметр скорости обучения равен 0,4. Ответ укажите с точностью до двух знаков после запятой:

Даны четыре примера (наблюдения) в трехмерном пространстве признаков: A(1;4;10), B(2;5;6), C(1;3;8) и D(2;4;8), при этом известно, что первый и третий примеры относятся к классу "1", а второй и четвертый – к классу "0". Проведите процедуру отбора признаков (feature selection) методом minimum redundancy maximum relevance (mRMR), используя логарифм по основанию 2. Укажите, какие признаки нужно оставить:

В чем состоит основная идея обучения алгоритма Contrastive Divergence?

Что Вы видите на данном графике?

Для преобразования многомерного пространства в пространство низшей размерности и формирования малого количества признаков из большого количества признаков следует использовать следующий алгоритм:

Назовите основные виды регуляризации

Решение проблемы чувствительности функции расстояния к преобразованиям в данных

Имеются бактерии с двумя количественными признаками x1, x2, строится логистическая регрессия для определения вероятности, с которой бактерии относятся к одному из двух классов (видов) - y1 или y2. Предполагается нормальное распределение условных вероятностей, соответственно модель получается линейной, и p(y1|x)=1/(1+exp(-(w1*x1+w2*x2+w0))). В результате обучения были найдены следующие значения: w0=1, w1=3, w2=-4. Найдите, с какой вероятностью бактерия с признаками x1=1, x2=1 относится ко второму классу. Ответ укажите с точностью до одного знака после запятой:

Нейроансамбль - это ?

Чему равно расстояние между разделяющей поверхностью и объектом?

Дано исследование самоощущения собственного материального положения среди 200 человек. 100 из них оценили свое материальное положение как "ниже среднего" ("нс"), другие 100 - как "выше среднего" ("вс"). Также эти 200 человек ответили на вопросы о наличии у них дачи, автомобиля и детей.Дача – есть/нет. Дача есть: "нс" - 35 человек, "вс" – 75 человек.Автомобиль – есть/нет. Автомобиль есть: "нс" – 20 человек, "вс" – 70 человек.Дети - нет/1/больше 1. Нет детей: "нс" - 20 человек, "вс" – 40 человек; 1 ребенок: "нс" – 50 человек, "вс" – 50 человек.Требуется построить дерево по алгоритму CART, нечистота (impurity) вычисляется по Джини. Расположите признаки в порядке убывания по качеству разбиения в корне дерева:

Назовите основные подходы иерархической кластеризации

Дан единичный интервал [0,1]. Сколько равномерно разбросанных точек будет достаточно, чтобы покрыть этот интервал с частотой не менее 0,01?

Выберите верные утверждения:

В чем состоят ключевые идеи бустинга ?

Как можно решить проблему паралича сети?

Особенностью паралича сети является:

Укажите преимущества байесовского классификатора.

Укажите отрицательные стороны алгоритма Random Forest

О чем говорит no free lunch theorem?

Выберите оптимальный параметр для следующей модели согласно принципу ML (Maximum Likelihood / Максимальное правдоподобие): "Вероятность того что идет дождь если есть тучи сильнее, чем вероятность того что идет дождь, если туч нет":

Дома на четной стороне улицы имеют номера 2, 4, 6, … . Номер дома – это признак:

Какому этапу CRISP-DM соответствует Exploratory data analysis:

Пример задачи эффекта "проклятие размерности". Даны два случайных вектора x и y в пространстве размерности D. Как зависит математическое ожидание косинус-расстояния между x и y от размерности D, при наблюдениях, что числитель стремится к нулю, а знаменатель положительный ? Ответ укажите с точность до 2-го знака после запятой.

Данные какой размерности представлены на данном графике?

Подходы к построению моделей Data Mining

N-мерное нормальное распределение имеет количество параметров порядка

Укажите недостатки DBSCAN (возможен выбор нескольких вариантов):

На плоскости даны 8 точек с координатами A(1;1), B(2;2), C(2;4), D(3;3), E(4;2), F(4;4), G(5;5), H(6;6). Изначально центроиды находятся в точках (1;3), (6;4). Применив алгоритм 2-средних с евклидовой метрикой, определите точки, принадлежащие тому же кластеру, что и точка A, при достижении стационарного состояния.

Основная задача кластеризации:

Укажите этапы EM-алгоритма?

Выберите алгоритмы которые решают задачи кластеризации

Укажите достоинства иерархической кластеризации:

Выберите ситуацию, при кластеризации которой, НЕ используется метод DBSCAN:

При больших наборах данных MAP, какой из алгоритмов (мaximum likelihood, maximum a posteriori) будет эффективнее при условии нахождении глобальных максимумов?

Какие подходы иерархической кластеризации вы знаете?

Основной минус иерархической кластеризации

При каких условиях подход Maximum a posteriori (MAP) выигрывает перед Maximum Likelihood (ML)

Назовите основные плюсы иерархической кластеризации

В городе N живет 1000 человек, из них 100 мошенников. За год осудили за мошенничество 80 человек, из них на самом деле реальных мошенников было 70 человек. Вычислите следующие три метрики качества борьбы с мошенничеством в городе N: верность (accuracy), полноту (recall) и точность (precision). В качестве ответа напишите среднее арифметическое трех указанных метрик с точностью до трех знаков после запятой:

Основной смысл теоремы "No free lunch theorem" заключается в следующемЕсть модель, которая является оптимальной для решений всех задач:

Уважите преимущества вероятностных моделей (дискриминативные и генеративная модели ) ?

Для оценки "натренированной" модели на эффективность ее применения, используется тестирование на независимой выборке. Какой из алгоритмов проверки "тренируется" на всем количестве данных, при условии многократного повторения?

Назовите типы моделей классификации в порядке убывания сложности

Назовите плюсы использования вероятностных моделей против функций решений

Напишите название этапа обработки текста, скрытого на схеме ниже

Все переменные являются одинаково важными и статистически независимыми, т.е. значение одной переменной ничего не говорит о значении другой. Это свойства:

На электронную почту пришло два подозрительных письма, одно из них (A) содержало слово "лотерея", второе (B) – слова "лекарство" и "похудение". Дано, что спам составляет 3% писем, доля писем, где встречается слово "лотерея": спам - 0,04%, не спам – 0,01%; слово "лекарство": спам - 0,02%, не спам – 0,01%; слово "похудение": спам - 0,01%, не спам - 0,0005%. Пользуясь наивным байесовским классификатором (Naive Bayes) с правдоподобием Бернулли (BernoulliNB), определить, какие из полученных писем являются спамом.

В результате действия чего из знаменитой фразы "to be or not to be" может удалиться все содержимое?

Что такое токенизация в обработке текстов?

На диаграмме "Этапы обработки текста" этап токенизации идет следом за этапом…

Основный принцип, который используется в машинном обучении – это принцип:

По скольким параметрам определяется вид цветка ириса для набора данных в задаче Фишера ?

Идея линейного классификатора определяется тем, что признаковое пространство может быть разделено гиперплоскостью на полупространства, в каждом из которых прогнозируется одно из двух значений целевого класса (линейная разделимость). Укажите число полупространств.

Выберите верное утверждение.

С помощью какого принципа можно справляться с переобучением методом ограничения весов

Напишите название теоремы, с помощью которой можно установить, что выбранная функция является функцией ядра

Выберите особенность SVM, о которой говорится ниже: SVM оптимизирует квадратичную функцию, которая является вогнутой и её максимум существует только один:

Недостатки SVM?

Укажите плюсы метода опорных векторов

Класс алгоритмов, являющийся элегантной идей по построению разделяющей поверхности, а также осуществляющий переход в новое пространство значительно дешевле, чем вычисление всех обучающие объектов в новом пространстве напрямую:

Даны четыре примера (наблюдения) в трехмерном пространстве признаков: A(1;4;10), B(2;5;6), C(1;3;8) и D(2;4;8). В результате применения метода главных компонент исходное пространство признаков свели к двумерному пространству признаков на плоскости. Какую часть общей дисперсии сохранило редуцированное пространство? Ответ укажите с точностью до трех знаков после запятой:

Укажите два основных подхода к снижению размерности.

Каковы недостатки метода главных компонент?

Что может служить мотивацией для снижения размерности пространства

Выберите неверное высказывание при использовании "Жадных алгоритмов отбора признаков"

Даны четыре примера (наблюдения) в трехмерном пространстве признаков: A(1;4;10), B(2;5;6), C(1;3;8) и D(2;4;8), при этом известно, что первый и третий примеры относятся к классу "1", а второй и четвертый – к классу "0". Для обучения на данных примерах применяется метод случайных подпространств (RSM, random subspace method). Случайным образом были выбраны 5 различных двумерных наборов признаков: (1;4;-), (2;-;6), (-;3;8), (2;4;-), (2;-;8). Принадлежность к классу определяется голосованием – числом наборов, которые относят тот или иной пример к определенному классу. Сколько наборов относят тестовый пример E(2;4;6) к классу "0"? (Напишите ответ в виде целого числа.)

Даны четыре примера (наблюдения) в трехмерном пространстве признаков: A(1;4;10), B(2;5;6), C(1;3;8) и D(2;4;8), при этом известно, что первый и третий примеры относятся к классу "1", а второй и четвертый – к классу "0". Для обучения на данных примерах применяется алгоритм случайный лес (random forest). Случайным образом были выбраны 5 наборов примеров и признаков: (1) пример 1 (признаки 1,2) + пример 2 (признаки 1,3); (2) пример 3 (признаки 2,3) + пример 4 (признак 1); (3) пример 2 (признаки 1,2,3) + пример 3 (признак 1); (4) пример 1 (признаки 1,3) + пример 2 (признак 1) + пример 3 (признак 3); (5) пример 1 (признаки 2,3) + пример 4 (признаки 2,3). Для этих пяти наборов были построены соответственно пять деревьев по алгоритму CART, нечистота (impurity) вычислялась по Джини. Принадлежность к классу определяется голосованием – числом деревьев, которые отнесли тот или иной пример к определенному классу. Сколько деревьев отнесут тестовый пример F(2;3;6) к классу "0"? (Напишите ответ в виде целого числа.)

Где лучшая область применения ансамблей деревьев решений ?

Назовите основные недостатки алгоритма Random Forest ?

Если зависимая переменная принимает непрерывные значения, то дерево решений решает задачу:

Укажите достоинства алгоритма AdaBoots:

Дан единичный квадрат с координатами вершин (0;0), (0;1), (1;1), (1;0). При этом первая и третья вершины относятся к классу "-1", а вторая и четвертая – "1". Требуется построить классификатор, получающий на входе координату вершины, а на выходе дающий метку класса (задача XOR). Применим алгоритм градиентного бустинга (gradient boosting) с функцией потерь L(y,h)=(1/2)*(y-h)^2. Очевидно, h0(x)=const=0. Далее, выбираем в качестве a1 функцию, равную -1 левее разделяющей границы, проходящей через точки (1/2;0) и (0;1/2), и 1 в противном случае. Найдите b1 – вес функции a1 с точностью до одного знака после запятой.

Дан единичный квадрат с координатами вершин (0;0), (0;1), (1;1), (1;0). При этом первая и третья вершины относятся к классу "-1", а вторая и четвертая – "1". Требуется построить классификатор, получающий на входе координату вершины, а на выходе дающий метку класса (задача XOR). Применим алгоритм градиентного бустинга (gradient boosting) с функцией потерь L(y,h)=ln(1+exp(-2*y*h)). Очевидно, h0(x)=const=0. Далее, выбираем в качестве a1 функцию, равную -1 левее разделяющей границы, проходящей через точки (1/2;0) и (0;1/2), и 1 в противном случае. Найдите итоговый коэффициент перед функцией a1 с учетом коэффициента регуляризации (shrinkage) 0,55.

Выберите верное утверждение

Выберете верное утверждение про алгоритмы бустинга :

Укажите метод, который одновременно уменьшает смещение и дисперсию

Укажите не верное высказывание про алгоритм AdaBoost

Напишите максимальное количество скрытых слоев, которое можно обучить согласно алгоритму обратного распространения

Что является задачей функции активации?

Нейрон i в скрытом слое получает входной сигнал только от трех других нейронов i1, i2, i3 с выходными сигналами 1, 2, -3 по связям с весами 0,3, 0,4, 0,5 соответственно и по связи с весом 0,5 отдает выходной сигнал только нейрону j в выходном слое с выходным сигналом 0,8. Смещение нейронов равно нулю. Функция активации у всех нейронов – логистическая функция с параметром a=1. Желаемый отклик нейрона j равен 0,7. Пользуясь алгоритмом обратного распространения ошибки (back propagation) – градиентного спуска с параметром скорости обучения 0,5 и с функцией стоимости в виде среднеквадратичной ошибки, найдите вес связи между нейронами i3 и i после первой итерации с точностью до трех знаков после запятой.

Что можно сказать о нейронах в мозгу человека ?

Сколько скрытых слоев нейронов применяют в реальной практике в соответствии с обычным алгоритмом обратного распространения ошибки

Что является задачей функции активации

Дан отрезок, четко "раскрашенный" слева на 4/7 черным цветом, а справа на 3/7 – белым, что можно представить в виде вектора (1;1;1;1;-1;-1;-1). Чтобы запомнить этот "правильный" образ, обучается нейронная сеть Хопфилда с семью нейронами (возможные состояния нейронов 1/-1, порог нулевой), где указанный вектор подается как образец (обучающий пример).В качестве тестового образца подадим на вход обученной нейронной сети черно-белый отрезок с "размытой" границей (1;1;1;-1;1;-1;-1). Проверьте, сможет ли обученная нейронная сеть проигнорировать испорченный участок и восстановить исходный отрезок:

Имеется стохастическая нейронная сеть машина Больцмана (Boltzmann machine - BM) с возможными состояниями нейронов 1/0. В некоторый фиксированный момент рассмотрим нейрон из скрытого слоя i, связанный только с нейронами i1, i2, i3, имеющими состояния 1, 1, 0 соответственно. Веса связей нейрона i с нейронами i1, i2, i3 равны 0,4, -0,3, 0,2 соответственно. Смещение нейрона i равно 0,5. Найдите, во сколько раз вероятность включения нейрона i P(i=1) выше при температуре T=1, чем при температуре T=10. Ответ укажите с точностью до двух знаков после запятой:

Машина Больцмана представляет из себя полносвязный неориентированный граф, где ?

Продолжите фразу "Машина Больцмана - стохастический генеративный…"

Что из этого не нужно сэмплировать: скрытый слой, видимой слой, значения скрытого слоя, значения видимого слоя

Выберете не верное высказывание характеризующее машину Больцмана?

Ошибкой обучения нейронной сети называется:

Согласно стандартной модели зрительной коры головного мозга, считается что?

Решением проблемы паралича сети могут быть следующие идеи.

Жадный алгоритм предобучения включает этапы ?

Зачем нужен backprop?

Тип нейросетей которые на данный момент доминируют во всем компьютерном зрении?

Для чего используется логарифм правдоподобия Бернулли?

Михаил получает на электронную почту в среднем 1000 писем в месяц, из них 2,44% - это спам. Известно, что среди спама слово "знакомство" встречается в 0,01% писем, а среди обычных писем в 10 раз реже. Какова вероятность того, что письмо, попавшее на почтовый ящик Михаила, в тексте которого встречается указанное слово, не является спамом? (Ответ укажите в целых процентах без знака процента.)

Можно ли использовать в качестве базовых моделей линайную регрессию для алгоритма AdaBoots?

На плоскости даны 6 точек с координатами A(1;1), B(2;2), C(3;2), D(3;4), E(4;5), F(5;4). Осуществите алгоритм иерархической агломеративной кластеризации вплоть до момента, когда сформируются два кластера (два кластера объединять в один уже не нужно). Расстояние между кластерами определите как полную связь (complete linkage). Вычислите средний силуэт (silhouette) для всех 6 точек, используя евклидову метрику, с точностью до одного знака после запятой:

Укажите основные плюсы использования Naive Bayes

Суть алгоритма Expectation-Maximization:

Даны 6 обучающих примеров (x1,x2): (3;2), (2;6), (4;8), (3;6), (6;2), (6;4), первые три относятся к классу "1", оставшиеся – к классу "-1". Постройте решающую границу методом опорных векторов (SVM) со смягчением границ с константой регуляризации С=0,5. В качестве ответа укажите вторую компоненту получившегося вектора весов с точностью до трех знаков после запятой:

Объект 1 находится выше функции принятия решений, объект 2 - ниже функции принятия решений. Выберите верное утверждение.

В синхронных нейронных сетях в каждый момент времени свое состояние меняет

Версия какого алгоритма для построения деревьев решений использует числовые признаки как в CART, а номинальные - как в ID3 ? Ответ укажите с точность до 1-го знака после запятой

Плюсы использования алгоритма SVM

Укажите основные преимущества алгоритма адаптивного бустинга

Что следует предпринять, если функция, которую стараемся оптимизировать, не дифференцируема?

Какие проблемы решают задачи кластеризации, отыскивая "скрытую структуру" исследуемых данных и не имея опорной целевой переменной?

В задачах Text Mining, при извлечения очевидной информации, основные трудности для "машины" представляют ?

Если в сети автоэнкодера находится всего один скрытый слой, то чему будет эквивалентен результат?

Физический смысл соотношения между большим смещением и маленькой дисперсией характеризуется

Сколько скрытых слоев Вы видите в данной нейронной сети?

Выберите составляющие шаги для аггломеративного подхода в иерархической кластеризации ?

На плоскости даны 6 точек с координатами A(1;1), B(2;2), C(3;2), D(3;4), E(4;5), F(5;4). Осуществите алгоритм иерархической агломеративной кластеризации. Расстояние между кластерами определите как полную связь (complete linkage). Определите точку, объединившуюся последней:

Напишите название подхода иерархической кластеризации, при использовании которого перед началом кластеризации все объекты считаются отдельными кластерами, а затем, в ходе алгоритма, объединяются.

Для задачи функции активации - ограничить амплитуду выходного значения нейрона, чаще всего используется сигмоидальная (S-образная) функция(и) ?

Рассмотрим полиномиальное ядро второй степени с константой и двумерное пространство входов. Сколько измерений в результирующем пространстве признаков, суммарно линейных и квадратичных? (Напишите ответ в виде целого числа.)

В некотором языке четвертое по частоте использования слово встречается в два раза реже второго по частоте, а третье по частоте использования имеет частоту, на 0,04 меньше первого по частоте. Используя закон Ципфа (Zipf’s law), вычислите частоту использования десятого по частоте использования слова с точностью до трех знаков после запятой:

Даны четыре примера (наблюдения) в трехмерном пространстве признаков: A(1;4;10), B(2;5;6), C(1;3;8) и D(2;4;8). В результате применения метода главных компонент исходное пространство признаков свели к двумерному пространству признаков на плоскости. Найдите евклидово расстояние между примерами C и D в редуцированном пространстве с точностью до одного знака после запятой:

Дендрограмма формируется как результат работы:

На картине ниже представлена схема:

Укажите достоинство использования PCA

На практике, более какого числа раз имеет смысл проводить запуск алгоритма K-means ?

Для использования алгоритмов иерархической кластеризации текста, какие подходы существуют для выбора "типичного" представителя - кластроида в каждом из кластеров ?

Для использования алгоритмов иерархической кластеризации текста, какие подходы существуют для выбора "типичного" представителя - кластроида в каждом из кластеров ?

На чем основана кластеризация DBSCAN?

Что из этого является видом модели классификации?

В обобщенной формуле обучения модели learning= representation +Evaluation+ optimization критериями Evaluation являются

При обработке текстов, укажите подходы для приведения токенов к единому виду, чтобы избавиться от поверхностной разницы в написании ?

Назовите преимущества "наивного Байесовского классификатора" ?

Укажите тип информации, извлечение которой осуществляется в Data Mining:

Уравнение разделяющей гиперплоскости в пятимерном пространстве признаков имеет вид: x1+2*x2+3*x3+4*x4+5*x5=6. Найдите евклидово расстояние от разделяющей гиперплоскости до начала координат. Ответ укажите с точностью до одного знака после запятой:

В модели линейной регрессии h(x,w) чем является w?

Какие значения q соответствуют контурам функции регуляризации

Даны три обучающих примера (x1,x2): (0;4), (0;-4), (4;-4), первый относится к классу "1", второй и третий – к классу "-1". Постройте решающую границу методом опорных векторов (SVM). В качестве тестовых возьмите примеры A(-1;-1), B(-1;1), C(1;1), D(1;-1), первые два относятся к классу "-1", вторые два – к "1". Укажите, какие тестовые примеры подтверждают решающую границу.

Преимущества SVM?

Выберите верные свойства функции, присущие функции ядра

Какая мотивация для сдерживания размерности признакового описания данных?

Какова идея метода главных компонент?

Укажите верное утверждение

Где лучшая область применения нейронных сетей ?

Факты об алгоритме бустинга. При нулевой ошибке на обучающей выборке, количество ошибок на тестовой выборке ?

Выберите верные утверждения

Что из указанного работает лучше для больших обучающих выборок в ситуациях когда в данных имеются сложные зависимости

Укажите минимальное количество скрытых слоев многослойного персептрона и нейронов в них, которое достаточно для построения равномерной аппроксимации с заданной точностью для любого обучающего множества, представленного набором m>1 входов и желаемого отклика f.

В чем задача функции активации?

Какой из режимов обучения для "Ограниченной машины больцмана" будет самым точным и давать истинный градиент?

Выберите верное утверждение

Дан единичный квадрат с координатами вершин (0;0), (0;1), (1;1), (1;0). При этом первая и третья вершины относятся к классу "-1", а вторая и четвертая – "1". Требуется построить классификатор, получающий на входе координату вершины, а на выходе дающий метку класса (задача XOR). Функция потерь определяется числом неправильно классифицированных вершин с учетом их веса. В результате применения алгоритма AdaBoost были построены три модели со следующими разделяющими границами: (1) прямая, проходящая через точки (1/2;0) и (0;1/2), (2) прямая, проходящая через точки (1/2;1) и (1;1/2), (3) прямая, проходящая через точки (1/2;1) и (0;1/2). Изначально веса вершин одинаковы и равны 1/4, далее они пересчитываются в соответствии с алгоритмом. Укажите получившиеся веса первой, второй и третьей модели соответственно:

Выберете верное высказывание, характеризующее семплирование по Гиббсу?

Выберете верное высказывание, характеризующее паралич сети для Backprop?

Укажите основные подходы к построению стохастических методов:

Рассмотрим многослойный персептрон, состоящий из вытянутых в линейную цепочку 10 нейронов (один из них входной, один выходной, а 8 образуют 8 скрытых слоев). Для коррекции весов используется алгоритм обратного распространения ошибки (back propagation). Функция ошибки среднеквадратическая. Значения весов и ошибка на выходе не превышают по модулю единицы. Выберите, при каких значениях сигнала на входе градиент на входе может превысить 0,0001.

На диаграмме процесса CRISP-DM после этапа Моделирование (Modeling) следует этап

Какие характерные активности этапа подготовки данных (Data Preparation) для процесса CRISP-DM

При больших наборах данных MAP, какой из алгоритмов (мaximum likelihood, maximum a posteriori) будет эффективнее при условии нахождении глобальных максимумов?

Что изображено на рисунке?

Для 9 значений количественного признака X 0; 1; 2; 3; 4; 5; 6; 7; 8 даны соответствующие значения Y: 4,06; 3,05; 3,93; 6,96; 12,05; 18,92; 28,03; 39,02; 51,98. Найдите линейную регрессию с базисными функциями 1, x, x^2 и квадратичной функцией потерь, применяя регуляризацию с коэффициентом 0,01 и q=2 (ridge регрессия). В качестве ответа напишите получившийся вес при базисной функции x^2 с точностью до одного знака после запятой:

Напишите название регрессии, используемой для предсказания вероятности возникновения некоторого события путём подгонки данных к логистической кривой

Укажите не верное выражение характеристики использования алгоритма RandomForest

Какая функция активации применяется наиболее удобна для описания выходного сигнала нейрона?

Сколько слоев может обработать одна ограниченная машина Больцмана (restricted Boltzmann machine - RBM)?

Что из перечисленного является средством EDA?

Дана случайная величина X, принимающая 2 значения с равными вероятностями 1/2 и случайная величина Y, принимающая 8 значений с равными вероятностями 1/8. Вычислите разность между энтропией случайной величины Y и энтропией случайной величины X с точностью до целых:

Выберите лишний этап методологии CRISP-DM:

Назовите причины использования алгоритмов кластеризации.

Иерархические дивизимные методы характеризуются следующим:

Выберите сферы применения PCA

Укажите играть в гольф на открытой площадке или нет, основываясь на дерево решений ниже

Выберите неверное высказывание про нейронные сети в сравнении с алгоритмическими композициям

Сети с обратными связями – это

Какое утверждение можно отнести к первому правилу Хебба ?

Укажите пропущенные слова в первом правиле Хебба: "Если два нейрона по разные стороны от синапсов активируются …, то "вес" синапса … "

Какие задачи может решать Text Mining

Слой нейронной сети – это:

Вычислить наилучшее бинарное разделение корневого узла по одному признаку, пользуясь gini impurity:

На электронную почту пришло письмо. Пусть X – бинарный признак, указывающий, содержит входящее письмо сочетание слов "вам оставили наследство" (=1), или нет(=0), а Y – класс письма, указывающий, спам это (=1), или нет (=0). Известно, что P(Y=1)=0,05, P(X=1|Y=1)=0,0001, P(X=1|Y=0)=0,00001, и в письме присутствует указанное словосочетание. Каким решающим правилом нужно воспользоваться – максимального правдоподобия (ML) или апостериорного максимума (MAP), чтобы определить, пришедшее письмо – спам или нет:

В формуле линейной модели "W" означает следующее $$h(x,w)=w_{0}+w_{1}x_{1}+\cdot +w_{M}x_{M}=\sum\limits_{j=0}\limits^{M}(w_{j}x_{j})$$

Укажите достоинства машины Боцмана:

Напишите название типа нейронной сети, представленной на схеме ниже: "Это ___ нейросеть с общими весами во времени"

Весь процесс обучения глубокой сети можно свести к процессу?

Какое из предложенных решений соответствует рисункам, когда мы ограничены только линейными классификаторами?