База ответов ИНТУИТ

Машинное обучение

<<- Назад к вопросам

Как называется метод, который варьирует вероятность действий, представляемых посредством некоторой функции от предполагаемых значений ценности?

(Отметьте один правильный вариант ответа.)

Варианты ответа
метод среднего выборочного;
softmax-метод.(Верный ответ)
\varepsilon -
жадным методом;
Похожие вопросы
Как называется метод, который применяют для оценивания ценности?
Какие ценности действий называют методами Монте-Карло?
Как называется метод, который использует жадные действия большую часть времени?
Как называется метод, который удаляет те связи, к изменению которых функционал Q наименее чувствителен?
Как называется метод, который позволял вычислять градиент, при котором каждый градиентный шаг выполняется за число операций, лишь немногим больше, чем при обычном вычислении сети на одном объекте?
Как называется алгоритм, который добавляет к набору G по одному признаку, каждый раз выбирая тот признак, который приводит к наибольшему уменьшению внешнего критерия?
Какой метод оценивает
V^{\pi}(S)
как среднее значение выгод, соответствующих всем посещениям s в некоторой совокупности эпизодов?
Как называется алгоритм, который последовательно удаляет избыточные признаки?
Как называется алгоритм, который осуществляет полный перебор всевозможных наборов признаков G в порядке возрастания сложности?
Как называется критерий, который характеризует качество метода
\mu
по тем данным, которые не использовались в процессе обучения?