База ответов ИНТУИТ

Введение в аналитику больших массивов данных - ответы

Количество вопросов - 130

Какие вероятные разочарования тренда больших данных?

Есть таблица со столбцами x, id, y, price. Какая формула описывает зависимость price от x,y?

В социальной сети пользователи пишут друг другу сообщения, какие данные логично хранить в графовой СУБД?

Отметьте причины создания NoSQL баз данных:

Имеет ли Python аналог Data Frame из R

Выберите верный ответ

Необходимо провести предварительный анализ данных для их лучшего понимания, выберите наиболее подходящие инструменты

Отметьте верное представление типа данных "очень плохо"-"плохо"-"средне"-"хорошо-"очень хорошо" в файле типа ARFF:

Какой результат будет у функции is.finite(Inf-Inf)?

Коммерческая клиника желает установить структуру своих клиентов с точки зрения вклада в доход клиники. К какому типу относится эта задача анализа данных?

Какие из следующих средств разумно использовать для анализа данных, представленных единственным csv-файлом размера более 100Гб:

Какой из языков наиболее богат библиотеками/фреймворками для интерактивной визуализации данных

Инвестиционный фонд интересуется тем, почему часть финансируемых им проектов успешно переходят на второй год, а часть - нет. К какому типу относится эта задача анализа данных?

Присваивание в R нельзя осуществить с помощью оператора:

Какая из следующих СУБД подходит для организации высоко-доступного и консистентного хранилища?

Какие из следующих шкал в точности являются порядковыми?

Что выведет в приведённой схеме TextViewer?

Какая из следующих СУБД обладает свойством расширяемости записей?

Вы являетесь владельцем и аналитиком в компании из 10 человек, в которой требуется проанализировать продажи за 1 год (1 млн. продаж). Какие из этапов CRISP-DM можно опустить:

Принцип MapReduce состоит в том, чтобы

Операция с диапазонами
x=1:3y=4:6
Чему будет равно x+y?

Компания, проводящая социологические опросы, испытывает сложности с верификацией данных, поступающих от волонтеров непосредственно опрашивающих респондентов: многие анкеты заполнены не полностью; волонтеры фальсифицируют результаты опроса, самостоятельно заполняя часть анкет. К какому типу наиболее близка эта задача анализа данных?

Объём накопленных человечеством цифровых данных на 2012 год измеряется:

В каких из приведённых примеров наиболее эффективны NoSQL решения типа ключ-значение?

Какая из функций реализует алгоритм кластеризации

Отметьте значимые события, повлиявшие на формирование тренда больших данных:

Отметьте те из вариантов, в которых данные структурированы:

В чём преимущество колоночно-ориентированных СУБД?

На каком из этапов процесса CRISP-DM происходит проверка гипотез?

Пример благоразумного использования Hadoop

Клиент покупает билет на самолет через интернет. В момент покупки стоит задача определить вероятность дополнительных покупок (отель, страховка, туристический тур) и предложить наиболее вероятные пользователю. К какому типу относиятся эта задача анализа данных?

Коммерческая клиника обладает некоторыми данными о клиентах и о доходах от них. Как бы в данном случае формулировалась задача кластеризации?

Компания, проводящая социологические опросы получает анкеты от волонтеров, непосредственно опрашивающих респондентов. При каких условиях разумна постановка задачи цензурирования?

С некоторой периодичностью персонал предприятия списывает группы расходных материалов на различных участках учета. Для выявления ошибок, акты списания выборочно проверяются аудитором. Как бы в данном случае формулировалась задача классификации?

Кардиологический центр исследовал возможность прогнозирования возникновения осложнений во время операционного вмешательства по до-операционным данным о пациенте: результатам физиологического и диагностического обследований. К какому типу задача анализа данных относится задача прогнозирования операционных осложнений?

На основе какого языка был создан R?

Как сделать вектор из трех чисел?

Что вернет следующее выражение sum(1:3>2)?

Как правильно присвоить p значение типа данных, имеющих две координаты x=1 и y=2?

Каким образом можно описать вектор (1,2,3,4,5,6)?

Каково ограничение в Excel 2013 на количество строк при загрузке csv-файла?

Какие из перечисленных признаков таблицы представлены в абсолютной шкале?

Основной целью процесса на приведенной диаграмме является

В каком случае применение Tableau наиболее оправдано

Назовите преимущества R, как инструмента data mining, перед другими языками

Что будет присвоено переменной res (Python) в следующем выражении res = [x for x in xrange(1,5, 2)]

Необходимо реализовать решение по анализу данных и передать его стороннему заказчику в эксплуатацию, выберите наиболее подходящие инструменты

Какая из следующих СУБД подходит для организации высоко-доступного и распределённого хранилища?

Какая из NoSQL СУБД подходит для организации консистентного и распределённого хранилища?

В чём состоит свойство расширяемости записей СУБД?

Отметьте ту характеристику, которая объединяют СУБД Redis и CouchDB

Чего не могут стандартные реляционные базы (MySQL, Oracle, MS SQL)?

Перечислите основные свойства графовых БД

В кардиологическом центре проводятся операции. До и во время операционного вмешательства с пациента снимаются определённые показания. Известны случаи осложнений во время проведения операций, эти случаи описаны тем же набором данных. Ранее были определены три группы риска среди пациентов. Все предыдущие случаи осложнений отнесены к определённым группам риска. Стоит задача определить группу риска для нового пациента, прошедшего дооперационные обследования. К какому типу относится эта задача анализа данных?

Продукты аналогичные Knime, RapidMiner хорошо подойдут для

Существуют ли встроенные ограничения в Excel 2013 на количество элементов данных в одном ряду данных для плоских диаграмм?

Необходимо реализовать интерактивную визуализацию данных, которая будет доступна широкому кругу людей, выберите наиболее подходящие инструменты

Какие СУБД полностью полагаются на оперативную память при хранении информации:

Коммерческая клиника обладает некоторыми данными о клиентах и о доходах от них. Руководителем поставлена задача определить, к какой группе "инноватор"-"последователь"-"консерватор" относится данный клиент. К каким из типов задач анализа данных близка эта задача?

Есть таблица со столбцами x, id, y, price. Что означает запись price~.-id?

Какие задачи решают графовые БД?

Есть список на Python s = [1, 2, 3, 4, 6], что вернет выражение s[2:-2]

Каким образом можно сформировать вектор (FALSE, FALSE, TRUE)?

Какие из перечисленных признаков таблицы могут быть классификационными без предварительной обработки?

Какое значение запишет функция Flash (Мгновенное заполнение) Excel в пропущенной ячейке

Отметьте неверное понимание Variety в контексте характеристик Big Data:

Каково ограничение в Excel 2013 на количество строк при загрузке csv-файла? (Если считаете, что размер ограничен только объемом доступной оперативной памяти напишите 0).

Какое максимальное количество свойств БД допускает CAP-теорема?

Приведите округленный результат прогнозирования пустого значения в таблице с помощью функции РОСТ:
Год1234
Тыс. руб67120160

Сколько Петабайт в Зеттабайте? Укажите число.

Во сколько раз теоретически вырастет производительность при подсчёте числа слов в тексте при работе MapReduce при переходе от одного узла к двум? (Введите число.)

Какая типизация в языке R?

Приведите округленный результат прогнозирования пустого значения в таблице с помощью функции ТЕНДЕНЦИЯ:
Год1234
Тыс. руб67120160

Выберите неверное высказывание:

укажите фактор, способствовавший появлению тренда больших данных

С некоторой периодичностью персонал предприятия списывает группы расходных материалов на различных участках учета. Для выявления ошибок, акты списания выборочно проверяются аудитором. Руководство компании заинтересовано в сокращении количества проверок, при сохранении точности выявления ошибочного списания на уровне 97%. Требуется выявлять сомнительные акты списания, подлежащие обязательной проверке аудитором. К какому типу относится эта задача анализа данных?

Клиент покупает билет на самолет через интернет. Как бы в данном случае формулировалась задача прогнозирования?

Основное преимущество Python перед R – это

Какие из перечисленных языков оказали влияние на R?

Является ли ошибкой использование такой записи: x.x=1?

Для каких аргументов функция is.finite вернет true?

Почему Hbase не подходит для большинства веб-приложений с высокой посещаемостью?

Какое значение запишет функция Flash (Мгновенное заполнение) Excel в пропущенной ячейке:

В каких из следующих случаях исполнение выдаст ошибку?

Какой тип NoSQL решения наиболее эффективен для потоковой обработки логов кластера серверов и быстрого сохранения без требования оперативной аналитики?

Для чего аналитику необходима "песочница"?

Каким будет округленный результат прогнозирования пустого значения в таблице с помощью функции ТЕНДЕНЦИЯ:
Год1234
Тыс. руб67120160

Выберите неверные утверждения:

Отметьте СУБД, обладающие встроенной поддержкой MapReduce

В каком веке произошёл перевес объёмов накопленных человечеством данных в сторону цифровых?

Перечислите четыре основных характеристики Big Data:

Выберите одно неверное высказывание про MapReduce:

Какие из следующих технологий СУБД не используют принцип MapReduce

Выберите верное утверждение:

К какому типу шкал относится шкала "очень плохо"-"плохо"-"средне"-"хорошо-"очень хорошо"?

Какое значение запишет функция Flash (Мгновенное заполнение) Excel в пропущенной ячейке:
123423
3212
134534
134

Алгоритм какого типа реализует функция randomForest()?

Какие типы СУБД поддерживают одновременно высокую-доступность, консистентность и распределённость?

Какие характеристики объединяют следующие СУБД: Cassandra и CouchDB?

Какие из вариантов присвоения не вызовут ошибки:

Какие характеристики объединяют СУБД Hbase и BigTable

Ниже приведена последовательность этапов проекта аналитики в соответствии с CRISP-DM, укажите первый этап.

p.x=1.y=2 Что выведет print(p)?

Назовите отличия RDBMS от NoSQL:

R является:

Компания, проводящая социологические опросы, испытывает сложности с верификацией данных, поступающих от волонтеров непосредственно опрашивающих респондентов: многие анкеты заполнены не полностью; волонтеры фальсифицируют результаты опроса, самостоятельно заполняя часть анкет. К какому типу задач анализа данных здесь прибегать не придётся?

Какая типизация в языке R?

С некоторой периодичностью персонал предприятия списывает группы расходных материалов на различных участках учета. Для выявления ошибок, акты списания выборочно проверяются аудитором. Определены три категории: "ошибочные", "под сомнением", "безошибочные". К какому типу задач анализа данных относится задача о построении правила автоматического отнесения списаний к этим категориям.

Hadoop – это:

Выберите неверный ответ:

Какая из следующих СУБД не относится к типу документо-ориентированных?

Инвестиционный фонд имеет ряд проектов, который успешно переходят на второй год финансирования и тех, кто не переходит. Как бы в данном случае формулировалась задача поиска информативных признаков?

В кардиологическом центре проводятся операции. До и во время операционного вмешательства с пациента снимаются определённые показания. Известны случаи осложнений во время проведения операций, эти случаи описаны тем же набором данных. Как бы в данном случае формулировалась задача классификации?

Присваивание в языке R можно осуществить с помощью оператора:

Операция с диапазонами
x=1:3y=4:6
Чему будет равно x+y? (Введите цифры через пробел)

Можно ли с помощью приведённой схемы произвести оценку качества работы алгоритма J48 на загруженных данных?

В каких из перечисленных случаях требуется СУБД со свойством расширяемости записей?

Отметьте СУБД, не обладающие встроенной поддержкой MapReduce

Какие характеристики объединяют следующие СУБД: Greenplum и BigTable?

Есть таблица со столбцами x, id, y, price. Выразите зависимость price от x,y?

Есть список на Python s = [1, 2, 3, 4, 6], что вернет выражение s[2:-2]

Начиная с каких размеров данных обоснованно применение кластера Hadoop для хранения данных?

Инвестиционный фонд имеет ряд проектов, который успешно переходят на второй год финансирования и тех, кто не переходит. Фонд поставил задачу определить критерий успешности проекта. К какому типу задач анализа данных наиболее близка эта задача?

Для каких аргументов функция is.finite вернет false?

Что вернет следующее выражение sum(1:3>1)?

Чему равняется length(c(7,7,7))

Клиент покупает билет на самолет через интернет. В момент покупки, он хочет знать насколько может упасть стоимость этого билета в ближайшем будущем и когда. К какому типу относится эта задача анализа данных?

Какая из приведённых функций реализует алгоритм классификации

базовая библиотека для data science на Python

большинство данных в мире в 2011 году содержалось: