Пробные задачи

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Задача 30)
(16 промежуточных версий не показаны.)
Строка 1: Строка 1:
__NOTOC__
__NOTOC__
-
{{tip|'''Внимание!''' Задачи для поступающих на Кафедру интеллектуальных систем появятся на этой странице '''10 апреля 2018'''. Можно также брать задачи из текущего списка.}}
+
<!-- '''Задачи для собеседования при поступлении студентов второго курса на Кафедру интеллектуальных систем'''-->
-
 
+
<!-- {{Main|Интеллектуальные системы (кафедра МФТИ)/Прием студентов}}-->
-
'''Задачи для собеседования при поступлении студентов второго курса на Кафедру интеллектуальных систем'''
+
{{Main|Численные методы обучения по прецедентам (практика, В.В. Стрижов)}}
{{Main|Численные методы обучения по прецедентам (практика, В.В. Стрижов)}}
-
* Короткая ссылка [http://bit.ly/1B4NKjZ bit.ly/1B4NKjZ]
+
* Короткая ссылка на эту страницу [http://bit.ly/1B4NKjZ bit.ly/1B4NKjZ]
-
* Решения задач, работы студентов, [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/GroupYAD/Example2015Code/ пример].
+
<!---* Решения задач, работы студентов, [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/GroupYAD/Example2015Code/ пример].--->
-
* Решение каждой задачи должно быть визуализировано, рисунки необходимо кратко описать.
+
* Решение задач рекомендуется визуализировать, рисунки необходимо кратко описать.
 +
<!-- {{tip|Перед началом доклада, пожалуйста, загрузите слайды и добавьте свою фамилию и ссылку на слайды в '''[[Задачи пробного программирования/2018|список докладчиков]]'''}}-->
-
''(... задачи добавляются...)''
+
== Задачи для поступающих на Кафедру интеллектуальных систем: весна (2019, и 2018 тоже можно их решать) ==
-
=== Задача 1===
+
=== Задача 1 ===
-
Классифицировать [http://archive.ics.uci.edu/ml/datasets/Credit+Approval заемщиков кредита] с помощью [[Логистическая регрессия|логистической регрессии]]. Для оптимизации параметров использовать алгоритм [[Логистическая регрессия (пример)|Ньютона-Рафсона]] или алгоритм [[Метод градиентного спуска|градиентного спуска]]. Построить ROC-кривые для фиксированного числа разбиений. Построить ряд графиков для различных мощностей подвыборок разбиений.
+
Задан полносвязный граф со взвешенными ребрами. Предложить алгоритм нахождения основного дерева, который отыскивал бы это дерево путем градиентного спуска. Для этого требуется ввести дифференцируемую штрафную функцию, которая штрафует полносвязный граф за то, что он не является деревом.
-
Число итераций ограничить либо условием на сходимость – норма разности последовательных векторов весов не больше точности, либо числом шагов.
+
-
===Задача 2===
+
=== Задача 2 ===
-
Нарисовать траекторию пошагового спуска к минимуму [http://sebastianruder.com/optimizing-gradient-descent/ градиентного метода] и [[Алгоритм имитации отжига|имитации отжига]]. Сравнить их работу при поиске мимимума [[Media: SCHWEFEL.pdf|тестовой функции]].
+
Задана выборка измерений акселерометра [http://www.cis.fordham.edu/wisdm/dataset.php WISDM]. Модель движения из шести классов движений задается вектором средних значений сегментов нескольких повторов движений одного класса. Предложить способ классификации выборки.
-
===Задача 3===
+
=== Задача 3 ===
-
Восстановить регрессию используя формулу [[Формула Надарая-Ватсона|Надарая-Ватсона]]. Нарисовать восстановленную функцию с различными ядрами и шириной окна. В качестве данных использовать выборку [https://dmba.svn.sourceforge.net/svnroot/dmba/Data/WhiteBreadPrices.csv цены на хлеб] или [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/TSForecasting/TimeSeries/Sources/tsEnergyConsumption.csv| цены на электроэнергию].
+
Заданы два временных ряда. Предложить алгоритм выравнивания (DTW, [https://ru.wikipedia.org/wiki/%D0%90%D0%BB%D0%B3%D0%BE%D1%80%D0%B8%D1%82%D0%BC_%D0%B4%D0%B8%D0%BD%D0%B0%D0%BC%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B9_%D1%82%D1%80%D0%B0%D0%BD%D1%81%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%B8_%D0%B2%D1%80%D0%B5%D0%BC%D0%B5%D0%BD%D0%BD%D0%BE%D0%B9_%D1%88%D0%BA%D0%B0%D0%BB%D1%8B Rus], [https://en.wikipedia.org/wiki/Dynamic_time_warping En]), который ищет путь наименьшей стоимости не перебором, а методом градиентного спуска, приближая полиномом (третьей) степени.
-
===Задача 4===
+
=== Задача 4 ===
-
Предсказать сорт винограда из которого сделано вино, используя [https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data результаты химических анализов] ([http://archive.ics.uci.edu/ml/datasets/Wine описание] данных), c помощью [[Метод_k_ближайших_соседей_(пример)|KNN]] - метода k ближайших соседей с тремя различными метриками. Построить график зависимости величины ошибки от числа соседей k.
+
Задан текст (например, «Вот дом, который построил Джек»). Преложить алгоритм, который бы по нескольким предыдущим словам прогнозировал бы следующее слово. Проанализировать ошибку прогноза.
-
===Задача 5===
+
=== Задача 5 ===
-
Нарисовать траекторию пошагового спуска к минимуму [[Метод градиентного спуска|градиентного метода]] и [[Алгоритм имитации отжига |имитации отжига]]. Сравнить их работу при поиске мимимума [[Media: SCHWEFEL.pdf|тестовой функции]].
+
Задан временной ряд с изменяющимся периодом. Предложить алгоритм, который отыскивает начало периода, пример: отсечение пика или как в [http://strijov.com/papers/MotrenkoStrijov2014RV2.pdf].
-
===Задача 6===
+
=== Задача 6 ===
-
Нарисовать путь наименьшей стоимости между временными рядами, найденный с помощью [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Goncharov2015Centroids/code/DTW.zip?format=raw алгоритма DTW]. Ввести ограничения на вид пути в матрице с помощью техники [https://izbicki.me/img/uploads/2011/10/Sakoe-Chiba1.png "Sakoe-Chiba band"]. Показать, что при наименьшей величине отклонения пути от диагонали при этих ограничениях стоимость DTW перейдет в евклидово расстояние. Исследовать зависимость стоимости пути от величины ограничения. В качестве данных использовать синтетические временные ряды вида sin ( x + c ) , sin ( a | sin ( x ) | ) + sin ( b x ) .
+
Задано плоское черно-белое изображение односвязной фигуры (клякса). Предложить алгоритм, который бы указывал группу симметрии этой фигуры, если она имеется.
-
===Задача 7===
+
=== Задача 7 ===
-
По описанию [http://archive.ics.uci.edu/ml/datasets/Fertility условий посева] предсказать прорастут семена растений или нет. Провести бинарную классификацию семян с помощью метода Парзеновского окна. Построить график зависимости ошибки на контроле от ширины окна. Подобрать оптимальную ширину окна.
+
Задан фрагмент музыкального произведения. Предложить быстрый (например, хеширование изображения спектрограммы звука) алгоритм поиска в музыкальной базе Shazam.
-
===Задача 8===
+
=== Задача 8 ===
-
Классификация [http://archive.ics.uci.edu/ml/datasets/Mushroom ядовитости грибов] по основным признакам. Построить модель классификации на основе [[RBF| сети радиальных базисных функций]]. В качестве функции ошибки использовать метрику [https://www.jair.org/media/346/live-346-1610-jair.pdf HEOM].
+
В роман одного автора (Льва Толстого) поместили несколько абзацев другого (Михаила Зощенко). Предложить алгоритм, который бы находил бы смену стиля автора (кроме этого текста ничего нет, авторов мы не знаем). Можно представить текст как набор временных рядов или предложить другой способ представления текста для анализа.
-
===Задача 9===
+
=== Задача 9 ===
-
Заполнение пропусков в данных приложения [https://drive.google.com/open?id=0B3vYNXYMNm_rSWxDVWhLR0tHNEE Сardiomood]. Сравнить различные методы заполнения пропусков <ref>{{книга |автор = Загоруйко Н.Г. |заглавие = Прикладные методы анализа данных и знаний. - Новосибирск: Изд-во ин-та математики, 1999}}</ref>: 1) метод замены пропущенного значения средним из ближайших присутствующих элементов переменной, 2) метод восстановления пропущенного значения сплайн-интерполяцией по присутствующим элементам, 3) метод восстановления пропущенного значения на основе использования Zet-алгоритма <ref>{{книга |автор = Загоруйко Н.Г. |заглавие = Алгоритм заполнения пропусков в эмпирических таблицах. // Эмпирическое предсказание и распознавание образов. - Новосибирск, 1975. - Вып. 61: Вычислительные системы. - С. 3-27}}</ref>. Сравнение делать оценивая близость восстановленных пропусков с реальными данными.
+
Назовем двоичную, размера <tex>M,N,</tex> матрицу <tex>m</tex>-разреженной по строкам (<tex>n</tex>-разреженной по столбцам), если в каждой строке <tex>m</tex> пропущенных значений. Пропущенные значения в строке <tex>x</tex> восстанавливаются следующим образом. Находим ближайшую к ней строку <tex>y</tex> (расстояние Хемминга не превышает <tex>\rho</tex>), и заполняем пропущенные значения. Задана случайная матрица. Чему равняется максимальное значение <tex>n</tex> (или <tex>m</tex>), чтобы все пропущенные значения можно было бы восстановить?
-
===Задача 10===
+
=== Задача 10 ===
-
2D визуализация [https://drive.google.com/file/d/0B3vYNXYMNm_rMDFGc1B3OS0tRGs/view?usp=sharing N-мерных данных] с помощью [[Метод_главных_компонент|PCA]].
+
Задана MIDI-партитура. Требуется спрогнозировать следующую ноту как (линейную) комбинацию предыдущих. Предложить алгоритм.
-
Курс [https://www.coursera.org/learn/machine-learning/ "Machine Learning"] на Coursera: 7_pca.m script and 2.5 part of exercise 7 [https://drive.google.com/file/d/0B3vYNXYMNm_rNjJiaGJlSDc4X2M/view?usp=sharing].
+
-
Визуализировать результаты на плоскости, оценить ошибку.
+
===Задача 11===
===Задача 11===
-
Для выделения тем на коллекции документов используется матричное разложение. Предлагается определить к каким темам относится каждая из русских народных сказок. Для это следует построить словарь для коллекции документов. Построить матрицу строками в которой являются частоты слов из словаря, а число строк равняется числу сказок в коллекции. Сделать разложение матрицы "документ-слово" на матрицы "документ-тема" и "тема-слово" методом [[Сингулярное_разложение|SVD]]. В качестве коллекции документов предлагается взять: А. Барто "Мячик", "Бычок", "Зайка". Документом считать 2 строки произведения. В качестве словаря взять 10-20 слов.
+
Нарисовать траекторию пошагового спуска к минимуму [http://sebastianruder.com/optimizing-gradient-descent/ градиентного метода] и [[Алгоритм имитации отжига|имитации отжига]]. Сравнить их работу при поиске мимимума [[Media: SCHWEFEL.pdf|тестовой функции]].
 +
 
===Задача 12===
===Задача 12===
-
В крупную сеть гипермаркетов ежедневно выполняются поставки различных товаров. Требуется, использую временную историю спроса бананов за один год [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Dvinskikh2016Essays/TestProgramming/Data_data.mat Goods], построить прогноз спроса товара на неделю. Для прогнозирования предлагается использовать алгоритм Гусеница, или SSA (Singular spectrum analysis).
+
Предсказать сорт винограда из которого сделано вино, используя [https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data результаты химических анализов] ([http://archive.ics.uci.edu/ml/datasets/Wine описание] данных), c помощью [[Метод_k_ближайших_соседей_(пример)|KNN]] - метода k ближайших соседей с тремя различными метриками. Построить график зависимости величины ошибки от числа соседей k.
===Задача 13===
===Задача 13===
-
Используя данные о школьниках, выявить степень их алкогольной зависимости. В данных, взятых с UCI [http://archive.ics.uci.edu/ml/datasets/STUDENT+ALCOHOL+CONSUMPTION 'Students'], содержится информация о 30 признаках для каждого школьника, включая социальные и гендерные, а также указана материальная обеспеченность и количество свободного времени. Выбрать на свой взгляд наиболее весомые признаки и предсказать степень употребления алкоголя по выходным или будним по шкале от 0 до 5.
+
Для выделения тем на коллекции документов используется матричное разложение. Предлагается определить к каким темам относится каждая из русских народных сказок. Для это следует построить словарь для коллекции документов. Построить матрицу строками в которой являются частоты слов из словаря, а число строк равняется числу сказок в коллекции. Сделать разложение матрицы "документ-слово" на матрицы "документ-тема" и "тема-слово" методом [[Сингулярное_разложение|SVD]]. В качестве коллекции документов предлагается взять: А. Барто "Мячик", "Бычок", "Зайка". Документом считать 2 строки произведения. В качестве словаря взять 10-20 слов.
===Задача 14===
===Задача 14===
-
Распознавание [https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multiclass.html британских гласных] (11 штук) по данным с динамиков, рекомендуется использовать нормированные признаки (файл .scaled).
+
Используя данные о школьниках, выявить степень их алкогольной зависимости. В данных, взятых с UCI [https://github.com/amanchoudhary/student-alcohol-consumption-prediction 'Students'] (исходная выборка изъята из UCI, но осталась в других источниках), содержится информация о 30 признаках для каждого школьника, включая социальные и гендерные, а также указана материальная обеспеченность и количество свободного времени. Выбрать на свой взгляд наиболее весомые признаки и предсказать степень употребления алкоголя по выходным или будним по шкале от 0 до 5.
-
Решить задачу многоклассовой классификации с помощью решающего дерева. Реализовать метод решающего дерева, построить область разделения на классы в проекции на любые 2 признака.
+
===Задача 15===
===Задача 15===
-
Идентификация видов стекла.
+
Нарисовать путь наименьшей стоимости между временными рядами, найденный с помощью [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Goncharov2015Centroids/code/DTW.zip?format=raw алгоритма DTW]. Ввести ограничения на вид пути в матрице с помощью техники [https://izbicki.me/img/uploads/2011/10/Sakoe-Chiba1.png "Sakoe-Chiba band"]. Показать, что при наименьшей величине отклонения пути от диагонали при этих ограничениях стоимость DTW перейдет в евклидово расстояние. Исследовать зависимость стоимости пути от величины ограничения. В качестве данных использовать синтетические временные ряды вида <tex>\sin ( x + c ) , \sin ( a |\sin ( x ) | ) + \sin ( b x )</tex> .
-
Часто на месте преступления остаются осколки разных видов стекол, которые можно использовать как улики, если определить тип стекла и от каких оно объектов. [https://archive.ics.uci.edu/ml/machine-learning-databases/glass/ Выборка] состоит из 9 признаков - химических параметров образцов и 214 объектов. Необходимо каждому образцу сопоставить один из 6 классов (например: стекло автомобиля, осколок посуды, окно здания) и сравнить качество работы решающего дерева и алгоритма [[Решающее дерево| решающего дерева]] и алгоритма [[Метод k ближайших соседей (пример)| k-ближайших соседей]]. В качестве функции ошибки использовать долю неправильных ответов классификатора. Дает ли масштабирование признаков значительное улучшение в качестве классификации?
+
===Задача 16===
===Задача 16===
-
Предсказание площади лесных пожаров. На основе погодных измерений необходимо предсказать объем выгоревших лесных массивов на севере Португалии. [https://archive.ics.uci.edu/ml/machine-learning-databases/forest-fires/ Выборка] состоит из 13 признаков и 517 объектов. Для решения задачи предлагается использовать [[Метод наименьших квадратов| метод наименьших квадратов]] с регуляризацией. Нарисовать график весов признаков и общей ошибки на кросс-валидации при изменении параметра регуляризации. Какие признаки наиболее важны для нашей задачи? Что изменится, если предварительно все признаки стандартизовать?
+
По описанию [http://archive.ics.uci.edu/ml/datasets/Fertility условий посева] предсказать прорастут семена растений или нет. Провести бинарную классификацию семян с помощью метода Парзеновского окна. Построить график зависимости ошибки на контроле от ширины окна. Подобрать оптимальную ширину окна.
===Задача 17===
===Задача 17===
-
Разметить [https://archive.ics.uci.edu/ml/machine-learning-databases/spambase/ коллекцию писем]. Предполагается, что некоторая часть коллекции является спамом, нужно отделить эти письма от всех остальных. Использовать [http://www.machinelearning.ru/wiki/images/2/28/Voron-ML-Clustering-slides.pdf| алгоритм кластеризации k-means]. Число кластеров установить равным двум. Попробовать различные стратегии инициализации. Сравнить результаты работы алгоритма с реальной разметкой коллекции на спам.
+
Идентификация видов стекла.
 +
Часто на месте преступления остаются осколки разных видов стекол, которые можно использовать как улики, если определить тип стекла и от каких оно объектов. [https://archive.ics.uci.edu/ml/machine-learning-databases/glass/ Выборка] состоит из 9 признаков - химических параметров образцов и 214 объектов. Необходимо каждому образцу сопоставить один из 6 классов (например: стекло автомобиля, осколок посуды, окно здания) и сравнить качество работы решающего дерева и алгоритма [[Решающее дерево| решающего дерева]] и алгоритма [[Метод k ближайших соседей (пример)| k-ближайших соседей]]. В качестве функции ошибки использовать долю неправильных ответов классификатора. Дает ли масштабирование признаков значительное улучшение в качестве классификации?
===Задача 18===
===Задача 18===
-
Оценить число главных компонент в [http://archive.ics.uci.edu/ml/datasets/Gas+sensor+array+under+flow+modulation данных] с помощью [[Метод главных компонент| метода сломанной трости]]. Для нахождения главных компонент применить МГК. Построить график зависимости величины ошибки описания объектов в базисе из главных компонент от числа главных компонент. По графику оценить собственную размерность пространства.
+
Распознавание [https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multiclass.html британских гласных] (11 штук) по данным с динамиков, рекомендуется использовать нормированные признаки (файл .scaled). Решить задачу многоклассовой классификации с помощью решающего дерева. Реализовать метод решающего дерева, построить область разделения на классы в проекции на любые 2 признака.
 +
 
 +
===Задача 19 ===
 +
Классификация [http://archive.ics.uci.edu/ml/datasets/Mushroom ядовитости грибов] по основным признакам. Построить модель классификации на основе [[RBF| сети радиальных базисных функций]]. В качестве функции ошибки использовать метрику [https://www.jair.org/media/346/live-346-1610-jair.pdf HEOM].
-
===Задача 19===
 
-
Построить прогноз [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/TSForecasting/TimeSeries/Sources/tsEnergyConsumption.csv энергопотребления] на 24 часа вперед методом [http://svn.code.sf.net/p/mlalgorithms/code/GroupYAD16/Akhtyamov2016FeatureSelectionVAR/doc/Akhtyamov2016FeatureSelectionVAR.pdf векторной авторегрессии] (см. постановку задачи, [[Media: Small var.m.rtf |пример реализации]]). Построить график, сравнить истинное поведение потребления и прогноз. Рассмотреть зависимость функции ошибки на прогнозе от длины использованной предыстории, имеет ли место переобучение?
 
===Задача 20===
===Задача 20===
-
Приближение элементов изображения линией или поверхностью.
+
В крупную сеть гипермаркетов ежедневно выполняются поставки различных товаров. Требуется, использую временную историю спроса бананов за один год [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Dvinskikh2016Essays/TestProgramming/Data_data.mat Goods], построить прогноз спроса товара на неделю. Для прогнозирования предлагается использовать алгоритм Гусеница, или SSA (Singular spectrum analysis).
-
* Требуется нарисовать приближающую прямую, окружность или другую линию или поверхность по вашему усмотрению на одном из следующих [[Media:Spring2015Problem.zip|изображений]] или на вашем изображении. Предобработка изображений (как и вообще, всё, что приводит к результату, разрешается). Обсуждаем постановку задачи и решение, а не техническую сторону (не то, как это было запрограммировано).
+
-
* Для справки. Как приблизить множество точек на плоскости прямой линией или полиномом, [[Линейная регрессия (пример)|написано здесь]]. Как найти центр и радиус окружности написано [[Линейная регрессия (пример)#Применение линейной постановки задачи для моделирования кривых второго порядка|здесь]]. Как найти фокусы приближаюшего эллипса, можно понять из п. 2 и Википедии [https://ru.wikipedia.org/wiki/%D0%9A%D1%80%D0%B8%D0%B2%D0%B0%D1%8F_%D0%B2%D1%82%D0%BE%D1%80%D0%BE%D0%B3%D0%BE_%D0%BF%D0%BE%D1%80%D1%8F%D0%B4%D0%BA%D0%B0], [https://ru.wikipedia.org/wiki/%D0%9A%D1%80%D0%B8%D0%B2%D0%B0%D1%8F_%D0%B2%D1%82%D0%BE%D1%80%D0%BE%D0%B3%D0%BE_%D0%BF%D0%BE%D1%80%D1%8F%D0%B4%D0%BA%D0%B0]. Алгоритм, приближающий множество точек в пространстве поверхностью, приведен здесь [http://sourceforge.net/p/mvr/code/HEAD/tree/examples/LinfitOptions/], смотрите также [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Примеры|список примеров]].
+
-
* Развитие задачи: рассказать, как решить эту задачу 1) для произвольной размерности пространства 2) методом главных компонент.
+
-
=== Задачи прошлых лет ===
 
 +
===Задача 21===
 +
Предсказание площади лесных пожаров. На основе погодных измерений необходимо предсказать объем выгоревших лесных массивов на севере Португалии. [https://archive.ics.uci.edu/ml/machine-learning-databases/forest-fires/ Выборка] состоит из 13 признаков и 517 объектов. Для решения задачи предлагается использовать [[Метод наименьших квадратов| метод наименьших квадратов]] с регуляризацией. Нарисовать график весов признаков и общей ошибки на кросс-валидации при изменении параметра регуляризации. Какие признаки наиболее важны для нашей задачи? Что изменится, если предварительно все признаки стандартизовать?
 +
 +
===Задача 22 (далее новые задачи, 2019, возможно, чуть сложнее)===
 +
* Решить задачу: классификации
 +
* на выборке: синтетической и https://archive.ics.uci.edu/ml/datasets/Lung+Cancer
 +
* с использованием моделей: kNN, SVM, логистическая регрессия
 +
* со структурными параметрами: число и состав признаков,
 +
* критерии качества AUC, F1, число признаков
 +
 +
===Задача 23 ===
 +
* Решить задачу: регрессии
 +
* на выборке: синтетической и https://drive.google.com/file/d/157SPnufv1VkxazY3H58HHqYJYpZ76Ghw/view?usp=sharing
 +
* с использованием моделей: линейная регрессия, PCA + линейная регрессия, простая нейросеть
 +
* со структурными параметрами: число и состав признаков, размерность скрытого пространства, структура сети
 +
* критерии качества: квадратичная ошибка, число обусловленности
 +
 +
===Задача 24 ===
 +
* Решить задачу: выбора алгоритма оптимизации
 +
* на выборке: синтетической и MNIST
 +
* с использованием моделей: нейронных сетей простой структуры
 +
* Предлагаемые алгоритмы: SGD, Nesterov Momentum, Adam
 +
* со структурными параметрами: структура сети
 +
* критерии качества: скорость сходимости, значения оптимума, вид траектории
 +
 +
===Задача 25 ===
 +
* Решить задачу: классификации
 +
* на выборке: синтетической и https://archive.ics.uci.edu/ml/datasets/Breast+Cancer
 +
* с использованием моделей: логистической регрессии, нейронной сети, градиентного бустинга
 +
* со структурными параметрами: состав признаков, структура модели, количество параметров модели
 +
* критерии качества: ROC AUC, PR кривая, сложность модели (ввести опеределение)
 +
 +
===Задача 26 ===
 +
* Решить задачу: кластеризации
 +
* На выборке: предобученных векторов fasttext
 +
(https://github.com/facebookresearch/fastText/blob/master/pretrained-vectors.md, взять только слова из https://github.com/first20hours/google-10000-english/blob/master/20k.txt)
 +
* С использованием модели: K-means
 +
* Со структурным параметром: K (количество кластеров)
 +
* Критерии качества: внутрикластерное расстояние (евклидово расстояние и косинусная мера), межкластерное расстояние (евклидово расстояние и косинусная мера)
 +
 +
===Задача 27 ===
 +
* Решить задачу: классификации
 +
* На выборке: celeb-a (http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html, рассматривать изображения как черно-белые). В качестве метки класса рассматривать пол изображенного человека.
 +
* С использованием моделей: SVM, нейронная сеть с одним скрытым слоем.
 +
* Со структурным параметром: количество нейронов на скрытом слое, количество итераций оптимизации нейронной сети.
 +
* критерии качества: ROC AUC
 +
 +
===Задача 28 ===
 +
* Решить задачу: кластеризации/классификации
 +
* На выборке: MNIST
 +
* С использованием моделей: PCA + K-means
 +
* Со структурным параметром: количество главных компонент в PCA
 +
* С критериями качества: однородность кластеров, Accuracy (за ответ классификатора принимать наиболее представимый в кластере класс)
 +
 +
===Задача 29 ===
 +
* Решить задачу: классификации
 +
* На выборке: SemEval 2015 (http://alt.qcri.org/semeval2015/task2/data/uploads/sts2015-en-post.zip).
 +
* С использованием моделей: логистическая регрессия на центроидах векторов предложений, SVM, KNN, Decision Tree.
 +
* Векторы предложений: https://github.com/facebookresearch/fastText/blob/master/pretrained-vectors.md
 +
* В качестве меток класса брать округление оценок схожести (принимает значения от 0 до 5)
 +
* Со структурным параметром: глубина и структура деревьев, параметры регуляризации логистической регрессии и SVM, количество соседей в KNN
 +
* С критериями качества: Precision-Recall-кривая
 +
 +
===Задача 30 ===
 +
* Решить задачу: классификации
 +
* На выборке: тональность твиттер-сообщений http://thinknook.com/wp-content/uploads/2012/09/Sentiment-Analysis-Dataset.zip
 +
* С использованием моделей: логистическая регрессия на центроидах векторов предложений, нейронная сеть с одним скрытым слоем.
 +
* Векторы предложений: https://github.com/facebookresearch/fastText/blob/master/pretrained-vectors.md
 +
* Со структурным параметром: количество итераций оптимизации нейронной сети, размер скрытого слоя.
 +
* С критериями качества: ROC AUC, precision-recall-кривая
 +
 +
{{tip|Тем, кто использует нейросети, важно понимать, что происходит внутри черного ящика.'''}}
 +
 +
Пожелания (необязательно). Слайды желательно делать с комментариями, достаточными для передачи сообщения аудитории. Графики должны иметь подписанные оси и поясняющий текст с выводом - результатом анализа.
 +
# Цель вычислительного эксперимента, описание выборок, список моделей
 +
# Список функций ошибки, критериев качества
 +
# Способ разбиения выборки на обучение-контроль (выбрать)
 +
# Таблица модели/выборки/критерии качества на разбиении со ст. откл.
 +
# Анализ выбранной модели на разбиении обучение-контроль
 +
## График зависимости функции ошибки от значения структурного параметра со ст. откл.
 +
## График зависимости функции ошибки от объема выборки со ст. откл.
 +
## График скорости сходимости функции ошибки (зависимости функции ошибки от номера итерации оптимизационного алгоритма) со ст. откл.
 +
 +
{{tip|Пожалуйста, называйте файлы со своими решениями '''Surname2019ProblemN''' для этих задач (или '''Surname2019ProblemOldN''' для задач прошлых лет внизу списка).'''}}
 +
 +
=== Задачи прошлых лет, их тоже можно решать ===
 +
# Восстановить регрессию используя формулу [[Формула Надарая-Ватсона|Надарая-Ватсона]]. Нарисовать восстановленную функцию с различными ядрами и шириной окна. В качестве данных использовать выборку [https://dmba.svn.sourceforge.net/svnroot/dmba/Data/WhiteBreadPrices.csv цены на хлеб] или [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/TSForecasting/TimeSeries/Sources/tsEnergyConsumption.csv| цены на электроэнергию].
 +
# 2D визуализация [https://drive.google.com/file/d/0B3vYNXYMNm_rMDFGc1B3OS0tRGs/view?usp=sharing N-мерных данных] с помощью [[Метод_главных_компонент|PCA]].
 +
Курс [https://www.coursera.org/learn/machine-learning/ "Machine Learning"] на Coursera: 7_pca.m script and 2.5 part of exercise 7 [https://drive.google.com/file/d/0B3vYNXYMNm_rNjJiaGJlSDc4X2M/view?usp=sharing].
 +
Визуализировать результаты на плоскости, оценить ошибку.
 +
# Заполнение пропусков в данных приложения [https://drive.google.com/open?id=0B3vYNXYMNm_rSWxDVWhLR0tHNEE Сardiomood]. Сравнить различные методы заполнения пропусков <ref>{{книга |автор = Загоруйко Н.Г. |заглавие = Прикладные методы анализа данных и знаний. - Новосибирск: Изд-во ин-та математики, 1999}}</ref>: 1) метод замены пропущенного значения средним из ближайших присутствующих элементов переменной, 2) метод восстановления пропущенного значения сплайн-интерполяцией по присутствующим элементам, 3) метод восстановления пропущенного значения на основе использования Zet-алгоритма <ref>{{книга |автор = Загоруйко Н.Г. |заглавие = Алгоритм заполнения пропусков в эмпирических таблицах. // Эмпирическое предсказание и распознавание образов. - Новосибирск, 1975. - Вып. 61: Вычислительные системы. - С. 3-27}}</ref>. Сравнение делать оценивая близость восстановленных пропусков с реальными данными.
 +
# Классифицировать [http://archive.ics.uci.edu/ml/datasets/Credit+Approval заемщиков кредита] с помощью [[Логистическая регрессия|логистической регрессии]]. Для оптимизации параметров использовать алгоритм [[Логистическая регрессия (пример)|Ньютона-Рафсона]] или алгоритм [[Метод градиентного спуска|градиентного спуска]]. Построить ROC-кривые для фиксированного числа разбиений. Построить ряд графиков для различных мощностей подвыборок разбиений.
 +
Число итераций ограничить либо условием на сходимость – норма разности последовательных векторов весов не больше точности, либо числом шагов.
 +
# Разметить [https://archive.ics.uci.edu/ml/machine-learning-databases/spambase/ коллекцию писем]. Предполагается, что некоторая часть коллекции является спамом, нужно отделить эти письма от всех остальных. Использовать [http://www.machinelearning.ru/wiki/images/2/28/Voron-ML-Clustering-slides.pdf| алгоритм кластеризации k-means]. Число кластеров установить равным двум. Попробовать различные стратегии инициализации. Сравнить результаты работы алгоритма с реальной разметкой коллекции на спам.
 +
# Оценить число главных компонент в [http://archive.ics.uci.edu/ml/datasets/Gas+sensor+array+under+flow+modulation данных] с помощью [[Метод главных компонент| метода сломанной трости]]. Для нахождения главных компонент применить МГК. Построить график зависимости величины ошибки описания объектов в базисе из главных компонент от числа главных компонент. По графику оценить собственную размерность пространства.
 +
# Построить прогноз [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/TSForecasting/TimeSeries/Sources/tsEnergyConsumption.csv энергопотребления] на 24 часа вперед методом [http://svn.code.sf.net/p/mlalgorithms/code/GroupYAD16/Akhtyamov2016FeatureSelectionVAR/doc/Akhtyamov2016FeatureSelectionVAR.pdf векторной авторегрессии] (см. постановку задачи, [[Media: Small var.m.rtf |пример реализации]]). Построить график, сравнить истинное поведение потребления и прогноз. Рассмотреть зависимость функции ошибки на прогнозе от длины использованной предыстории, имеет ли место переобучение?
 +
<!-------------- -->
 +
# Приближение элементов изображения линией или поверхностью.
 +
#* Требуется нарисовать приближающую прямую, окружность или другую линию или поверхность по вашему усмотрению на одном из следующих [[Media:Spring2015Problem.zip|изображений]] или на вашем изображении. Предобработка изображений (как и вообще, всё, что приводит к результату, разрешается). Обсуждаем постановку задачи и решение, а не техническую сторону (не то, как это было запрограммировано).
 +
#* Для справки. Как приблизить множество точек на плоскости прямой линией или полиномом, [[Линейная регрессия (пример)|написано здесь]]. Как найти центр и радиус окружности написано [[Линейная регрессия (пример)#Применение линейной постановки задачи для моделирования кривых второго порядка|здесь]]. Как найти фокусы приближаюшего эллипса, можно понять из п. 2 и Википедии [https://ru.wikipedia.org/wiki/%D0%9A%D1%80%D0%B8%D0%B2%D0%B0%D1%8F_%D0%B2%D1%82%D0%BE%D1%80%D0%BE%D0%B3%D0%BE_%D0%BF%D0%BE%D1%80%D1%8F%D0%B4%D0%BA%D0%B0], [https://ru.wikipedia.org/wiki/%D0%9A%D1%80%D0%B8%D0%B2%D0%B0%D1%8F_%D0%B2%D1%82%D0%BE%D1%80%D0%BE%D0%B3%D0%BE_%D0%BF%D0%BE%D1%80%D1%8F%D0%B4%D0%BA%D0%B0]. Алгоритм, приближающий множество точек в пространстве поверхностью, приведен здесь [http://sourceforge.net/p/mvr/code/HEAD/tree/examples/LinfitOptions/], смотрите также [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Примеры|список примеров]].
 +
#* Развитие задачи: рассказать, как решить эту задачу 1) для произвольной размерности пространства 2) методом главных компонент.
 +
<!-------------- -->
# С помощью логистической регрессии разделить два класса точек на плоскости. Результаты изобразить на графиках (см. пример [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Примеры| Classification using logistic regression]]). Рассмотреть случаи линейно разделимой и неразделимой выборок.
# С помощью логистической регрессии разделить два класса точек на плоскости. Результаты изобразить на графиках (см. пример [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Примеры| Classification using logistic regression]]). Рассмотреть случаи линейно разделимой и неразделимой выборок.
# Изобразить на рисунке Парето-расслоение множества точек на плоскости. (Парето-расслоение - набор последовательно вычисляемых Парето оптимальных фронтов. Первый фронт вычисляется для полной выборки и удаляется из нее. Для оставшихся данных вычисляется следующий слой и т.д)
# Изобразить на рисунке Парето-расслоение множества точек на плоскости. (Парето-расслоение - набор последовательно вычисляемых Парето оптимальных фронтов. Первый фронт вычисляется для полной выборки и удаляется из нее. Для оставшихся данных вычисляется следующий слой и т.д)
Строка 91: Строка 187:
# Для различных видов зависимости <tex> y = f(x) + \epsilon </tex> (линейная, квадратичная, логарифмическая) построить [[Линейная регрессия (пример)| линейную регрессию]] и нарисовать на графике SSE-отклонения (среднеквадратичные отклонения). Данные сгенерировать самостоятельно или взять данные "Цена на хлеб".
# Для различных видов зависимости <tex> y = f(x) + \epsilon </tex> (линейная, квадратичная, логарифмическая) построить [[Линейная регрессия (пример)| линейную регрессию]] и нарисовать на графике SSE-отклонения (среднеквадратичные отклонения). Данные сгенерировать самостоятельно или взять данные "Цена на хлеб".
# Оценить площадь единичного круга методом Монте-Карло. Построить график зависимости результата от размера выборки.
# Оценить площадь единичного круга методом Монте-Карло. Построить график зависимости результата от размера выборки.
-
<!-- # Построить выпуклую оболочку точек на плоскости. Нарисовать график: точки и их выпуклая оболочка – замкнутая ломаная линия. -->
 
# Дана выборка: [http://archive.ics.uci.edu/ml/datasets/Iris ирисы Фишера]. Реализовать процедуру классификации методом решающего дерева. Проиллюстрировать результаты классификации на плоскости в пространстве двух признаков.
# Дана выборка: [http://archive.ics.uci.edu/ml/datasets/Iris ирисы Фишера]. Реализовать процедуру классификации методом решающего дерева. Проиллюстрировать результаты классификации на плоскости в пространстве двух признаков.
# Задан временной ряд – [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/TSForecasting/TimeSeries/Sources/tsEnergyConsumption.csv объемы почасового потребления электроэнергии] (выбрать любые два дня). Аппроксимировать ряд полиномиальными моделями различных степеней (1-7). *Предложить метод определения оптимальной степени полинома.
# Задан временной ряд – [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/TSForecasting/TimeSeries/Sources/tsEnergyConsumption.csv объемы почасового потребления электроэнергии] (выбрать любые два дня). Аппроксимировать ряд полиномиальными моделями различных степеней (1-7). *Предложить метод определения оптимальной степени полинома.
Строка 100: Строка 195:
# Дана выборка из нескольких признаков, без целевого вектора Y. Например, эта https://dmba.svn.sourceforge.net/svnroot/dmba/Data/Diabets_LARS.csv Требуется указать тот признак, который хорошо описывается (в терминах линейной регрессии) остальными (такой признак обычно исключают из выборки). Предложить способ визуализации решения (например, с помощью ковариационной матрицы).
# Дана выборка из нескольких признаков, без целевого вектора Y. Например, эта https://dmba.svn.sourceforge.net/svnroot/dmba/Data/Diabets_LARS.csv Требуется указать тот признак, который хорошо описывается (в терминах линейной регрессии) остальными (такой признак обычно исключают из выборки). Предложить способ визуализации решения (например, с помощью ковариационной матрицы).
# Сгенерировать выборку случайным образом и воссстановить ее плотность [[Метод парзеновского окна| методом парзеновского окна]]. Взять несколько окон разной длины и изобразить результаты на одном рисунке. Рассмотреть различные способы порождения данных.
# Сгенерировать выборку случайным образом и воссстановить ее плотность [[Метод парзеновского окна| методом парзеновского окна]]. Взять несколько окон разной длины и изобразить результаты на одном рисунке. Рассмотреть различные способы порождения данных.
-
<!--
 
# Показать разницу в скорости выполнения матричных операций и операций в цикле. Можно использовать в качестве примера [[Сингулярное разложение]] и другие методы линейной алгебры. Показать эффективность параллельных вычислений (parfor). Результаты представить в виде диаграммы (bar chart).
# Показать разницу в скорости выполнения матричных операций и операций в цикле. Можно использовать в качестве примера [[Сингулярное разложение]] и другие методы линейной алгебры. Показать эффективность параллельных вычислений (parfor). Результаты представить в виде диаграммы (bar chart).
# Разобраться как работает суперпозиция функций. С помощью функции @ породить все возможные полиномы от n переменных степени не более p. Вариант: приблизить полученными полиномами временной ряд цен на хлеб [[Линейная регрессия (пример)|(данные)]].
# Разобраться как работает суперпозиция функций. С помощью функции @ породить все возможные полиномы от n переменных степени не более p. Вариант: приблизить полученными полиномами временной ряд цен на хлеб [[Линейная регрессия (пример)|(данные)]].
-
-->
 
# Дан набор трехэлементных векторов. Первые два элемента нарисовать по осям абсцисс и ординат. Третий элемент отобразить как круг с пропорциональным радиусом. Пропорции подобрать исходя из чувства прекрасного. Сравнить полученный график с plot3. Что лучше?
# Дан набор трехэлементных векторов. Первые два элемента нарисовать по осям абсцисс и ординат. Третий элемент отобразить как круг с пропорциональным радиусом. Пропорции подобрать исходя из чувства прекрасного. Сравнить полученный график с plot3. Что лучше?
# Построить методом наименьших модулей уравнение регрессии 2ой степени по результатом опытов, данные [[Media:Опыт №7.3 21.10.14.txt.zip|прилагаются]] (x1,x2,x3 - переменные факторы, N - отклик). Вариант: сравнить с методом наименьших квадратов, построив на одном рисунке 2 графика (по оси абсцисс - истинные отклики, по оси ординат - результаты моделирования с помощью МНМ и МНК)
# Построить методом наименьших модулей уравнение регрессии 2ой степени по результатом опытов, данные [[Media:Опыт №7.3 21.10.14.txt.zip|прилагаются]] (x1,x2,x3 - переменные факторы, N - отклик). Вариант: сравнить с методом наименьших квадратов, построив на одном рисунке 2 графика (по оси абсцисс - истинные отклики, по оси ординат - результаты моделирования с помощью МНМ и МНК)
# Разобраться как работает regexp в Матлабе. Сделать код, который выделяет все, что находится внутри скобок некоторого арифметического выражения. Визуализировать работу regexp.
# Разобраться как работает regexp в Матлабе. Сделать код, который выделяет все, что находится внутри скобок некоторого арифметического выражения. Визуализировать работу regexp.
-
# Дан временной ряд из m + 1 (случайных) точек. Приблизить m его первых точек полиномами степени от 1 до m. Вычислить среднюю ошибку в точках. Какая степень дает наибольшую ошибку?
+
# Дан временной ряд из <tex>m + 1</tex> (случайных) точек. Приблизить m его первых точек полиномами степени от 1 до m. Вычислить среднюю ошибку в точках. Какая степень дает наибольшую ошибку?
# Аппроксимировать выборку [https://dmba.svn.sourceforge.net/svnroot/dmba/Data/WhiteBreadPrices.csv цены на хлеб] полиномиальными моделями различного порядка. Построить на одном рисунке два графика: качество аппроксимации на обучении и на контроле в зависимости от степени полинома.
# Аппроксимировать выборку [https://dmba.svn.sourceforge.net/svnroot/dmba/Data/WhiteBreadPrices.csv цены на хлеб] полиномиальными моделями различного порядка. Построить на одном рисунке два графика: качество аппроксимации на обучении и на контроле в зависимости от степени полинома.
# Предложить способы визуализации наборов четырехмерных векторов, например для [http://archive.ics.uci.edu/ml/datasets/Iris Fisher's iris data].
# Предложить способы визуализации наборов четырехмерных векторов, например для [http://archive.ics.uci.edu/ml/datasets/Iris Fisher's iris data].
Строка 115: Строка 208:
# Дана выборка из двух классов на плоскости. Требуется разделить ее линейно и найти все объекты, которые залезли в чужой класс. Показать их на графике.
# Дана выборка из двух классов на плоскости. Требуется разделить ее линейно и найти все объекты, которые залезли в чужой класс. Показать их на графике.
# Решается задача заполнения пропусков в социологических анкетах наиболее адекватными значениями. Основная идея: для фиксированной анкеты найти заполнить ее пропущенные поля с использованием значений соответствующих полей <tex>k</tex> ближайших соседей. Задана выборка <tex>X</tex>&nbsp;--- матрица, в которой элемент <tex>x_{ij}</tex> принадлежит конечному множеству <tex>\mathbb{L}_j=\{1,...,k_j,\text{NaN}\}</tex> допустимых значений <tex>j</tex>-го поля анкеты; отметка <tex>\text{NaN}</tex> означает пропуск в поле. На множестве <tex>\mathbb{L}_j</tex> задано отношение предпочтения <tex>\preceq</tex>. Например, "начальное образование" <tex>\preceq</tex> «среднее образование» <tex>\preceq</tex> «высшее образование»&nbsp;--- отношение линейного порядка. Требуется ввести такую функцию расстояния или метрику <tex>\rho(x_i,x_k)\rightarrow \mathbb{R}\cup\text{NaN}</tex>, которая бы обеспечивала наиболее полное восстановление пропусков, и описать процедуру восстановления. ''Дополнительно'': изменится ли ваше решение, в случае, когда каждая анкета имеет не менее одного пропуска. Вариант: каждое поле имеет не менее одного пропуска. Вариант: значительная часть элементов матрицы <tex>X</tex> пропущена.
# Решается задача заполнения пропусков в социологических анкетах наиболее адекватными значениями. Основная идея: для фиксированной анкеты найти заполнить ее пропущенные поля с использованием значений соответствующих полей <tex>k</tex> ближайших соседей. Задана выборка <tex>X</tex>&nbsp;--- матрица, в которой элемент <tex>x_{ij}</tex> принадлежит конечному множеству <tex>\mathbb{L}_j=\{1,...,k_j,\text{NaN}\}</tex> допустимых значений <tex>j</tex>-го поля анкеты; отметка <tex>\text{NaN}</tex> означает пропуск в поле. На множестве <tex>\mathbb{L}_j</tex> задано отношение предпочтения <tex>\preceq</tex>. Например, "начальное образование" <tex>\preceq</tex> «среднее образование» <tex>\preceq</tex> «высшее образование»&nbsp;--- отношение линейного порядка. Требуется ввести такую функцию расстояния или метрику <tex>\rho(x_i,x_k)\rightarrow \mathbb{R}\cup\text{NaN}</tex>, которая бы обеспечивала наиболее полное восстановление пропусков, и описать процедуру восстановления. ''Дополнительно'': изменится ли ваше решение, в случае, когда каждая анкета имеет не менее одного пропуска. Вариант: каждое поле имеет не менее одного пропуска. Вариант: значительная часть элементов матрицы <tex>X</tex> пропущена.
-
 
-
 
-
<!-- # На вход подается матрица инцидентности дерева. Функция возвращает список (вектор) вершин в порядке их посещения. -->
 
-
<!-- # Классифицировать цветы ириса произвольным алгоритмом, нарисовать на плоскости «самую наглядную» пару признаков, указать, что классифицировалось правильно, а что – нет. -->
 
-
<!-- # Дан временной ряд. По его вариационному ряду построить гистограмму из n перцентилей, нарисовать ее. Какое значение временного ряда встречается чаще всего? -->
 
-
 
-
== Литература ==
 
-
<references/>
 
-
 
[[Категория:Учебные курсы]]
[[Категория:Учебные курсы]]

Версия 20:20, 2 апреля 2019


  • Короткая ссылка на эту страницу bit.ly/1B4NKjZ
  • Решение задач рекомендуется визуализировать, рисунки необходимо кратко описать.

Задачи для поступающих на Кафедру интеллектуальных систем: весна (2019, и 2018 тоже можно их решать)

Задача 1

Задан полносвязный граф со взвешенными ребрами. Предложить алгоритм нахождения основного дерева, который отыскивал бы это дерево путем градиентного спуска. Для этого требуется ввести дифференцируемую штрафную функцию, которая штрафует полносвязный граф за то, что он не является деревом.

Задача 2

Задана выборка измерений акселерометра WISDM. Модель движения из шести классов движений задается вектором средних значений сегментов нескольких повторов движений одного класса. Предложить способ классификации выборки.

Задача 3

Заданы два временных ряда. Предложить алгоритм выравнивания (DTW, Rus, En), который ищет путь наименьшей стоимости не перебором, а методом градиентного спуска, приближая полиномом (третьей) степени.

Задача 4

Задан текст (например, «Вот дом, который построил Джек»). Преложить алгоритм, который бы по нескольким предыдущим словам прогнозировал бы следующее слово. Проанализировать ошибку прогноза.

Задача 5

Задан временной ряд с изменяющимся периодом. Предложить алгоритм, который отыскивает начало периода, пример: отсечение пика или как в [1].

Задача 6

Задано плоское черно-белое изображение односвязной фигуры (клякса). Предложить алгоритм, который бы указывал группу симметрии этой фигуры, если она имеется.

Задача 7

Задан фрагмент музыкального произведения. Предложить быстрый (например, хеширование изображения спектрограммы звука) алгоритм поиска в музыкальной базе Shazam.

Задача 8

В роман одного автора (Льва Толстого) поместили несколько абзацев другого (Михаила Зощенко). Предложить алгоритм, который бы находил бы смену стиля автора (кроме этого текста ничего нет, авторов мы не знаем). Можно представить текст как набор временных рядов или предложить другой способ представления текста для анализа.

Задача 9

Назовем двоичную, размера M,N, матрицу m-разреженной по строкам (n-разреженной по столбцам), если в каждой строке m пропущенных значений. Пропущенные значения в строке x восстанавливаются следующим образом. Находим ближайшую к ней строку y (расстояние Хемминга не превышает \rho), и заполняем пропущенные значения. Задана случайная матрица. Чему равняется максимальное значение n (или m), чтобы все пропущенные значения можно было бы восстановить?

Задача 10

Задана MIDI-партитура. Требуется спрогнозировать следующую ноту как (линейную) комбинацию предыдущих. Предложить алгоритм.

Задача 11

Нарисовать траекторию пошагового спуска к минимуму градиентного метода и имитации отжига. Сравнить их работу при поиске мимимума тестовой функции.


Задача 12

Предсказать сорт винограда из которого сделано вино, используя результаты химических анализов (описание данных), c помощью KNN - метода k ближайших соседей с тремя различными метриками. Построить график зависимости величины ошибки от числа соседей k.

Задача 13

Для выделения тем на коллекции документов используется матричное разложение. Предлагается определить к каким темам относится каждая из русских народных сказок. Для это следует построить словарь для коллекции документов. Построить матрицу строками в которой являются частоты слов из словаря, а число строк равняется числу сказок в коллекции. Сделать разложение матрицы "документ-слово" на матрицы "документ-тема" и "тема-слово" методом SVD. В качестве коллекции документов предлагается взять: А. Барто "Мячик", "Бычок", "Зайка". Документом считать 2 строки произведения. В качестве словаря взять 10-20 слов.

Задача 14

Используя данные о школьниках, выявить степень их алкогольной зависимости. В данных, взятых с UCI 'Students' (исходная выборка изъята из UCI, но осталась в других источниках), содержится информация о 30 признаках для каждого школьника, включая социальные и гендерные, а также указана материальная обеспеченность и количество свободного времени. Выбрать на свой взгляд наиболее весомые признаки и предсказать степень употребления алкоголя по выходным или будним по шкале от 0 до 5.

Задача 15

Нарисовать путь наименьшей стоимости между временными рядами, найденный с помощью алгоритма DTW. Ввести ограничения на вид пути в матрице с помощью техники "Sakoe-Chiba band". Показать, что при наименьшей величине отклонения пути от диагонали при этих ограничениях стоимость DTW перейдет в евклидово расстояние. Исследовать зависимость стоимости пути от величины ограничения. В качестве данных использовать синтетические временные ряды вида \sin ( x + c ) , \sin ( a  |\sin ( x ) | ) + \sin ( b x ) .

Задача 16

По описанию условий посева предсказать прорастут семена растений или нет. Провести бинарную классификацию семян с помощью метода Парзеновского окна. Построить график зависимости ошибки на контроле от ширины окна. Подобрать оптимальную ширину окна.

Задача 17

Идентификация видов стекла. Часто на месте преступления остаются осколки разных видов стекол, которые можно использовать как улики, если определить тип стекла и от каких оно объектов. Выборка состоит из 9 признаков - химических параметров образцов и 214 объектов. Необходимо каждому образцу сопоставить один из 6 классов (например: стекло автомобиля, осколок посуды, окно здания) и сравнить качество работы решающего дерева и алгоритма решающего дерева и алгоритма k-ближайших соседей. В качестве функции ошибки использовать долю неправильных ответов классификатора. Дает ли масштабирование признаков значительное улучшение в качестве классификации?

Задача 18

Распознавание британских гласных (11 штук) по данным с динамиков, рекомендуется использовать нормированные признаки (файл .scaled). Решить задачу многоклассовой классификации с помощью решающего дерева. Реализовать метод решающего дерева, построить область разделения на классы в проекции на любые 2 признака.

Задача 19

Классификация ядовитости грибов по основным признакам. Построить модель классификации на основе сети радиальных базисных функций. В качестве функции ошибки использовать метрику HEOM.


Задача 20

В крупную сеть гипермаркетов ежедневно выполняются поставки различных товаров. Требуется, использую временную историю спроса бананов за один год Goods, построить прогноз спроса товара на неделю. Для прогнозирования предлагается использовать алгоритм Гусеница, или SSA (Singular spectrum analysis).


Задача 21

Предсказание площади лесных пожаров. На основе погодных измерений необходимо предсказать объем выгоревших лесных массивов на севере Португалии. Выборка состоит из 13 признаков и 517 объектов. Для решения задачи предлагается использовать метод наименьших квадратов с регуляризацией. Нарисовать график весов признаков и общей ошибки на кросс-валидации при изменении параметра регуляризации. Какие признаки наиболее важны для нашей задачи? Что изменится, если предварительно все признаки стандартизовать?

Задача 22 (далее новые задачи, 2019, возможно, чуть сложнее)

  • Решить задачу: классификации
  • на выборке: синтетической и https://archive.ics.uci.edu/ml/datasets/Lung+Cancer
  • с использованием моделей: kNN, SVM, логистическая регрессия
  • со структурными параметрами: число и состав признаков,
  • критерии качества AUC, F1, число признаков

Задача 23

  • Решить задачу: регрессии
  • на выборке: синтетической и https://drive.google.com/file/d/157SPnufv1VkxazY3H58HHqYJYpZ76Ghw/view?usp=sharing
  • с использованием моделей: линейная регрессия, PCA + линейная регрессия, простая нейросеть
  • со структурными параметрами: число и состав признаков, размерность скрытого пространства, структура сети
  • критерии качества: квадратичная ошибка, число обусловленности

Задача 24

  • Решить задачу: выбора алгоритма оптимизации
  • на выборке: синтетической и MNIST
  • с использованием моделей: нейронных сетей простой структуры
  • Предлагаемые алгоритмы: SGD, Nesterov Momentum, Adam
  • со структурными параметрами: структура сети
  • критерии качества: скорость сходимости, значения оптимума, вид траектории

Задача 25

  • Решить задачу: классификации
  • на выборке: синтетической и https://archive.ics.uci.edu/ml/datasets/Breast+Cancer
  • с использованием моделей: логистической регрессии, нейронной сети, градиентного бустинга
  • со структурными параметрами: состав признаков, структура модели, количество параметров модели
  • критерии качества: ROC AUC, PR кривая, сложность модели (ввести опеределение)

Задача 26

  • Решить задачу: кластеризации
  • На выборке: предобученных векторов fasttext

(https://github.com/facebookresearch/fastText/blob/master/pretrained-vectors.md, взять только слова из https://github.com/first20hours/google-10000-english/blob/master/20k.txt)

  • С использованием модели: K-means
  • Со структурным параметром: K (количество кластеров)
  • Критерии качества: внутрикластерное расстояние (евклидово расстояние и косинусная мера), межкластерное расстояние (евклидово расстояние и косинусная мера)

Задача 27

  • Решить задачу: классификации
  • На выборке: celeb-a (http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html, рассматривать изображения как черно-белые). В качестве метки класса рассматривать пол изображенного человека.
  • С использованием моделей: SVM, нейронная сеть с одним скрытым слоем.
  • Со структурным параметром: количество нейронов на скрытом слое, количество итераций оптимизации нейронной сети.
  • критерии качества: ROC AUC

Задача 28

  • Решить задачу: кластеризации/классификации
  • На выборке: MNIST
  • С использованием моделей: PCA + K-means
  • Со структурным параметром: количество главных компонент в PCA
  • С критериями качества: однородность кластеров, Accuracy (за ответ классификатора принимать наиболее представимый в кластере класс)

Задача 29

  • Решить задачу: классификации
  • На выборке: SemEval 2015 (http://alt.qcri.org/semeval2015/task2/data/uploads/sts2015-en-post.zip).
  • С использованием моделей: логистическая регрессия на центроидах векторов предложений, SVM, KNN, Decision Tree.
  • Векторы предложений: https://github.com/facebookresearch/fastText/blob/master/pretrained-vectors.md
  • В качестве меток класса брать округление оценок схожести (принимает значения от 0 до 5)
  • Со структурным параметром: глубина и структура деревьев, параметры регуляризации логистической регрессии и SVM, количество соседей в KNN
  • С критериями качества: Precision-Recall-кривая

Задача 30

  • Решить задачу: классификации
  • На выборке: тональность твиттер-сообщений http://thinknook.com/wp-content/uploads/2012/09/Sentiment-Analysis-Dataset.zip
  • С использованием моделей: логистическая регрессия на центроидах векторов предложений, нейронная сеть с одним скрытым слоем.
  • Векторы предложений: https://github.com/facebookresearch/fastText/blob/master/pretrained-vectors.md
  • Со структурным параметром: количество итераций оптимизации нейронной сети, размер скрытого слоя.
  • С критериями качества: ROC AUC, precision-recall-кривая


Тем, кто использует нейросети, важно понимать, что происходит внутри черного ящика.


Пожелания (необязательно). Слайды желательно делать с комментариями, достаточными для передачи сообщения аудитории. Графики должны иметь подписанные оси и поясняющий текст с выводом - результатом анализа.

  1. Цель вычислительного эксперимента, описание выборок, список моделей
  2. Список функций ошибки, критериев качества
  3. Способ разбиения выборки на обучение-контроль (выбрать)
  4. Таблица модели/выборки/критерии качества на разбиении со ст. откл.
  5. Анализ выбранной модели на разбиении обучение-контроль
    1. График зависимости функции ошибки от значения структурного параметра со ст. откл.
    2. График зависимости функции ошибки от объема выборки со ст. откл.
    3. График скорости сходимости функции ошибки (зависимости функции ошибки от номера итерации оптимизационного алгоритма) со ст. откл.


Пожалуйста, называйте файлы со своими решениями Surname2019ProblemN для этих задач (или Surname2019ProblemOldN для задач прошлых лет внизу списка).


Задачи прошлых лет, их тоже можно решать

  1. Восстановить регрессию используя формулу Надарая-Ватсона. Нарисовать восстановленную функцию с различными ядрами и шириной окна. В качестве данных использовать выборку цены на хлеб или цены на электроэнергию.
  2. 2D визуализация N-мерных данных с помощью PCA.

Курс "Machine Learning" на Coursera: 7_pca.m script and 2.5 part of exercise 7 [2]. Визуализировать результаты на плоскости, оценить ошибку.

  1. Заполнение пропусков в данных приложения Сardiomood. Сравнить различные методы заполнения пропусков [1]: 1) метод замены пропущенного значения средним из ближайших присутствующих элементов переменной, 2) метод восстановления пропущенного значения сплайн-интерполяцией по присутствующим элементам, 3) метод восстановления пропущенного значения на основе использования Zet-алгоритма [1]. Сравнение делать оценивая близость восстановленных пропусков с реальными данными.
  2. Классифицировать заемщиков кредита с помощью логистической регрессии. Для оптимизации параметров использовать алгоритм Ньютона-Рафсона или алгоритм градиентного спуска. Построить ROC-кривые для фиксированного числа разбиений. Построить ряд графиков для различных мощностей подвыборок разбиений.

Число итераций ограничить либо условием на сходимость – норма разности последовательных векторов весов не больше точности, либо числом шагов.

  1. Разметить коллекцию писем. Предполагается, что некоторая часть коллекции является спамом, нужно отделить эти письма от всех остальных. Использовать алгоритм кластеризации k-means. Число кластеров установить равным двум. Попробовать различные стратегии инициализации. Сравнить результаты работы алгоритма с реальной разметкой коллекции на спам.
  2. Оценить число главных компонент в данных с помощью метода сломанной трости. Для нахождения главных компонент применить МГК. Построить график зависимости величины ошибки описания объектов в базисе из главных компонент от числа главных компонент. По графику оценить собственную размерность пространства.
  3. Построить прогноз энергопотребления на 24 часа вперед методом векторной авторегрессии (см. постановку задачи, пример реализации). Построить график, сравнить истинное поведение потребления и прогноз. Рассмотреть зависимость функции ошибки на прогнозе от длины использованной предыстории, имеет ли место переобучение?
  4. Приближение элементов изображения линией или поверхностью.
    • Требуется нарисовать приближающую прямую, окружность или другую линию или поверхность по вашему усмотрению на одном из следующих изображений или на вашем изображении. Предобработка изображений (как и вообще, всё, что приводит к результату, разрешается). Обсуждаем постановку задачи и решение, а не техническую сторону (не то, как это было запрограммировано).
    • Для справки. Как приблизить множество точек на плоскости прямой линией или полиномом, написано здесь. Как найти центр и радиус окружности написано здесь. Как найти фокусы приближаюшего эллипса, можно понять из п. 2 и Википедии [3], [4]. Алгоритм, приближающий множество точек в пространстве поверхностью, приведен здесь [5], смотрите также список примеров.
    • Развитие задачи: рассказать, как решить эту задачу 1) для произвольной размерности пространства 2) методом главных компонент.
  5. С помощью логистической регрессии разделить два класса точек на плоскости. Результаты изобразить на графиках (см. пример Classification using logistic regression). Рассмотреть случаи линейно разделимой и неразделимой выборок.
  6. Изобразить на рисунке Парето-расслоение множества точек на плоскости. (Парето-расслоение - набор последовательно вычисляемых Парето оптимальных фронтов. Первый фронт вычисляется для полной выборки и удаляется из нее. Для оставшихся данных вычисляется следующий слой и т.д)
  7. Дана выборка "Вина различных регионов". Требуется определить кластеры (регионы происхождения вин) и нарисовать результат: цветной точкой обозначен объект кластера; цветным кружком обозначен класс этого объекта, взятый из выборки. Вариант задания: определить число кластеров. Вариант задания: использовать два алгоритма, например k-means и EM, и показать сравнение результатов кластеризации на графике.
  8. Сгладить временной ряд Цены (объемы) на основные биржевые инструменты методом экспоненциального сглаживания. Нарисовать цветные графики сглаженных с различным  \alpha рядов и исходного ряда.
  9. Аппроксимация выборки замкнутой кривой [6]: проверить, лежат ли точки на окружности? Сгенерировать данные самостоятельно. Построить графики для случая когда точки лежат на окружности и нет, на графиках изобразить выборку и аппроксимирующую окружность.
  10. Дан временной ряд с пропусками, например [7]. Предложить способы заполнения пропусков в данных, заполнить пропуски. Для каждого способа построить гистограмму. Вариант: взять выборку без пропусков, удалить случайным образом часть данных, заполнить пропуски, сравнить гистограмму восстановленной выборки с гистограммой исходной выборки.
  11. Дана выборка "Вина различных регионов". Выбрать два признака. Рассмотреть различные функции расстояния при классификации с помощью метода ближайшего соседа. Для каждой изобразить результат классификации в пространстве выбранных признаков.
  12. Для различных видов зависимости  y = f(x) + \epsilon (линейная, квадратичная, логарифмическая) построить линейную регрессию и нарисовать на графике SSE-отклонения (среднеквадратичные отклонения). Данные сгенерировать самостоятельно или взять данные "Цена на хлеб".
  13. Оценить площадь единичного круга методом Монте-Карло. Построить график зависимости результата от размера выборки.
  14. Дана выборка: ирисы Фишера. Реализовать процедуру классификации методом решающего дерева. Проиллюстрировать результаты классификации на плоскости в пространстве двух признаков.
  15. Задан временной ряд – объемы почасового потребления электроэнергии (выбрать любые два дня). Аппроксимировать ряд полиномиальными моделями различных степеней (1-7). *Предложить метод определения оптимальной степени полинома.
  16. Задано два одномерных временных ряда различной длины. Вычислить расстояние между рядами методом динамического выравнивания. На графике изобразить путь наименьшей стоимости.
  17. Сгенерировать набор точек на плоскости. Выделить и визуализировать главные компоненты.
  18. Аппроксимировать выборку цены на хлеб полиномиальной моделью. Нарисовать график. Выделить объекты, являющиеся выбросами, используя правило трех сигм, и отметить их на графике.
  19. Разделить выборку ирисы Фишера на кластеры. Проиллюстрировать на графиках результаты кластеризации для различного числа кластеров, выделить кластеры разными цветами.
  20. Дана выборка из нескольких признаков, без целевого вектора Y. Например, эта https://dmba.svn.sourceforge.net/svnroot/dmba/Data/Diabets_LARS.csv Требуется указать тот признак, который хорошо описывается (в терминах линейной регрессии) остальными (такой признак обычно исключают из выборки). Предложить способ визуализации решения (например, с помощью ковариационной матрицы).
  21. Сгенерировать выборку случайным образом и воссстановить ее плотность методом парзеновского окна. Взять несколько окон разной длины и изобразить результаты на одном рисунке. Рассмотреть различные способы порождения данных.
  22. Показать разницу в скорости выполнения матричных операций и операций в цикле. Можно использовать в качестве примера Сингулярное разложение и другие методы линейной алгебры. Показать эффективность параллельных вычислений (parfor). Результаты представить в виде диаграммы (bar chart).
  23. Разобраться как работает суперпозиция функций. С помощью функции @ породить все возможные полиномы от n переменных степени не более p. Вариант: приблизить полученными полиномами временной ряд цен на хлеб (данные).
  24. Дан набор трехэлементных векторов. Первые два элемента нарисовать по осям абсцисс и ординат. Третий элемент отобразить как круг с пропорциональным радиусом. Пропорции подобрать исходя из чувства прекрасного. Сравнить полученный график с plot3. Что лучше?
  25. Построить методом наименьших модулей уравнение регрессии 2ой степени по результатом опытов, данные прилагаются (x1,x2,x3 - переменные факторы, N - отклик). Вариант: сравнить с методом наименьших квадратов, построив на одном рисунке 2 графика (по оси абсцисс - истинные отклики, по оси ординат - результаты моделирования с помощью МНМ и МНК)
  26. Разобраться как работает regexp в Матлабе. Сделать код, который выделяет все, что находится внутри скобок некоторого арифметического выражения. Визуализировать работу regexp.
  27. Дан временной ряд из m + 1 (случайных) точек. Приблизить m его первых точек полиномами степени от 1 до m. Вычислить среднюю ошибку в точках. Какая степень дает наибольшую ошибку?
  28. Аппроксимировать выборку цены на хлеб полиномиальными моделями различного порядка. Построить на одном рисунке два графика: качество аппроксимации на обучении и на контроле в зависимости от степени полинома.
  29. Предложить способы визуализации наборов четырехмерных векторов, например для Fisher's iris data.
  30. Дан временной ряд, описывающий потребление электричества. Приблизить ряд несколькими криволинейными моделями и нарисовать спрогнозированные и исходный ряды на одном графике.
  31. Дана выборка, в которой есть несколько выбросов. Известно, что она может быть описана одномерной линейной регрессией. Требуется переборным путем найти выбросы. Показать их на графике.
  32. Дана выборка из двух классов на плоскости. Требуется разделить ее линейно и найти все объекты, которые залезли в чужой класс. Показать их на графике.
  33. Решается задача заполнения пропусков в социологических анкетах наиболее адекватными значениями. Основная идея: для фиксированной анкеты найти заполнить ее пропущенные поля с использованием значений соответствующих полей k ближайших соседей. Задана выборка X --- матрица, в которой элемент x_{ij} принадлежит конечному множеству \mathbb{L}_j=\{1,...,k_j,\text{NaN}\} допустимых значений j-го поля анкеты; отметка \text{NaN} означает пропуск в поле. На множестве \mathbb{L}_j задано отношение предпочтения \preceq. Например, "начальное образование" \preceq «среднее образование» \preceq «высшее образование» --- отношение линейного порядка. Требуется ввести такую функцию расстояния или метрику \rho(x_i,x_k)\rightarrow \mathbb{R}\cup\text{NaN}, которая бы обеспечивала наиболее полное восстановление пропусков, и описать процедуру восстановления. Дополнительно: изменится ли ваше решение, в случае, когда каждая анкета имеет не менее одного пропуска. Вариант: каждое поле имеет не менее одного пропуска. Вариант: значительная часть элементов матрицы X пропущена.
Личные инструменты