Пробные задачи

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Новая: {{Main|Численные методы обучения по прецедентам (практика, В.В. Стрижов)}} # Построить методом наименьших...)
м
Строка 1: Строка 1:
{{Main|Численные методы обучения по прецедентам (практика, В.В. Стрижов)}}
{{Main|Численные методы обучения по прецедентам (практика, В.В. Стрижов)}}
 +
Решение каждой задачи должно быть визуализировано, все рисунки необходимо кратко описать.
-
# Построить методом наименьших модулей уравнение регрессии 2ой степени по результатом опытов, которые [[Изображение:Опыт №7.3 21.10.14.txt.zip| прилагаются]] (x1,x2,x3 - переменные факторы, N - отклик).
+
# Построить методом наименьших модулей уравнение регрессии 2ой степени по результатом опытов, данные [[Media:Опыт №7.3 21.10.14.txt.zip|прилагаются]] (x1,x2,x3 - переменные факторы, N - отклик). Вариант: сравнить с методом наименьших квадратов, построив на одном рисунке 2 графика (по оси абсцисс - истинные отклики, по оси ординат - результаты моделирования с помощью МНМ и МНК)
# Дана выборка [http://archive.ics.uci.edu/ml/datasets/Wine "Вина различных регионов"]. Требуется определить кластеры (регионы происхождения вин) и нарисовать результат: цветной точкой обозначен объект кластера; цветным кружком обозначен класс этого объекта, взятый из выборки. Вариант задания: определить число кластеров. Вариант задания: использовать два алгоритма, например k-means и EM, и показать сравнение результатов кластеризации на графике.
# Дана выборка [http://archive.ics.uci.edu/ml/datasets/Wine "Вина различных регионов"]. Требуется определить кластеры (регионы происхождения вин) и нарисовать результат: цветной точкой обозначен объект кластера; цветным кружком обозначен класс этого объекта, взятый из выборки. Вариант задания: определить число кластеров. Вариант задания: использовать два алгоритма, например k-means и EM, и показать сравнение результатов кластеризации на графике.
-
# Предложить способы визуализации наборов четырехмерных векторов, например для [http://archive.ics.uci.edu/ml/datasets/Iris Fisher's iris data].
 
# Дан временной [http://archive.ics.uci.edu/ml/datasets/Individual+household+electric+power+consumption ряд], описывающий потребление электричества. Приблизить ряд несколькими [[Линейная регрессия (пример)| криволинейными моделями]] и нарисовать спрогнозированные и исходный ряды на одном графике.
# Дан временной [http://archive.ics.uci.edu/ml/datasets/Individual+household+electric+power+consumption ряд], описывающий потребление электричества. Приблизить ряд несколькими [[Линейная регрессия (пример)| криволинейными моделями]] и нарисовать спрогнозированные и исходный ряды на одном графике.
# Сгладить временной ряд [[Временной ряд (библиотека примеров)|Цены (объемы) на основные биржевые инструменты]] методом [[Экспоненциальное сглаживание| экспоненциального сглаживания]]. Нарисовать цветные графики сглаженных с различным <tex> \alpha </tex> рядов и исходного ряда.
# Сгладить временной ряд [[Временной ряд (библиотека примеров)|Цены (объемы) на основные биржевые инструменты]] методом [[Экспоненциальное сглаживание| экспоненциального сглаживания]]. Нарисовать цветные графики сглаженных с различным <tex> \alpha </tex> рядов и исходного ряда.
-
# Аппроксимация выборки замкнутой кривой [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group874/Group874Essay/Group874Essay.pdf?format=raw]: проверить, лежат ли точки на окружности? Сгенерировать данные самостоятельно.
+
# Аппроксимация выборки замкнутой кривой [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group874/Group874Essay/Group874Essay.pdf?format=raw]: проверить, лежат ли точки на окружности? Сгенерировать данные самостоятельно. Построить графики для случая когда точки лежат на окружности и нет, на графиках изобразить выборку и аппроксимирующую окружность.
-
# Дан временной ряд с пропусками, например [http://archive.ics.uci.edu/ml/datasets/Gas+Sensor+Array+Drift+Dataset+at+Different+Concentrations]. Предложить способы заполнения пропусков в данных, заполнить пропуски. Для каждого способа построить гистограмму. Вариант: взять выборку без пропусков, удалить случайным образом часть данных, заполнить пропуски, сравнить с гистограммой исходной выборки.
+
# Дан временной ряд с пропусками, например [http://archive.ics.uci.edu/ml/datasets/Gas+Sensor+Array+Drift+Dataset+at+Different+Concentrations]. Предложить способы заполнения пропусков в данных, заполнить пропуски. Для каждого способа построить гистограмму. Вариант: взять выборку без пропусков, удалить случайным образом часть данных, заполнить пропуски, сравнить гистограмму восстановленной выборки с гистограммой исходной выборки.
# Дана выборка [http://archive.ics.uci.edu/ml/datasets/Wine "Вина различных регионов"]. Выбрать два признака. Рассмотреть различные функции расстояния при классификации с помощью [[Метод ближайших соседей| метода ближайшего соседа]]. Для каждой изобразить результат классификации в пространстве выбранных признаков.
# Дана выборка [http://archive.ics.uci.edu/ml/datasets/Wine "Вина различных регионов"]. Выбрать два признака. Рассмотреть различные функции расстояния при классификации с помощью [[Метод ближайших соседей| метода ближайшего соседа]]. Для каждой изобразить результат классификации в пространстве выбранных признаков.
-
# Для различных видов зависимости <tex> y = f(x) + \epsilon </tex> (линейная, квадратичная, логарифмическая) построить [[Линейная регрессия (пример)| линейную регрессию]] и нарисовать на графике SSE-отклонения (среднеквадратичные отклонения-?). Данные сгенерировать самостоятельно или взять данные "Цена на хлеб".
+
# Для различных видов зависимости <tex> y = f(x) + \epsilon </tex> (линейная, квадратичная, логарифмическая) построить [[Линейная регрессия (пример)| линейную регрессию]] и нарисовать на графике SSE-отклонения (среднеквадратичные отклонения). Данные сгенерировать самостоятельно или взять данные "Цена на хлеб".
# Оценить площадь единичного круга методом Монте-Карло. Построить график зависимости результата от размера выборки.
# Оценить площадь единичного круга методом Монте-Карло. Построить график зависимости результата от размера выборки.
-
# Построить выпуклую оболочку точек на плоскости. Нарисовать график: точки и их выпуклая оболочка – замкнутая ломаная линия.
+
<!-- # Построить выпуклую оболочку точек на плоскости. Нарисовать график: точки и их выпуклая оболочка – замкнутая ломаная линия. -->
# Дана выборка: [http://archive.ics.uci.edu/ml/datasets/Iris ирисы Фишера]. Реализовать процедуру классификации методом решающего дерева. Проиллюстрировать результаты классификации на плоскости в пространстве двух признаков.
# Дана выборка: [http://archive.ics.uci.edu/ml/datasets/Iris ирисы Фишера]. Реализовать процедуру классификации методом решающего дерева. Проиллюстрировать результаты классификации на плоскости в пространстве двух признаков.
# Задан временной ряд – [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/TSForecasting/TimeSeries/Sources/tsEnergyConsumption.csv объемы почасового потребления электроэнергии] (выбрать любые два дня). Аппроксимировать ряд полиномиальными моделями различных степеней (1-7). *Предложить метод определения оптимальной степени полинома.
# Задан временной ряд – [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/TSForecasting/TimeSeries/Sources/tsEnergyConsumption.csv объемы почасового потребления электроэнергии] (выбрать любые два дня). Аппроксимировать ряд полиномиальными моделями различных степеней (1-7). *Предложить метод определения оптимальной степени полинома.
# Задано два одномерных [[Временной ряд (библиотека примеров) | временных ряда]] различной длины. Вычислить расстояние между рядами методом динамического выравнивания.
# Задано два одномерных [[Временной ряд (библиотека примеров) | временных ряда]] различной длины. Вычислить расстояние между рядами методом динамического выравнивания.
# Сгенерировать набор точек на плоскости. Выделить и визуализировать главные компоненты.
# Сгенерировать набор точек на плоскости. Выделить и визуализировать главные компоненты.
-
# Аппроксимировать выборку [https://dmba.svn.sourceforge.net/svnroot/dmba/Data/WhiteBreadPrices.csv цены на хлеб] полиномиальной моделью. Нарисовать график. Пометить объекты, являющиеся выбросами, используя правило трех сигм.
+
# Аппроксимировать выборку [https://dmba.svn.sourceforge.net/svnroot/dmba/Data/WhiteBreadPrices.csv цены на хлеб] полиномиальной моделью. Нарисовать график. Выделить объекты, являющиеся выбросами, используя правило трех сигм, и отметить их на графике.
-
# Разделить выборку [http://archive.ics.uci.edu/ml/datasets/Iris ирисы Фишера] на кластеры. Проиллюстрировать на графике результаты кластеризации, выделить кластеры разными цветами.
+
# Разделить выборку [http://archive.ics.uci.edu/ml/datasets/Iris ирисы Фишера] на кластеры. Проиллюстрировать на графиках результаты кластеризации для различного числа кластеров, выделить кластеры разными цветами.
-
# Дана выборка из нескольких признаков, без целевого вектора Y. Например, эта https://dmba.svn.sourceforge.net/svnroot/dmba/Data/Diabets_LARS.csv Требуется указать тот признак, который хорошо описывается (в терминах линейной регрессии) остальными (такой признак обычно исключают из выборки).
+
# Дана выборка из нескольких признаков, без целевого вектора Y. Например, эта https://dmba.svn.sourceforge.net/svnroot/dmba/Data/Diabets_LARS.csv Требуется указать тот признак, который хорошо описывается (в терминах линейной регрессии) остальными (такой признак обычно исключают из выборки). Предложить способ визуализации решения (например, с помощью ковариационной матрицы).
-
# Сгладить временной ряд [[Временной ряд (библиотека примеров)|(см. библиотеку)]] скользящим средним. Взять несколько окон разной длины и наложить результат на графике друг на друга.
+
# Сгладить временной ряд [[Временной ряд (библиотека примеров)|(см. библиотеку)]] скользящим средним. Взять несколько окон разной длины и изобразить результаты на одном рисунке.
-
# Сгладить временной ряд [[Временной ряд (библиотека примеров)|(см. библиотеку)]] скользящим средним. Взять несколько окон разной длины и наложить результат на графике друг на друга.
+
# Показать разницу в скорости выполнения матричных операций и операций в цикле. Можно использовать в качестве примера [[Сингулярное разложение]] и другие методы линейной алгебры. Показать эффективность параллельных вычислений (parfor). Результаты представить в виде диаграммы (bar chart).
-
# Показать разницу в скорости выполнения матричных операций и операций в цикле. Можно использовать в качестве примера [[Сингулярное разложение]] и другие методы линейной алгебры. Показать эффективность параллельных вычислений (parfor).
+
# Разобраться как работает суперпозиция функций. С помощью функции @ породить все возможные полиномы от n переменных степени не более p. Вариант: приблизить полученными полиномами временной ряд цен на хлеб [[Линейная регрессия (пример)|(данные)]].
# Разобраться как работает суперпозиция функций. С помощью функции @ породить все возможные полиномы от n переменных степени не более p. Вариант: приблизить полученными полиномами временной ряд цен на хлеб [[Линейная регрессия (пример)|(данные)]].
# Дан набор трехэлементных векторов. Первые два элемента нарисовать по осям абсцисс и ординат. Третий элемент отобразить как круг с пропорциональным радиусом. Пропорции подобрать исходя из чувства прекрасного. Сравнить полученный график с plot3. Что лучше?
# Дан набор трехэлементных векторов. Первые два элемента нарисовать по осям абсцисс и ординат. Третий элемент отобразить как круг с пропорциональным радиусом. Пропорции подобрать исходя из чувства прекрасного. Сравнить полученный график с plot3. Что лучше?
-
# Дан пятиэлементный вектор. Нарисовать [http://ru.wikipedia.org/wiki/%D0%9B%D0%B8%D1%86%D0%B0_%D0%A7%D0%B5%D1%80%D0%BD%D0%BE%D0%B2%D0%B0 лицо Чернова]. Что лучше - лицо Чернова или [https://www.google.com/search?q=%D0%9B%D0%B5%D0%BF%D0%B5%D1%81%D1%82%D0%BA%D0%BE%D0%B2%D0%B0%D1%8F+%D0%B4%D0%B8%D0%B0%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B0%3F&aq=f&oq=%D0%9B%D0%B5%D0%BF%D0%B5%D1%81%D1%82%D0%BA%D0%BE%D0%B2%D0%B0%D1%8F+%D0%B4%D0%B8%D0%B0%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B0%3F&aqs=chrome.0.57j0l3.7857&sourceid=chrome&ie=UTF-8 диаграмма]?
 
# Разобраться как работает regexp в Матлабе. Сделать код, который выделяет все, что находится внутри скобок некоторого арифметического выражения.
# Разобраться как работает regexp в Матлабе. Сделать код, который выделяет все, что находится внутри скобок некоторого арифметического выражения.
-
# Разобраться как работает суперпозиция функций. С помощью функции @ породить все возможные полиномы от n переменных степени не более p.
 
-
# Разобраться как работает web-соединение и regexp. Сделать поисковый запрос по теме и сверстать из нее запись BibTeX.
 
# Дан временной ряд из m + 1 (случайных) точек. Приблизить m его первых точек полиномами степени от 1 до m. Вычислить среднюю ошибку в точках. Какая степень дает наибольшую ошибку?
# Дан временной ряд из m + 1 (случайных) точек. Приблизить m его первых точек полиномами степени от 1 до m. Вычислить среднюю ошибку в точках. Какая степень дает наибольшую ошибку?
-
# Повернуть и увеличить плоскую фигуру, сделать эффект приближения с вращением по кадрам.
+
# Предложить способы визуализации наборов четырехмерных векторов, например для [http://archive.ics.uci.edu/ml/datasets/Iris Fisher's iris data].
-
# Заданы две матрицы. Проверить, есть ли в них пересечение – подматрица?
+
<!-- # Заданы две матрицы. Проверить, есть ли в них пересечение – подматрица? -->
-
# Дана выборка из нескольких признаков, без целевого вектора Y. Например, эта https://dmba.svn.sourceforge.net/svnroot/dmba/Data/Diabets_LARS.csv Требуется указать тот признак, который хорошо описывается (в терминах линейной регрессии) остальными (такой признак обычно исключают из выборки).
+
# Дана выборка, в которой есть несколько выбросов. Известно, что она может быть описана одномерной линейной регрессией. Требуется переборным путем найти выбросы. Показать их на графике.
# Дана выборка, в которой есть несколько выбросов. Известно, что она может быть описана одномерной линейной регрессией. Требуется переборным путем найти выбросы. Показать их на графике.
# Дана выборка из двух классов на плоскости. Требуется найти все объекты, которые залезли в чужой класс. Показать их на графике.
# Дана выборка из двух классов на плоскости. Требуется найти все объекты, которые залезли в чужой класс. Показать их на графике.
-
# На вход подается матрица инцидентности дерева. Функция возвращает список (вектор) вершин в порядке их посещения.
+
<!-- # На вход подается матрица инцидентности дерева. Функция возвращает список (вектор) вершин в порядке их посещения. -->
-
# Классифицировать цветы ириса произвольным алгоритмом, нарисовать на плоскости «самую наглядную» пару признаков, указать, что классифицировалось правильно, а что – нет.
+
<!-- # Классифицировать цветы ириса произвольным алгоритмом, нарисовать на плоскости «самую наглядную» пару признаков, указать, что классифицировалось правильно, а что – нет. -->
-
# Дан временной ряд. По его вариационному ряду построить гистограмму из n перцентилей, нарисовать ее. Какое значение временного ряда встречается чаще всего?
+
<!-- # Дан временной ряд. По его вариационному ряду построить гистограмму из n перцентилей, нарисовать ее. Какое значение временного ряда встречается чаще всего? -->

Версия 16:22, 11 февраля 2015

Решение каждой задачи должно быть визуализировано, все рисунки необходимо кратко описать.

  1. Построить методом наименьших модулей уравнение регрессии 2ой степени по результатом опытов, данные прилагаются (x1,x2,x3 - переменные факторы, N - отклик). Вариант: сравнить с методом наименьших квадратов, построив на одном рисунке 2 графика (по оси абсцисс - истинные отклики, по оси ординат - результаты моделирования с помощью МНМ и МНК)
  2. Дана выборка "Вина различных регионов". Требуется определить кластеры (регионы происхождения вин) и нарисовать результат: цветной точкой обозначен объект кластера; цветным кружком обозначен класс этого объекта, взятый из выборки. Вариант задания: определить число кластеров. Вариант задания: использовать два алгоритма, например k-means и EM, и показать сравнение результатов кластеризации на графике.
  3. Дан временной ряд, описывающий потребление электричества. Приблизить ряд несколькими криволинейными моделями и нарисовать спрогнозированные и исходный ряды на одном графике.
  4. Сгладить временной ряд Цены (объемы) на основные биржевые инструменты методом экспоненциального сглаживания. Нарисовать цветные графики сглаженных с различным  \alpha рядов и исходного ряда.
  5. Аппроксимация выборки замкнутой кривой [1]: проверить, лежат ли точки на окружности? Сгенерировать данные самостоятельно. Построить графики для случая когда точки лежат на окружности и нет, на графиках изобразить выборку и аппроксимирующую окружность.
  6. Дан временной ряд с пропусками, например [2]. Предложить способы заполнения пропусков в данных, заполнить пропуски. Для каждого способа построить гистограмму. Вариант: взять выборку без пропусков, удалить случайным образом часть данных, заполнить пропуски, сравнить гистограмму восстановленной выборки с гистограммой исходной выборки.
  7. Дана выборка "Вина различных регионов". Выбрать два признака. Рассмотреть различные функции расстояния при классификации с помощью метода ближайшего соседа. Для каждой изобразить результат классификации в пространстве выбранных признаков.
  8. Для различных видов зависимости  y = f(x) + \epsilon (линейная, квадратичная, логарифмическая) построить линейную регрессию и нарисовать на графике SSE-отклонения (среднеквадратичные отклонения). Данные сгенерировать самостоятельно или взять данные "Цена на хлеб".
  9. Оценить площадь единичного круга методом Монте-Карло. Построить график зависимости результата от размера выборки.
  10. Дана выборка: ирисы Фишера. Реализовать процедуру классификации методом решающего дерева. Проиллюстрировать результаты классификации на плоскости в пространстве двух признаков.
  11. Задан временной ряд – объемы почасового потребления электроэнергии (выбрать любые два дня). Аппроксимировать ряд полиномиальными моделями различных степеней (1-7). *Предложить метод определения оптимальной степени полинома.
  12. Задано два одномерных временных ряда различной длины. Вычислить расстояние между рядами методом динамического выравнивания.
  13. Сгенерировать набор точек на плоскости. Выделить и визуализировать главные компоненты.
  14. Аппроксимировать выборку цены на хлеб полиномиальной моделью. Нарисовать график. Выделить объекты, являющиеся выбросами, используя правило трех сигм, и отметить их на графике.
  15. Разделить выборку ирисы Фишера на кластеры. Проиллюстрировать на графиках результаты кластеризации для различного числа кластеров, выделить кластеры разными цветами.
  16. Дана выборка из нескольких признаков, без целевого вектора Y. Например, эта https://dmba.svn.sourceforge.net/svnroot/dmba/Data/Diabets_LARS.csv Требуется указать тот признак, который хорошо описывается (в терминах линейной регрессии) остальными (такой признак обычно исключают из выборки). Предложить способ визуализации решения (например, с помощью ковариационной матрицы).
  17. Сгладить временной ряд (см. библиотеку) скользящим средним. Взять несколько окон разной длины и изобразить результаты на одном рисунке.
  18. Показать разницу в скорости выполнения матричных операций и операций в цикле. Можно использовать в качестве примера Сингулярное разложение и другие методы линейной алгебры. Показать эффективность параллельных вычислений (parfor). Результаты представить в виде диаграммы (bar chart).
  19. Разобраться как работает суперпозиция функций. С помощью функции @ породить все возможные полиномы от n переменных степени не более p. Вариант: приблизить полученными полиномами временной ряд цен на хлеб (данные).
  20. Дан набор трехэлементных векторов. Первые два элемента нарисовать по осям абсцисс и ординат. Третий элемент отобразить как круг с пропорциональным радиусом. Пропорции подобрать исходя из чувства прекрасного. Сравнить полученный график с plot3. Что лучше?
  21. Разобраться как работает regexp в Матлабе. Сделать код, который выделяет все, что находится внутри скобок некоторого арифметического выражения.
  22. Дан временной ряд из m + 1 (случайных) точек. Приблизить m его первых точек полиномами степени от 1 до m. Вычислить среднюю ошибку в точках. Какая степень дает наибольшую ошибку?
  23. Предложить способы визуализации наборов четырехмерных векторов, например для Fisher's iris data.
  24. Дана выборка, в которой есть несколько выбросов. Известно, что она может быть описана одномерной линейной регрессией. Требуется переборным путем найти выбросы. Показать их на графике.
  25. Дана выборка из двух классов на плоскости. Требуется найти все объекты, которые залезли в чужой класс. Показать их на графике.
Личные инструменты