Пробные задачи
Материал из MachineLearning.
(Различия между версиями)
(Новая: {{Main|Численные методы обучения по прецедентам (практика, В.В. Стрижов)}} # Построить методом наименьших...) |
м |
||
Строка 1: | Строка 1: | ||
{{Main|Численные методы обучения по прецедентам (практика, В.В. Стрижов)}} | {{Main|Численные методы обучения по прецедентам (практика, В.В. Стрижов)}} | ||
+ | Решение каждой задачи должно быть визуализировано, все рисунки необходимо кратко описать. | ||
- | # Построить методом наименьших модулей уравнение регрессии 2ой степени по результатом опытов, | + | # Построить методом наименьших модулей уравнение регрессии 2ой степени по результатом опытов, данные [[Media:Опыт №7.3 21.10.14.txt.zip|прилагаются]] (x1,x2,x3 - переменные факторы, N - отклик). Вариант: сравнить с методом наименьших квадратов, построив на одном рисунке 2 графика (по оси абсцисс - истинные отклики, по оси ординат - результаты моделирования с помощью МНМ и МНК) |
# Дана выборка [http://archive.ics.uci.edu/ml/datasets/Wine "Вина различных регионов"]. Требуется определить кластеры (регионы происхождения вин) и нарисовать результат: цветной точкой обозначен объект кластера; цветным кружком обозначен класс этого объекта, взятый из выборки. Вариант задания: определить число кластеров. Вариант задания: использовать два алгоритма, например k-means и EM, и показать сравнение результатов кластеризации на графике. | # Дана выборка [http://archive.ics.uci.edu/ml/datasets/Wine "Вина различных регионов"]. Требуется определить кластеры (регионы происхождения вин) и нарисовать результат: цветной точкой обозначен объект кластера; цветным кружком обозначен класс этого объекта, взятый из выборки. Вариант задания: определить число кластеров. Вариант задания: использовать два алгоритма, например k-means и EM, и показать сравнение результатов кластеризации на графике. | ||
- | |||
# Дан временной [http://archive.ics.uci.edu/ml/datasets/Individual+household+electric+power+consumption ряд], описывающий потребление электричества. Приблизить ряд несколькими [[Линейная регрессия (пример)| криволинейными моделями]] и нарисовать спрогнозированные и исходный ряды на одном графике. | # Дан временной [http://archive.ics.uci.edu/ml/datasets/Individual+household+electric+power+consumption ряд], описывающий потребление электричества. Приблизить ряд несколькими [[Линейная регрессия (пример)| криволинейными моделями]] и нарисовать спрогнозированные и исходный ряды на одном графике. | ||
# Сгладить временной ряд [[Временной ряд (библиотека примеров)|Цены (объемы) на основные биржевые инструменты]] методом [[Экспоненциальное сглаживание| экспоненциального сглаживания]]. Нарисовать цветные графики сглаженных с различным <tex> \alpha </tex> рядов и исходного ряда. | # Сгладить временной ряд [[Временной ряд (библиотека примеров)|Цены (объемы) на основные биржевые инструменты]] методом [[Экспоненциальное сглаживание| экспоненциального сглаживания]]. Нарисовать цветные графики сглаженных с различным <tex> \alpha </tex> рядов и исходного ряда. | ||
- | # Аппроксимация выборки замкнутой кривой [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group874/Group874Essay/Group874Essay.pdf?format=raw]: проверить, лежат ли точки на окружности? Сгенерировать данные самостоятельно. | + | # Аппроксимация выборки замкнутой кривой [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group874/Group874Essay/Group874Essay.pdf?format=raw]: проверить, лежат ли точки на окружности? Сгенерировать данные самостоятельно. Построить графики для случая когда точки лежат на окружности и нет, на графиках изобразить выборку и аппроксимирующую окружность. |
- | # Дан временной ряд с пропусками, например [http://archive.ics.uci.edu/ml/datasets/Gas+Sensor+Array+Drift+Dataset+at+Different+Concentrations]. Предложить способы заполнения пропусков в данных, заполнить пропуски. Для каждого способа построить гистограмму. Вариант: взять выборку без пропусков, удалить случайным образом часть данных, заполнить пропуски, сравнить с гистограммой исходной выборки. | + | # Дан временной ряд с пропусками, например [http://archive.ics.uci.edu/ml/datasets/Gas+Sensor+Array+Drift+Dataset+at+Different+Concentrations]. Предложить способы заполнения пропусков в данных, заполнить пропуски. Для каждого способа построить гистограмму. Вариант: взять выборку без пропусков, удалить случайным образом часть данных, заполнить пропуски, сравнить гистограмму восстановленной выборки с гистограммой исходной выборки. |
# Дана выборка [http://archive.ics.uci.edu/ml/datasets/Wine "Вина различных регионов"]. Выбрать два признака. Рассмотреть различные функции расстояния при классификации с помощью [[Метод ближайших соседей| метода ближайшего соседа]]. Для каждой изобразить результат классификации в пространстве выбранных признаков. | # Дана выборка [http://archive.ics.uci.edu/ml/datasets/Wine "Вина различных регионов"]. Выбрать два признака. Рассмотреть различные функции расстояния при классификации с помощью [[Метод ближайших соседей| метода ближайшего соседа]]. Для каждой изобразить результат классификации в пространстве выбранных признаков. | ||
- | # Для различных видов зависимости <tex> y = f(x) + \epsilon </tex> (линейная, квадратичная, логарифмическая) построить [[Линейная регрессия (пример)| линейную регрессию]] и нарисовать на графике SSE-отклонения (среднеквадратичные отклонения | + | # Для различных видов зависимости <tex> y = f(x) + \epsilon </tex> (линейная, квадратичная, логарифмическая) построить [[Линейная регрессия (пример)| линейную регрессию]] и нарисовать на графике SSE-отклонения (среднеквадратичные отклонения). Данные сгенерировать самостоятельно или взять данные "Цена на хлеб". |
# Оценить площадь единичного круга методом Монте-Карло. Построить график зависимости результата от размера выборки. | # Оценить площадь единичного круга методом Монте-Карло. Построить график зависимости результата от размера выборки. | ||
- | # Построить выпуклую оболочку точек на плоскости. Нарисовать график: точки и их выпуклая оболочка – замкнутая ломаная линия. | + | <!-- # Построить выпуклую оболочку точек на плоскости. Нарисовать график: точки и их выпуклая оболочка – замкнутая ломаная линия. --> |
# Дана выборка: [http://archive.ics.uci.edu/ml/datasets/Iris ирисы Фишера]. Реализовать процедуру классификации методом решающего дерева. Проиллюстрировать результаты классификации на плоскости в пространстве двух признаков. | # Дана выборка: [http://archive.ics.uci.edu/ml/datasets/Iris ирисы Фишера]. Реализовать процедуру классификации методом решающего дерева. Проиллюстрировать результаты классификации на плоскости в пространстве двух признаков. | ||
# Задан временной ряд – [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/TSForecasting/TimeSeries/Sources/tsEnergyConsumption.csv объемы почасового потребления электроэнергии] (выбрать любые два дня). Аппроксимировать ряд полиномиальными моделями различных степеней (1-7). *Предложить метод определения оптимальной степени полинома. | # Задан временной ряд – [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/TSForecasting/TimeSeries/Sources/tsEnergyConsumption.csv объемы почасового потребления электроэнергии] (выбрать любые два дня). Аппроксимировать ряд полиномиальными моделями различных степеней (1-7). *Предложить метод определения оптимальной степени полинома. | ||
# Задано два одномерных [[Временной ряд (библиотека примеров) | временных ряда]] различной длины. Вычислить расстояние между рядами методом динамического выравнивания. | # Задано два одномерных [[Временной ряд (библиотека примеров) | временных ряда]] различной длины. Вычислить расстояние между рядами методом динамического выравнивания. | ||
# Сгенерировать набор точек на плоскости. Выделить и визуализировать главные компоненты. | # Сгенерировать набор точек на плоскости. Выделить и визуализировать главные компоненты. | ||
- | # Аппроксимировать выборку [https://dmba.svn.sourceforge.net/svnroot/dmba/Data/WhiteBreadPrices.csv цены на хлеб] полиномиальной моделью. Нарисовать график. | + | # Аппроксимировать выборку [https://dmba.svn.sourceforge.net/svnroot/dmba/Data/WhiteBreadPrices.csv цены на хлеб] полиномиальной моделью. Нарисовать график. Выделить объекты, являющиеся выбросами, используя правило трех сигм, и отметить их на графике. |
- | # Разделить выборку [http://archive.ics.uci.edu/ml/datasets/Iris ирисы Фишера] на кластеры. Проиллюстрировать на | + | # Разделить выборку [http://archive.ics.uci.edu/ml/datasets/Iris ирисы Фишера] на кластеры. Проиллюстрировать на графиках результаты кластеризации для различного числа кластеров, выделить кластеры разными цветами. |
- | # Дана выборка из нескольких признаков, без целевого вектора Y. Например, эта https://dmba.svn.sourceforge.net/svnroot/dmba/Data/Diabets_LARS.csv Требуется указать тот признак, который хорошо описывается (в терминах линейной регрессии) остальными (такой признак обычно исключают из выборки). | + | # Дана выборка из нескольких признаков, без целевого вектора Y. Например, эта https://dmba.svn.sourceforge.net/svnroot/dmba/Data/Diabets_LARS.csv Требуется указать тот признак, который хорошо описывается (в терминах линейной регрессии) остальными (такой признак обычно исключают из выборки). Предложить способ визуализации решения (например, с помощью ковариационной матрицы). |
- | + | # Сгладить временной ряд [[Временной ряд (библиотека примеров)|(см. библиотеку)]] скользящим средним. Взять несколько окон разной длины и изобразить результаты на одном рисунке. | |
- | # Сгладить временной ряд [[Временной ряд (библиотека примеров)|(см. библиотеку)]] скользящим средним. Взять несколько окон разной длины и | + | # Показать разницу в скорости выполнения матричных операций и операций в цикле. Можно использовать в качестве примера [[Сингулярное разложение]] и другие методы линейной алгебры. Показать эффективность параллельных вычислений (parfor). Результаты представить в виде диаграммы (bar chart). |
- | # Показать разницу в скорости выполнения матричных операций и операций в цикле. Можно использовать в качестве примера [[Сингулярное разложение]] и другие методы линейной алгебры. Показать эффективность параллельных вычислений (parfor). | + | |
# Разобраться как работает суперпозиция функций. С помощью функции @ породить все возможные полиномы от n переменных степени не более p. Вариант: приблизить полученными полиномами временной ряд цен на хлеб [[Линейная регрессия (пример)|(данные)]]. | # Разобраться как работает суперпозиция функций. С помощью функции @ породить все возможные полиномы от n переменных степени не более p. Вариант: приблизить полученными полиномами временной ряд цен на хлеб [[Линейная регрессия (пример)|(данные)]]. | ||
# Дан набор трехэлементных векторов. Первые два элемента нарисовать по осям абсцисс и ординат. Третий элемент отобразить как круг с пропорциональным радиусом. Пропорции подобрать исходя из чувства прекрасного. Сравнить полученный график с plot3. Что лучше? | # Дан набор трехэлементных векторов. Первые два элемента нарисовать по осям абсцисс и ординат. Третий элемент отобразить как круг с пропорциональным радиусом. Пропорции подобрать исходя из чувства прекрасного. Сравнить полученный график с plot3. Что лучше? | ||
- | |||
# Разобраться как работает regexp в Матлабе. Сделать код, который выделяет все, что находится внутри скобок некоторого арифметического выражения. | # Разобраться как работает regexp в Матлабе. Сделать код, который выделяет все, что находится внутри скобок некоторого арифметического выражения. | ||
- | |||
- | |||
# Дан временной ряд из m + 1 (случайных) точек. Приблизить m его первых точек полиномами степени от 1 до m. Вычислить среднюю ошибку в точках. Какая степень дает наибольшую ошибку? | # Дан временной ряд из m + 1 (случайных) точек. Приблизить m его первых точек полиномами степени от 1 до m. Вычислить среднюю ошибку в точках. Какая степень дает наибольшую ошибку? | ||
- | # | + | # Предложить способы визуализации наборов четырехмерных векторов, например для [http://archive.ics.uci.edu/ml/datasets/Iris Fisher's iris data]. |
- | # Заданы две матрицы. Проверить, есть ли в них пересечение – подматрица? | + | <!-- # Заданы две матрицы. Проверить, есть ли в них пересечение – подматрица? --> |
- | + | ||
# Дана выборка, в которой есть несколько выбросов. Известно, что она может быть описана одномерной линейной регрессией. Требуется переборным путем найти выбросы. Показать их на графике. | # Дана выборка, в которой есть несколько выбросов. Известно, что она может быть описана одномерной линейной регрессией. Требуется переборным путем найти выбросы. Показать их на графике. | ||
# Дана выборка из двух классов на плоскости. Требуется найти все объекты, которые залезли в чужой класс. Показать их на графике. | # Дана выборка из двух классов на плоскости. Требуется найти все объекты, которые залезли в чужой класс. Показать их на графике. | ||
- | # На вход подается матрица инцидентности дерева. Функция возвращает список (вектор) вершин в порядке их посещения. | + | <!-- # На вход подается матрица инцидентности дерева. Функция возвращает список (вектор) вершин в порядке их посещения. --> |
- | # Классифицировать цветы ириса произвольным алгоритмом, нарисовать на плоскости «самую наглядную» пару признаков, указать, что классифицировалось правильно, а что – нет. | + | <!-- # Классифицировать цветы ириса произвольным алгоритмом, нарисовать на плоскости «самую наглядную» пару признаков, указать, что классифицировалось правильно, а что – нет. --> |
- | # Дан временной ряд. По его вариационному ряду построить гистограмму из n перцентилей, нарисовать ее. Какое значение временного ряда встречается чаще всего? | + | <!-- # Дан временной ряд. По его вариационному ряду построить гистограмму из n перцентилей, нарисовать ее. Какое значение временного ряда встречается чаще всего? --> |
Версия 16:22, 11 февраля 2015
Решение каждой задачи должно быть визуализировано, все рисунки необходимо кратко описать.
- Построить методом наименьших модулей уравнение регрессии 2ой степени по результатом опытов, данные прилагаются (x1,x2,x3 - переменные факторы, N - отклик). Вариант: сравнить с методом наименьших квадратов, построив на одном рисунке 2 графика (по оси абсцисс - истинные отклики, по оси ординат - результаты моделирования с помощью МНМ и МНК)
- Дана выборка "Вина различных регионов". Требуется определить кластеры (регионы происхождения вин) и нарисовать результат: цветной точкой обозначен объект кластера; цветным кружком обозначен класс этого объекта, взятый из выборки. Вариант задания: определить число кластеров. Вариант задания: использовать два алгоритма, например k-means и EM, и показать сравнение результатов кластеризации на графике.
- Дан временной ряд, описывающий потребление электричества. Приблизить ряд несколькими криволинейными моделями и нарисовать спрогнозированные и исходный ряды на одном графике.
- Сгладить временной ряд Цены (объемы) на основные биржевые инструменты методом экспоненциального сглаживания. Нарисовать цветные графики сглаженных с различным рядов и исходного ряда.
- Аппроксимация выборки замкнутой кривой [1]: проверить, лежат ли точки на окружности? Сгенерировать данные самостоятельно. Построить графики для случая когда точки лежат на окружности и нет, на графиках изобразить выборку и аппроксимирующую окружность.
- Дан временной ряд с пропусками, например [2]. Предложить способы заполнения пропусков в данных, заполнить пропуски. Для каждого способа построить гистограмму. Вариант: взять выборку без пропусков, удалить случайным образом часть данных, заполнить пропуски, сравнить гистограмму восстановленной выборки с гистограммой исходной выборки.
- Дана выборка "Вина различных регионов". Выбрать два признака. Рассмотреть различные функции расстояния при классификации с помощью метода ближайшего соседа. Для каждой изобразить результат классификации в пространстве выбранных признаков.
- Для различных видов зависимости (линейная, квадратичная, логарифмическая) построить линейную регрессию и нарисовать на графике SSE-отклонения (среднеквадратичные отклонения). Данные сгенерировать самостоятельно или взять данные "Цена на хлеб".
- Оценить площадь единичного круга методом Монте-Карло. Построить график зависимости результата от размера выборки.
- Дана выборка: ирисы Фишера. Реализовать процедуру классификации методом решающего дерева. Проиллюстрировать результаты классификации на плоскости в пространстве двух признаков.
- Задан временной ряд – объемы почасового потребления электроэнергии (выбрать любые два дня). Аппроксимировать ряд полиномиальными моделями различных степеней (1-7). *Предложить метод определения оптимальной степени полинома.
- Задано два одномерных временных ряда различной длины. Вычислить расстояние между рядами методом динамического выравнивания.
- Сгенерировать набор точек на плоскости. Выделить и визуализировать главные компоненты.
- Аппроксимировать выборку цены на хлеб полиномиальной моделью. Нарисовать график. Выделить объекты, являющиеся выбросами, используя правило трех сигм, и отметить их на графике.
- Разделить выборку ирисы Фишера на кластеры. Проиллюстрировать на графиках результаты кластеризации для различного числа кластеров, выделить кластеры разными цветами.
- Дана выборка из нескольких признаков, без целевого вектора Y. Например, эта https://dmba.svn.sourceforge.net/svnroot/dmba/Data/Diabets_LARS.csv Требуется указать тот признак, который хорошо описывается (в терминах линейной регрессии) остальными (такой признак обычно исключают из выборки). Предложить способ визуализации решения (например, с помощью ковариационной матрицы).
- Сгладить временной ряд (см. библиотеку) скользящим средним. Взять несколько окон разной длины и изобразить результаты на одном рисунке.
- Показать разницу в скорости выполнения матричных операций и операций в цикле. Можно использовать в качестве примера Сингулярное разложение и другие методы линейной алгебры. Показать эффективность параллельных вычислений (parfor). Результаты представить в виде диаграммы (bar chart).
- Разобраться как работает суперпозиция функций. С помощью функции @ породить все возможные полиномы от n переменных степени не более p. Вариант: приблизить полученными полиномами временной ряд цен на хлеб (данные).
- Дан набор трехэлементных векторов. Первые два элемента нарисовать по осям абсцисс и ординат. Третий элемент отобразить как круг с пропорциональным радиусом. Пропорции подобрать исходя из чувства прекрасного. Сравнить полученный график с plot3. Что лучше?
- Разобраться как работает regexp в Матлабе. Сделать код, который выделяет все, что находится внутри скобок некоторого арифметического выражения.
- Дан временной ряд из m + 1 (случайных) точек. Приблизить m его первых точек полиномами степени от 1 до m. Вычислить среднюю ошибку в точках. Какая степень дает наибольшую ошибку?
- Предложить способы визуализации наборов четырехмерных векторов, например для Fisher's iris data.
- Дана выборка, в которой есть несколько выбросов. Известно, что она может быть описана одномерной линейной регрессией. Требуется переборным путем найти выбросы. Показать их на графике.
- Дана выборка из двух классов на плоскости. Требуется найти все объекты, которые залезли в чужой класс. Показать их на графике.