Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 774, весна 2010

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Задачи)
(Задачи)
Строка 13: Строка 13:
| [[SVM для линейно разделимой выборки (пример)]]
| [[SVM для линейно разделимой выборки (пример)]]
| Морозов Алексей
| Морозов Алексей
-
| Корниенко
+
| Корниенко, Сунгуров
|
|
|-
|-

Версия 03:21, 29 апреля 2010

Численные методы обучения по прецедентам (программа курса)

Пожалуйста, ставтье в конец статьи плашку {{Задание|Имя исполнителя|В.В. Стрижов|28 мая 2010}}.


Коллеги, чьи файлы лежат в корне mlalgorithms? Уберите, пожалуйста.


Задачи

Название алгоритма Работу выполняет Работу рецензируют Дата зачета
SVM для линейно разделимой выборки (пример) Морозов Алексей Корниенко, Сунгуров
SVM для линейно неразделимой выборки (пример) Сечин Павел Кузнецов, Савинов
SVM регрессия (пример) Корниенко Алексей
Прореживание двухслойной нейронной сети (пример) Кузнецов Михаил Сечин, Савинов
Выбор признаков с помощью генетических алгоритмов (пример) Савинов Николай Мафусалов, Кузнецов
Однослойные сети RBF для решения задач регрессии (пример) Кононенко Даниил Сечин, Фирстенко
Анализ регрессионных остатков (пример) Ивкин Никита
Анализ мультиколлинеарности (пример) Сунгуров Дмитрий
Шаговая регрессия (пример) Джамтырова Раиса Мафусалов
Прогнозирование временных рядов методом SSA (пример) Фадеев Илья Кононенко, Фирстенко
Аппроксимация Лапласа (пример) Зайцев Евгений
Символьная регрессия и структурное расстояние между моделями (пример) Фирстенко Александр Фадеев, Кононенко
Порождение нелинейных регрессионных моделей (пример) Мафусалов Александр
Сравнение стратегий метода группового учета аргументов (пример)
Упрощение допустимых суперпозиций (пример) Быстрый Роман
Группировка категорий и сегментация признаков в логистической регрессии (пример)
Интерфейс “Матлаб – Полигон”

Решить задачу разделения двух классов в пространстве малой размерности методом SVM для линейно разделимой выборки. Исследовать устойчивость алгоритма: зависимость параметров разделяющей гиперплоскости от дисперсии случайной переменной или наличия выбросов.

Решить задачу разделения двух классов в пространстве малой размерности метдом SVM для линейно неразделимой выборки. В этом случае предлагается использовать несколько различных ядер. Для синтетических данных - двух классов, каждый из которых состоит из смеси гауссовых распределений, подобрать оптимальное ядро.

Решить задачу восстановления регрессии методом SVM. Исследовать зависимость евклидовой нормы вектора параметров от дисперсии случайной величины. Использовать несколько функций распределения. Визуализировать эту зависимость. Визуализировать функцию потерь.

Решить задачу восстановления регрессии с использованием двухслойной нейронной сети. Методом оптимального прореживания нейронных сетей вычислить функцию выпуклости. Исследовать закономерности изменения параметров нейронной сети в процессе прореживания.

Решить задачу восстановления линейной регрессии с разделением выборки на обучающую и тестовую. Использовать и сравнить несколько стратегий генетических алгоритмов при выборе признаков линейной регрессионной модели. Исследовать скорость сходимости каждого из алгоритмов в зависимости от параметров.

Решить задачу восстановления регрессии с использованием сетей RBF. Для настройки сетей использовать EM-алгоритм с добавлением. Исследовать зависимость дисперсии компонент от дисперсии зависимой переменной. Исследовать зависимость дисперсии компонент от их числа.

Решить задачу восстановления линейной регрессии с помощью МНК. Создать инструмент анализа регрессионных остатков. Создать инструмент исследования значимости признаков. Исследовать поведение регрессионных остатков для гетероскедаксичного случая. Нарисовать доверительные интервалы восстановленной зависимой переменной.

Решить задачу восстановления линейной регрессии с помощью МНК. Создать инструмент исследования мультиколлинеарности признаков (методики VIF, Belsley). Исследовать устойчивость модели: зависимость параметров модели от дисперсии случайной переменной и выбросов в выборке. Проанализировать результаты исследования с точки зрения VIF, Belsley.

Решить задачу выбора признаков восстановления логистической регрессии с помощью метода LARS. Сравнить этот метод и метод шаговой регрессии. Исследовать поведение LARS в разных случаях мультикоррелирующих признаков.

Создать алгоритм прогнозирования многомерных временных рядов методом "Гусеница". Исследовать поведение алгоритма при наличии выбросов во временных рядах. Исследовать поведение алгоритма в случае нарушения периодичности временного ряда.

Для нескольких регрессионных моделей создать процедуру сэмплирования и визуализации пространства параметров. Построить аппроксимацию Лапласа. Исследовать зависимость дисперсии параметров модели от дисперсии случайной величины - зависимой переменной.

Решить задачу символьной регрессии. Ввести функцию структурного расстояния между моделями (например, ввести расстояние между размеченными графами). Исследовать поведение вектора парных расстояний между моделями популяции.

Задан набор порождающих функций двух аргументов (функции одного аргумента считать частным случаем). Функции гладкие параметрические. Требуется создать алгоритм, порождающий лексикографически упорядоченные суперпозиции возрастающей сложности. Каждая суперпозиция является регрессионной моделью одной независимой переменной. Сравнить качество моделей и регрессионные остатки на порожденном множестве.

Решить задачу регрессии нескольких независимых переменных. Использовать для решения несколько различных реализаций МГУА и полиномиальных нейронных сетей. Для выбранного набора данных построить ряд графиков, иллюстрирующих качество полученных моделей (ошибка на тесте и обучении, информационные критерии, мультиколлинеарность).

Задано произвольное множество порождающих функций одного или двух аргументов. (возможно, задано правило построения допустимых супераозиций). Некоторое подмножество функций образует полугруппу. Требуется построить алгоритм, упрощающий структуру суперпозиции.

Сравнить различные способы категоризации номинальных и порядковых признаков и сегментации линейных признаков при решении задач логистической регрессии. Использовать данные German UCI. Вычислить их статистики (статистическая значимость, AUC, и др.) производных признаков и сравнить их.

Разработать (по предложенным рекомендациям) интерфейс вышеперечисленных алгоритмов регрессии и классификации к системе Полигон. Протестировать интерфейс на тестовых задачах. Подготовить методические рекомендации. Собрать и подготовить реальные данные для решения задач регрессии и классификации для тестирования алгоритмов.

Экзамен

22, 29 апреля и 6 мая

Личные инструменты