Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 474, осень 2017

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Результаты)
(Результаты)
 
(131 промежуточная версия не показана)
Строка 23: Строка 23:
! Тема научной работы
! Тема научной работы
! Ссылка
! Ссылка
-
! Консультант
+
! Руководитель
! Рецензент
! Рецензент
! Буквы
! Буквы
Строка 39: Строка 39:
|-
|-
|[[Участник:Alvant|Алексеев Василий]]
|[[Участник:Alvant|Алексеев Василий]]
 +
|Выявление и отслеживание тем в новостном потоке
 +
|[http://svn.code.sf.net/p/mlalgorithms/code/Group474/Alekseev2017TopicTracking folder]
 +
[http://svn.code.sf.net/p/mlalgorithms/code/Group474/Alekseev2017TopicTracking/doc/systemdocs/Alekseev2017Systemdocs.pdf sysdoc]
 +
[http://svn.code.sf.net/p/mlalgorithms/code/Group474/Alekseev2017TopicTracking/doc/sphinx/build/index.html codedoc]
 +
[http://svn.code.sf.net/p/mlalgorithms/code/Group474/Alekseev2017TopicTracking/doc/slides/Alekseev2017Slides.pdf slides]
 +
|[[Участник: vokov|К.В. Воронцов]]
|
|
-
|
+
|BM
-
|
+
|MADLSAIFC(UT-)RNS(PV0)
-
|
+
-
|
+
-
|M>A>
+
|-
|-
|[[Участник:Dmitriy_Anikeyev|Аникеев Дмитрий]]
|[[Участник:Dmitriy_Anikeyev|Аникеев Дмитрий]]
 +
|Неточный поиск заимствований
 +
|[https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group474/Anikeyev2017FuzzySearch/F-Talk.pdf?format=raw Slides]
 +
[https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group474/Anikeyev2017FuzzySearch/IDEF/ IDEF0]
 +
|[[Участник:Yury_Chekhovich|Ю.В. Чехович]]
|
|
-
|
+
|BMF
-
|
+
|M>A>(DLSAIF0)
-
|
+
-
|
+
-
|
+
|-
|-
|[[Участник: Гасанов Эльнур|Гасанов Эльнур]]
|[[Участник: Гасанов Эльнур|Гасанов Эльнур]]
 +
|Нейросетевые модели для анализа кортикограмм
 +
|[http://svn.code.sf.net/p/mlalgorithms/code/Group474/Gasanov2017ConnectionistModels/ folder]
 +
[http://svn.code.sf.net/p/mlalgorithms/code/Group474/Gasanov2017ConnectionistModels/doc/Gasanov2017Systemdocs.pdf sysdoc]
 +
[http://svn.code.sf.net/p/mlalgorithms/code/Group474/Gasanov2017ConnectionistModels/code code]
 +
[http://svn.code.sf.net/p/mlalgorithms/code/Group474/Gasanov2017ConnectionistModels/doc/idef/Informative IDEF0]
 +
[http://svn.code.sf.net/p/mlalgorithms/code/Group474/Gasanov2017ConnectionistModels/doc/ProblemStatement.pdf problem]
 +
[http://svn.code.sf.net/p/mlalgorithms/code/Group474/Gasanov2017ConnectionistModels/doc/slides.pdf slides]
 +
 +
|[[Участник: Strijov|В.В. Стрижов]]
|
|
 +
|BM
 +
|MADLSAIFCUTP0RNSV0
 +
|-
 +
|[[Участник: Zachanton|Захаренков Антон]]
 +
|Порождение моделей методами структурного обучения
 +
|[http://svn.code.sf.net/p/mlalgorithms/code/Group474/Zakharenkov2017StructureLearning/ folder]
 +
[http://svn.code.sf.net/p/mlalgorithms/code/Group474/Zakharenkov2017StructureLearning/code code]
 +
[http://svn.code.sf.net/p/mlalgorithms/code/Group474/Zakharenkov2017StructureLearning/doc doc]
 +
[http://svn.code.sf.net/p/mlalgorithms/code/Group474/Zakharenkov2017StructureLearning/doc/idef0.rsf idef0]
 +
|[[Участник: Strijov|В.В. Стрижов]]
|
|
-
|
+
|B0
 +
|M>A>(DLSAIF0)
 +
|-
 +
|Кубентаева Самал
 +
|Эффективные численные методы решения задачи PageRank для дважды разреженных матриц
 +
|[https://drive.google.com/file/d/1HpNOp_0uaeLdaxcgKIdv6v6HaZqlzOmA/view problem]
 +
|Ю.В. Максимов
|
|
|
|
|
|
|-
|-
-
|Ковалев Дмитрий
+
|[[Участник: Dakovalev1|Ковалев Дмитрий]]
-
|
+
|Вычислительные методы для модели стабильной динамики
-
|
+
|[http://svn.code.sf.net/p/mlalgorithms/code/Group474/Kovalev2017StableDynamicModel/doc/sysdoc/Kovalev2017Systemdocs.pdf sysdoc]
-
|
+
[http://svn.code.sf.net/p/mlalgorithms/code/Group474/Kovalev2017StableDynamicModel/doc/problem/Kovalev2017Problem.pdf problem]
-
|
+
|Ю.В. Дорн
-
|
+
|
|
 +
|B0
 +
|MAD>LS(AIF>)
|-
|-
|Макарчук Глеб
|Макарчук Глеб
 +
|Сегментация и классификация медицинских изображений
 +
|[https://github.com/glebmak/papers/blob/master/BACH%20paper.pdf paper]
 +
[http://svn.code.sf.net/p/mlalgorithms/code/Group474/Makarchuk2017ImageSegmentation/ folder]
 +
[http://svn.code.sf.net/p/mlalgorithms/code/Group474/Makarchuk2017ImageSegmentation/doc/Makarchuk2017ImageSegmentationSlides.pdf slides]
 +
[http://svn.code.sf.net/p/mlalgorithms/code/Group474/Makarchuk2017ImageSegmentation/doc/Makarchuk2017Systemdocs.pdf systemdoc]
 +
|М.Г.Беляев
|
|
 +
|BM
 +
|M>A>D>L>S>A>(IF0)C>U>T>P>
 +
|-
 +
|[[Участник: VasiliyNovitskiy|Новицкий Василий]]
 +
|Построение минимальных ДНФ булевых функций с малым числом нулей
 +
|[http://svn.code.sf.net/p/mlalgorithms/code/Group474/Novitskiy2017DNF/ folder]
 +
[http://svn.code.sf.net/p/mlalgorithms/code/Group474/Novitskiy2017DNF/idef0/ idef0]
 +
[http://svn.code.sf.net/p/mlalgorithms/code/Group474/Novitskiy2017DNF/slides/slides_novitskiy.pdf slides]
 +
[http://svn.code.sf.net/p/mlalgorithms/code/Group474/Novitskiy2017DNF/sysdoc/Novitskiy2017Systemdocs.doc sysdoc]
 +
[http://svn.code.sf.net/p/mlalgorithms/code/Group474/Novitskiy2017DNF/code/ code]
 +
[https://drive.google.com/open?id=1knNpxATf_KjmnP_Jv3fqos7fGzxu1o05 slides2]
 +
 +
|Ю.В. Максимов
|
|
-
|
+
|BM
-
|
+
|MADLSAIFCUTRNS
-
|M>A>
+
-
|
+
|-
|-
-
|Новицкий Василий
+
|[[Участник:Елизавета Рыбка|Рыбка Елизавета]]
-
|
+
|Адаптивный нестационарный регрессионный анализ
-
|
+
|[https://drive.google.com/open?id=1AXyXTdoTC3Be5LJlEIT3YYCFcTgCQ8i- problem]
-
|
+
[https://drive.google.com/open?id=150AZKcdH2whmfYbyQSbK9SO8kz6W-HFR slides]
-
|
+
[https://github.com/EliseRybka/Projects/tree/master/ANRA code]
 +
[https://drive.google.com/file/d/1tz4BblLjg2ii2m4XfcLYWlZUp46ReT_0/view?usp=sharing sysdoc]
 +
|[[Участник:Vmottl|В.В. Моттль]]
|
|
 +
|BM
|
|
|-
|-
|Селезнева Мария
|Селезнева Мария
 +
|Построение и оценка качества гетерогенных иерархических тематических моделей
 +
|[http://svn.code.sf.net/p/mlalgorithms/code/Group474/Seleznova2017HierarchicalMetrics folder]
 +
[http://svn.code.sf.net/p/mlalgorithms/code/Group474/Seleznova2017HierarchicalMetrics/code code]
 +
|[[Участник: vokov|К.В. Воронцов]]
|
|
-
|
+
|B
-
|
+
|M>A>(DLSAIF0)
-
|
+
-
|M>A>
+
-
|
+
|-
|-
|[[Участник:Anton Smerdov|Смердов Антон]]
|[[Участник:Anton Smerdov|Смердов Антон]]
 +
|Порождение и выбор моделей глубокого обучения
 +
|NoLink 18Oct
 +
|[[Участник: Strijov|В.В. Стрижов]]
|
|
-
|
+
|B
-
|
+
|M>A>(DLSAIF0)
-
|
+
-
|
+
-
|M>A>
+
|-
|-
-
|Уваров Никита
+
|[[Участник: Никита Уваров|Уваров Никита]]
-
|
+
|Построение суперпозиции при прогнозировании временных рядов
-
|
+
|[http://svn.code.sf.net/p/mlalgorithms/code/Group474/Uvarov2017SuperpositionForecasting/ folder]
-
|
+
[http://svn.code.sf.net/p/mlalgorithms/code/Group474/Uvarov2017SuperpositionForecasting/doc/Uvarov2017Systemdocs.doc sysdoc]
-
|
+
[http://svn.code.sf.net/p/mlalgorithms/code/Group474/Uvarov2017SuperpositionForecasting/code code]
-
|
+
[http://svn.code.sf.net/p/mlalgorithms/code/Group474/Uvarov2017SuperpositionForecasting/doc/idef idef0]
 +
|[[Участник: Strijov|В.В. Стрижов]]
|
|
 +
|B
 +
|M>A>(DLSAIF0)
|-
|-
|[[Участник:Karina.usmanova|Усманова Карина]]
|[[Участник:Karina.usmanova|Усманова Карина]]
 +
|Среднесрочный прогноз запросов на грузоперевозки
 +
|[http://svn.code.sf.net/p/mlalgorithms/code/Group474/Usmanova2017TransportationQueryForecasting/ folder]
 +
[http://svn.code.sf.net/p/mlalgorithms/code/Group474/Usmanova2017TransportationQueryForecasting/doc/idef0/ idef]
 +
|[[Участник: Strijov|В.В. Стрижов]]
|
|
-
|
+
|B
-
|
+
|M>A>(DLSAIF0)
-
|
+
-
|M>A>
+
-
|
+
|-
|-
|[[Участник: IShibaev|Шибаев Иннокентий]]
|[[Участник: IShibaev|Шибаев Иннокентий]]
 +
|Порождение признаков в задаче классифкации физической активности по измерениям акселерометра
 +
|[http://svn.code.sf.net/p/mlalgorithms/code/Group474/Shibaev2017TimeSeriesClassification/ folder]
 +
[http://svn.code.sf.net/p/mlalgorithms/code/Group474/Shibaev2017TimeSeriesClassification/doc/IDEF0/ idef0]
 +
|[[Участник: Strijov|В.В. Стрижов]]
|
|
-
|
+
|BM
-
|
+
|M>A>(DLSAIF0)
-
|
+
-
|M>A>
+
-
|
+
|-
|-
-
|Шолохов Алексей
+
|[[Участник: Шолохов Алексей |Шолохов Алексей]]
-
|
+
|Метод Франка-Вульфа для задач статистического оценивания большой размерности
-
|
+
|[https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group474/Sholokhov2017CCD/doc/idef0/ idef0]
-
|
+
[https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group474/Sholokhov2017CCD/code/ code]
-
|
+
[https://bitbucket.org/aksholokhov/strijov/raw/c3a42150880976f18d461ca7dfe37e8474bf5bfb/sholokhov-psa-report.pdf paper]
-
|
+
[https://bitbucket.org/aksholokhov/strijov/raw/c3a42150880976f18d461ca7dfe37e8474bf5bfb/sparsifiedfw-poster.pdf poster]
 +
|Ю.В. Максимов
|
|
 +
|B
 +
|M>A>(DLSAIF0)
|-
|-
|}
|}
Строка 166: Строка 225:
|
|
|20
|20
-
|Выбрана задача, рецензент. Заполнены разделы "Аннотация" и "Описание проекта" в Systemdocs [http://machinelearning.ru (шаблон)].
+
|Выбрана задача, рецензент. Заполнены разделы "Аннотация" и "Описание проекта" в Systemdocs [[Media:Surname2017Systemdocs.doc‎|шаблон Surname2017Systemdocs.doc‎]].
|Запись в ML в список проектов по шаблону. Доклад
|Запись в ML в список проектов по шаблону. Доклад
|'''M'''L, '''A'''nnotation
|'''M'''L, '''A'''nnotation
Строка 174: Строка 233:
|Доклад на 45 секунд о своем проекте.
|Доклад на 45 секунд о своем проекте.
|Доклад
|Доклад
-
|''''B'''-talk
+
|'''B'''-talk
|-
|-
|Октябрь
|Октябрь
Строка 204: Строка 263:
| Написаны юнит-тесты и модуль, их запускающий. Подготовлен доклад с обоснованием интерфейсов и IDEF-описания.
| Написаны юнит-тесты и модуль, их запускающий. Подготовлен доклад с обоснованием интерфейсов и IDEF-описания.
|Юнит-тесты, доклад M.
|Юнит-тесты, доклад M.
-
|'''U'''nit, '''M'''talk
+
|'''U'''nit, '''M'''-talk
|-
|-
|
|
Строка 227: Строка 286:
|29
|29
| Написана рецензия на работу.
| Написана рецензия на работу.
-
|Доклад F первой группы.
+
|Доклад F.
|'''S'''lides, re'''V'''iew, '''F'''-talk
|'''S'''lides, re'''V'''iew, '''F'''-talk
|-
|-
Строка 238: Строка 297:
# В папке Group474 создать папку Surname2017ProjectName (см. [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)]], раздел "Работа с репозиторием".)
# В папке Group474 создать папку Surname2017ProjectName (см. [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)]], раздел "Работа с репозиторием".)
# Подготовка инструментов: выполнить [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)|Домашее задание-1, часть 1 и 2 (часть 3 по желанию)]].
# Подготовка инструментов: выполнить [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)|Домашее задание-1, часть 1 и 2 (часть 3 по желанию)]].
-
 
-
 
'''20 сентября'''
'''20 сентября'''
Строка 249: Строка 306:
** Шаблон файла: [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group074/Kuznetsov2013SSAForecasting/doc/Surname2013Systemdocs.doc?format=raw Surname2016SystemDocs]
** Шаблон файла: [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group074/Kuznetsov2013SSAForecasting/doc/Surname2013Systemdocs.doc?format=raw Surname2016SystemDocs]
** Пример заполнения: [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group074/KotenkoKudryashova2013NDVI/doc/SYSTEMDOC.pdf?format=raw].
** Пример заполнения: [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group074/KotenkoKudryashova2013NDVI/doc/SYSTEMDOC.pdf?format=raw].
-
 
'''27 сентября'''
'''27 сентября'''
 +
Подготовить доклад на 45 секунд, план прошлого семестра.
 +
 +
'''4 октября'''
 +
* Собрать литературу, в которой описано наиболее полное множество базовых алгоритмов - претендентов на внедрение и внести библиографические записи в SystemDocs.
 +
* Собрать выборку и описать форматы и структуры данных в разделе 1.4 SystemDocs: состав выборки, основные статистики.
 +
'''11 октября'''
Создать отдельный файл LaTeX c постановкой задачи и базовым описанием алгоритма, включающими
Создать отдельный файл LaTeX c постановкой задачи и базовым описанием алгоритма, включающими
# описание выборки,
# описание выборки,
Строка 265: Строка 327:
-
'''28 сентября'''
+
'''18 октября'''
-
* Зафиксировать базовый алгоритм. При необходимости, расширить список литературы.
+
* Зафиксировать базовый алгоритм. (При необходимости, расширить список литературы, доработать постановку задачи.)
-
* Собрать выборку и описать форматы и структуры данных в разделе 1.4 SystemDocs: состав выборки, основные статистики. Создать описание процедуры порождения выборки в формате IDEF0.
+
* Сделать окончательное описание базового алгоритма.
-
** Скачать и установить [http://ramussoftware.com/ Ramus], разобраться с нотацией IDEF0
+
* Создать описание процедуры порождения выборки в формате IDEF0.
-
* Заполнить раздел Выполнимость задачи/Feasibility. Уточнить границы применимости предлагаемых методов, прописать условия отказа от классификации.
+
* Создать двухуровневую схему в IDEF0 (разделы 1.2.2 и 1.2.3), '''разделяя стадии обучения и использования модели'''.
-
* Подготовить доклад о выбранной задаче на 45 секунд (вторая часть группы).
+
** Скачать и установить [http://ramussoftware.com/ Ramus], разобраться с нотацией IDEF0.
-
IDEF0 [[Media:Strijov2013Advertisment.pdf|организационный]] и [[Media:02_A0.png|содержательный]].
+
** IDEF0 [[Media:Strijov2013Advertisment.pdf|организационный]] и [[Media:02_A0.png|содержательный]].
 +
* Заполнить раздел Выполнимость задачи/Feasibility. Уточнить границы применимости предлагаемых методов, прописать условия отказа от классификации.
-
 
+
'''25 октября'''
-
'''7 октября'''
+
-
* При необходимости, доработать постановку задачи. Сделать окончательное описание базового алгоритма.
+
-
* Создать двухуровневую схему в IDEF0 (разделы 1.2.2 и 1.2.3), желательно, разделяя стадии обучения и использования модели.
+
* Описать интерфейсы (раздел 2 SystemDocs).
* Описать интерфейсы (раздел 2 SystemDocs).
 +
* Написать код.
-
 
+
'''1 ноября'''
-
'''14 октября'''
+
* Написать юнит-тесты для каждого основного модуля и сьют, их запускающий.
-
Написать код.
+
-
 
+
-
'''Анализ ошибки в вычислительных экспериментах'''
+
-
как анализ изменения функции ошибки при изменении состава выборки
+
-
 
+
-
Задана стратегия разбиения скользящего контроля.
+
-
Поставлена задача оптимизации параметров для одного разбиения.
+
-
Для набора разбиений получен набор значений векторов оптимальных параметров, набор значений функции ошибки на обучении и на контроле.Задан набор внешних критериев. Получен набор значений внешних критериев на обучении и контроле. Анализ ошибки содержит следующие базовые тесты.
+
-
 
+
-
# Анализ состава выборки:
+
-
## анализ простоты выборки по отдельным признакам (гистограммы признаков),
+
-
## анализ мультикоррелированности признаков, в частности анализ корреляционных или ковариационных матриц (визуализация результатов факторного анализа, метода Белсли, VIF, в частности, при изменении состава признаков),
+
-
## тест наличия выбросов в выборке (визуализация изменения функции ошибки при исключении выбросов),
+
-
## тест наличия мультимоделей (снижение ошибки при, например, использовании стратегии бустинга)
+
-
## оценка необходимой мощности выборки (по оси абсцисс - число объектов, по оси ординат - ошибка на обучении и ее стандартное отклонение),
+
-
## оценка необходимого числа признаков (по оси абсцисс - последовательно добавляемые признаки; признаки добавляются, например, по убыванию скорости изменения ошибки - т.н. ускорение и торможение ошибки)).
+
-
# Анализ дисперсии параметров и функции ошибки
+
-
## анализ стандартного отклонения функции ошибки (внутреннего критерия) и внешних критериев (в частности, визуализация ROC - обучение и контроль на каждом из разбиений),
+
-
## анализ изменения функции ошибки на итерациях оптимизации (ось абсцисс - итерации, ось ординат функция ошибки на обучении, контроле и ее стандартное отклонение),
+
-
## анализ изменения параметров и гиперпараметров модели (по оси абсцисс - итерации, по оси ординат - набор параметров, лапша и их стандартные отклонения или гиперпараметры),
+
-
## анализ изменения параметров и функций ошибки при из изменении структурных параметров или регуляризаторов (они по оси абсцисс, по оси ординат - не забываем о стандартном отклонении, получаемом скользящим контролем).
+
-
# Сложность алгоритма оптимизации функции ошибки в зависимости от объема выборки
+
-
## теоретическая,
+
-
## эмпирическая,
+
-
## аппроксимация эмпирической функции теоретической (по оси абсцисс - объем выборки, число признаков, число кластеров).
+
-
# Анализ свойств модели с помощью внешних критериев, учет возможных ограничений на параметры и структуру модели
+
-
## построение парето-оптимального фронта множества моделей, из которых производится выбор.
+
-
 
+
-
'''21 октября'''
+
* Подготовить доклад, в котором обосновываются предлагаемые интерфейсы и IDEF-описания системы. Примерный план доклада.
* Подготовить доклад, в котором обосновываются предлагаемые интерфейсы и IDEF-описания системы. Примерный план доклада.
*# Титульный лист, [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group074/Kuznetsov2013SSAForecasting/doc/Ivkin2013PresentationSample.pdf?format=raw см. пример] и [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group074/Kuznetsov2013SSAForecasting/doc/Ivkin2013PresentationSample.tex?format=raw исходный код].
*# Титульный лист, [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group074/Kuznetsov2013SSAForecasting/doc/Ivkin2013PresentationSample.pdf?format=raw см. пример] и [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group074/Kuznetsov2013SSAForecasting/doc/Ivkin2013PresentationSample.tex?format=raw исходный код].
*# Цель, мотивация и описание решаемой проблемы
*# Цель, мотивация и описание решаемой проблемы
-
*# Проблема и вся работа в одном слайде
+
*# По возможности: Проблема и вся работа в одном слайде
*# Литература, какие методы развиваются
*# Литература, какие методы развиваются
*# Постановка задачи и, при необходимости, обозначения
*# Постановка задачи и, при необходимости, обозначения
-
*# Теория в прямом или в теоремном (обратном) изложении
+
*# IDEF0 (без рамки, или в отдельном pdf)
 +
*#* Процедура подготовки данных, если предполагается
 +
*#* Основные модули с интерфейсами
 +
*#* Детализация основных модулей, если необходимо
*# Цель вычислительного эксперимента и описание данных
*# Цель вычислительного эксперимента и описание данных
-
* Написать юнит-тесты для каждого модуля.
 
-
 
-
'''5 октября'''
 
-
* При необходимости, доработать постановку задачи. Сделать окончательное описание базового алгоритма.
 
-
* Создать двухуровневую схему в IDEF0 (разделы 1.2.2 и 1.2.3), желательно, разделяя стадии обучения и использования модели.
 
-
* Описать интерфейсы (раздел 2 SystemDocs).
 
-
 
-
'''19 октября'''
+
'''8 ноября'''
-
Написать код.
+
'''Анализ ошибки в вычислительных экспериментах'''
'''Анализ ошибки в вычислительных экспериментах'''
Строка 334: Строка 361:
Задана стратегия разбиения скользящего контроля.
Задана стратегия разбиения скользящего контроля.
Поставлена задача оптимизации параметров для одного разбиения.
Поставлена задача оптимизации параметров для одного разбиения.
-
Для набора разбиений получен набор значений векторов оптимальных параметров, набор значений функции ошибки на обучении и на контроле.Задан набор внешних критериев. Получен набор значений внешних критериев на обучении и контроле. Анализ ошибки содержит следующие базовые тесты.
+
Для набора разбиений получен набор значений векторов оптимальных параметров, набор значений функции ошибки на обучении и на контроле. Задан набор внешних критериев. Получен набор значений внешних критериев на обучении и контроле. Анализ ошибки содержит следующие базовые тесты.
# Анализ состава выборки:
# Анализ состава выборки:
Строка 355: Строка 382:
## построение парето-оптимального фронта множества моделей, из которых производится выбор.
## построение парето-оптимального фронта множества моделей, из которых производится выбор.
-
'''26 октября'''
+
'''15 ноября'''
-
* Подготовить доклад, в котором обосновываются предлагаемые интерфейсы и IDEF-описания системы. Примерный план доклада.
+
-
*# Титульный лист, [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group074/Kuznetsov2013SSAForecasting/doc/Ivkin2013PresentationSample.pdf?format=raw см. пример] и [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group074/Kuznetsov2013SSAForecasting/doc/Ivkin2013PresentationSample.tex?format=raw исходный код].
+
-
*# Цель, мотивация и описание решаемой проблемы
+
-
*# Проблема и вся работа в одном слайде
+
-
*# Литература, какие методы развиваются
+
-
*# Постановка задачи и, при необходимости, обозначения
+
-
*# Теория в прямом или в теоремном (обратном) изложении
+
-
*# Цель вычислительного эксперимента и описание данных
+
-
* Написать юнит-тесты для каждого модуля.
+
-
 
+
-
'''2 ноября'''
+
-
 
+
-
* Доделать IDEF0: детализировать блок обработки пользовательских данных, сделать второй уровень детализации. Второй уровень посвящен проверке адекватности пользовательских данных на:
+
-
# наличие вирусов в теле загружаемых данных (воздерживаться от выполнения команд, находящихся в теле файлов, например, mpeg),
+
-
# тип загружаемого файла,
+
-
# величину загружаемого файла,
+
-
# допустимость времени расчетов, сложности алгоритма распознавания (не более 15 сек, в противном случае обсуждается вариант фонового выполнения алгоритма или отправка результатов по почте),
+
-
# допустимость объема памяти (желательно не более 200 МБ),
+
-
# адекватность структуры входных данных (алгоритм не должен возвращать неадекватные результаты получив неадекватные данные, желательно сообщать о таком случае).
+
-
* В папке data собрать реальные данные, предназначенные для демонстрации работы алгоритма (и, возможно, для тестирования, если объем данных невелик). При большом объеме данных в эту папку записываются файлы со ссылками в интернет, где можно скачать большую выборку. Вариант: ссылка находится в загрузчике данных. Подготовить описание данных в systemdocs.
+
-
* Подготовить модель загрузки и проверки пользовательских данных. Модуль должен загружать один пользовательский файл.
+
-
* Создать системные тесты: протестировать входные данные и запускаемый модуль. Поместить ссылку на него в раздел 5.2 SystemDocs
+
-
 
+
-
'''9 ноября'''
+
-
 
+
* Используя профайлер, оптимизировать узкие места в коде. Проделанную работу описать в секции 5.3 systemdocs, используя отчеты профайлера и вставляя комментарии о проделанной работе.
* Используя профайлер, оптимизировать узкие места в коде. Проделанную работу описать в секции 5.3 systemdocs, используя отчеты профайлера и вставляя комментарии о проделанной работе.
На заметку:
На заметку:
* Узкие места - те фрагменты кода, которые занимают значительное время при выполнении вычислительного эксперимента. Требуется показать, что при достигнуты улучшения кода при замене циклов на матричные операции или показать, что код достаточно хорошо оптимизирован. При этом необходимо в отчет вставить наиболее значимые строки из отчета профайлера. Это как правило, первые 10-15 строк. Копировать можно из html-отчета профайлера или воспользоваться функцией profile. В ней есть пример, как сохранить отчет профайлера в удобном формате. При оптимизации кода можно вставить в отчет те измерения кода, которые вы считаете удачными.
* Узкие места - те фрагменты кода, которые занимают значительное время при выполнении вычислительного эксперимента. Требуется показать, что при достигнуты улучшения кода при замене циклов на матричные операции или показать, что код достаточно хорошо оптимизирован. При этом необходимо в отчет вставить наиболее значимые строки из отчета профайлера. Это как правило, первые 10-15 строк. Копировать можно из html-отчета профайлера или воспользоваться функцией profile. В ней есть пример, как сохранить отчет профайлера в удобном формате. При оптимизации кода можно вставить в отчет те измерения кода, которые вы считаете удачными.
-
* Также при оптимизации рекомендуется пользоваться функцией parfor - параллельный for. См. документацию "doc parfor" и пример, где показано как включать параллельный режим. Совет: конструкции вида x = x+1 или x(end+1) = y и подобные конструкции не распараллеливаются. Чтобы избежать таких конструкций, надо заранее создавать структуры/матрицы требуемого размера. Параллельные вычисления работают в Матлабе начиная с версии 2012.
+
* Также при оптимизации рекомендуется пользоваться функцией parfor - параллельный for. См. документацию "doc parfor" и пример, где показано как включать параллельный режим. Совет: конструкции вида x = x+1 или x(end+1) = y и подобные конструкции не распараллеливаются. Чтобы избежать таких конструкций, надо заранее создавать структуры/матрицы требуемого размера.
 +
 
 +
'''22 ноября'''
 +
* Оформление результатов в формате ipnb
 +
** Выделен и оформлен интерфейс к эксплуатируемой модели.
 +
** Сделан визуальный отчет.
-
'''16 ноября'''
+
'''29 ноября'''
-
{{tip | ''' Внимание! Рецензия находится в конце файла системдокс в специальном разделе. Нужны только замечания по тем пунктам, которые там приведены.'''}}
+
* Написать рецензию, [назвать файл YourSurname2014Review]. В заголовке рецензии - название работы, имя автора работы. В рецензии отражается, насколько качественно сделана система; удобно ли пользоваться документацией.
-
* Написать рецензию, [назвать файл YourSurname2014Review]. В заголовке рецензии - название работы, имя автора работы. В рецензии отражается, насколько качественно сделана система; удобно ли пользоваться документацией. План рецензии [ПО СИСТЕМДОКС]:
+
{{tip|Важно: в рецензии должны быть отражены все ключевые элементы проекта, '''M'''L, '''A'''nnotation,
 +
'''D'''ata, '''L'''iterature,
 +
'''S'''tatement, '''A'''lgorithm,
 +
'''I'''def, inter'''F'''aces,
 +
'''C'''ode,
 +
'''U'''nit,
 +
'''T'''ests,
 +
'''P'''rofiler,
 +
'''R'''eport, '''N'''otebook.
 +
}}
 +
План рецензии:
# Введение и мотивация:
# Введение и мотивация:
#* мотивация автора глазами рецензента
#* мотивация автора глазами рецензента
Строка 410: Строка 427:
*Используя результаты вычислительного эксперимента и системного тестирования, создать поясняющие графики и таблицы и поместить их в раздел 5.2. При оформления отчета желательно разделять текст по содержанию на адекватно поименованные параграфы. В отчет должны входить:
*Используя результаты вычислительного эксперимента и системного тестирования, создать поясняющие графики и таблицы и поместить их в раздел 5.2. При оформления отчета желательно разделять текст по содержанию на адекватно поименованные параграфы. В отчет должны входить:
** Визуализация процесса выбора модели и оптимизиции структурных параметров
** Визуализация процесса выбора модели и оптимизиции структурных параметров
-
** Визуализации зависимости функции потерь от уровня шума или других факторов
+
** Визуализации зависимости функции потерь от уровня шума или других факторов
-
** ...
+
-
'''23 ноября'''
+
Вне проекта. '''Детализация''' на странице обсуждения
-
 
+
-
Создать папку «web», содержащую следующие файлы:
+
-
# Файл "config.json" (именно с такими именем и расширением). Заполнить файл, следуя примеру, представленному в папке "Group074/Kuznetsov2013SSAForecasting/web/"
+
-
# Файл "main.m". Функция main должна быть единственный аргумент funcname и возвращать только строку html: html = main(filename). filename - текстовая строка, содержащая имя обрабатываемого файла, html - текстовая строка, содержащая "web" отчет в формате html.
+
-
# Файл "test.csv" (можно использовать другие расширения). Этот файл должен содержать тестовые данные (текст, временные ряды, изображение, звук, видео, etc.) для анализа.
+
-
# Другие файлы, необходимые для корректной работы функции "main" (например, файл, содержащий структурные параметры
+
-
алгоритма прогнозирования)
+
-
 
+
-
В целях тестирования, рекомендуется использовать функцию writeHTML. Она вызывает функцию "main('test.csv')" сохраняет результаты в "out.html". В этом файле должны содержаться либо "web"-отчет, либо сообщение об ошибке (см. типы ошибок, перечисленные в задании Tests, Data).
+
== Список проектов ==
== Список проектов ==
Строка 434: Строка 441:
=== Задача 1 ===
=== Задача 1 ===
 +
* '''Название''': Выявление и отслеживание тем в новостном потоке.
 +
* '''Задача''': Выявить темы в накопленных за определённое время новостных сообщениях. Разбить накопленные сообщения на тематические цепочки.
 +
* '''Данные''': Синтетическая коллекция монотематических текстов с временными отметками (по дням).
 +
* '''Литература''':
 +
* '''Базовой алгоритм''':
 +
* '''Авторы''': Виктор Сафронов, К. В. Воронцов.
 +
 +
=== Задача 2 ===

Текущая версия

Содержание

Построение эксплуатируемых моделей

Цель: поставить задачу анализа данных и вычислительный эксперимент.

Задача: научиться выполнять прикладные проекты, отделять проектирование моделей от эксплуатации.

Метод: создание отчета вычислительном эксперимента.

Прежние работы

Результаты

Автор Тема научной работы Ссылка Руководитель Рецензент Буквы
Гончаров Алексей (пример) Метрическая классификация временных рядов code,

paper, slides

Попова Задаянчук BMF AILSBRCVTDSWH>
Алексеев Василий Выявление и отслеживание тем в новостном потоке folder

sysdoc codedoc slides

К.В. Воронцов BM MADLSAIFC(UT-)RNS(PV0)
Аникеев Дмитрий Неточный поиск заимствований Slides

IDEF0

Ю.В. Чехович BMF M>A>(DLSAIF0)
Гасанов Эльнур Нейросетевые модели для анализа кортикограмм folder

sysdoc code IDEF0 problem slides

В.В. Стрижов BM MADLSAIFCUTP0RNSV0
Захаренков Антон Порождение моделей методами структурного обучения folder

code doc idef0

В.В. Стрижов B0 M>A>(DLSAIF0)
Кубентаева Самал Эффективные численные методы решения задачи PageRank для дважды разреженных матриц problem Ю.В. Максимов
Ковалев Дмитрий Вычислительные методы для модели стабильной динамики sysdoc

problem

Ю.В. Дорн B0 MAD>LS(AIF>)
Макарчук Глеб Сегментация и классификация медицинских изображений paper

folder slides systemdoc

М.Г.Беляев BM M>A>D>L>S>A>(IF0)C>U>T>P>
Новицкий Василий Построение минимальных ДНФ булевых функций с малым числом нулей folder

idef0 slides sysdoc code slides2

Ю.В. Максимов BM MADLSAIFCUTRNS
Рыбка Елизавета Адаптивный нестационарный регрессионный анализ problem

slides code sysdoc

В.В. Моттль BM
Селезнева Мария Построение и оценка качества гетерогенных иерархических тематических моделей folder

code

К.В. Воронцов B M>A>(DLSAIF0)
Смердов Антон Порождение и выбор моделей глубокого обучения NoLink 18Oct В.В. Стрижов B M>A>(DLSAIF0)
Уваров Никита Построение суперпозиции при прогнозировании временных рядов folder

sysdoc code idef0

В.В. Стрижов B M>A>(DLSAIF0)
Усманова Карина Среднесрочный прогноз запросов на грузоперевозки folder

idef

В.В. Стрижов B M>A>(DLSAIF0)
Шибаев Иннокентий Порождение признаков в задаче классифкации физической активности по измерениям акселерометра folder

idef0

В.В. Стрижов BM M>A>(DLSAIF0)
Шолохов Алексей Метод Франка-Вульфа для задач статистического оценивания большой размерности idef0

code paper poster

Ю.В. Максимов B M>A>(DLSAIF0)

Работа и консультации

  1. Работы сдаются в течение недели.
  2. Дедлайн последней версии работы и выставление буквы: среда 6:00am.
  3. Каждый ставит буквы себе сам.
  4. Каждый этап работ буква A (при желании А-, А+). Мотивированный перенос работы — знак A>.
  5. Кто не поставил себе букву, тому ставится фундаментальный A0.
  6. Качество оценивается по презентациям и результату.

Расписание

Дата Что сделано Результат для обсуждения Буква
Сентябрь 6 Первая лекция. Представление нового курса, мотивация, организация работ.
13 Лекция и семинар. Планирование проекта.
20 Выбрана задача, рецензент. Заполнены разделы "Аннотация" и "Описание проекта" в Systemdocs шаблон Surname2017Systemdocs.doc‎. Запись в ML в список проектов по шаблону. Доклад ML, Annotation
27 Доклад на 45 секунд о своем проекте. Доклад B-talk
Октябрь 4 Собрана литература. Собрана и описана выборка, сделано описание данных. Описание данных. Список литературы. Data, Literature
11 Поставлена задача. Написаны математическая постановка в формате TeX и описание базового алгоритма. Постановка задачи и алгоритм. Statement, Algorithm
18 Разработана архитектура и интерфейс ядра системы. Архитектура описана в формате IDEF0. Описание архитектуры, интерфейсов в IDEF0. Idef, interFaces
25 Детализирован интерфейс, написан код. Код для реальных данных. Code
Ноябрь 1 Написаны юнит-тесты и модуль, их запускающий. Подготовлен доклад с обоснованием интерфейсов и IDEF-описания. Юнит-тесты, доклад M. Unit, M-talk
8 Собран и подготовлен эксперимент. Написаны и запущены системные тесты. Тесты, данные, эксперимент, доработанная схема IDEF0. Tests
15 Код оптимизирован. Отчет профайлера до и после. Profiler
22 Сделан визуальный отчет. Сделан интерфейс к эксплуатируемой модели. Завершенный отчет с экспериментом, код в формате Notebook. Report, Notebook.
29 Написана рецензия на работу. Доклад F. Slides, reView, F-talk

Домашние задания

Подготовительное задание 13 сентября

  1. Получить доступ к проекту MLalgorithms на SourceForge через старосту группы, прочитать статью, загрузить MLalgorithms.
  2. Зарегистрироваться на сайте machinelearning.ru, послать логин старосте.
  3. В папке Group474 создать папку Surname2017ProjectName (см. Численные методы обучения по прецедентам (практика, В.В. Стрижов), раздел "Работа с репозиторием".)
  4. Подготовка инструментов: выполнить Домашее задание-1, часть 1 и 2 (часть 3 по желанию).

20 сентября

  • Выбрать задачу и подготовить доклад о выбранной задаче на 45 секунд. Содержание доклада включает:
  1. Существо и цели проекта.
  2. Важность и применимость задачи.
  3. Описание предполагаемых методов решения.
  • Создать описание проекта, заполнить разделы «Мотивация» (1.1.2) и «Литература» (1.1.3) в SystemDocs

27 сентября Подготовить доклад на 45 секунд, план прошлого семестра.

4 октября

  • Собрать литературу, в которой описано наиболее полное множество базовых алгоритмов - претендентов на внедрение и внести библиографические записи в SystemDocs.
  • Собрать выборку и описать форматы и структуры данных в разделе 1.4 SystemDocs: состав выборки, основные статистики.

11 октября Создать отдельный файл LaTeX c постановкой задачи и базовым описанием алгоритма, включающими

  1. описание выборки,
  2. предположения и ограничения по составу выборки,
  3. статистические предположения о природе выборки (гипотезу порождения данных),
  4. определения (что такое модель, алгоритм),
  5. ограничения на множество допустимых моделей,
  6. функцию ошибки, критерий качества,
  7. оптимизационную постановку задачи,
  8. вид эксплуатационный модели.
  • Пример постановки задачи: [2].


18 октября

  • Зафиксировать базовый алгоритм. (При необходимости, расширить список литературы, доработать постановку задачи.)
  • Сделать окончательное описание базового алгоритма.
  • Создать описание процедуры порождения выборки в формате IDEF0.
  • Создать двухуровневую схему в IDEF0 (разделы 1.2.2 и 1.2.3), разделяя стадии обучения и использования модели.
  • Заполнить раздел Выполнимость задачи/Feasibility. Уточнить границы применимости предлагаемых методов, прописать условия отказа от классификации.

25 октября

  • Описать интерфейсы (раздел 2 SystemDocs).
  • Написать код.

1 ноября

  • Написать юнит-тесты для каждого основного модуля и сьют, их запускающий.
  • Подготовить доклад, в котором обосновываются предлагаемые интерфейсы и IDEF-описания системы. Примерный план доклада.
    1. Титульный лист, см. пример и исходный код.
    2. Цель, мотивация и описание решаемой проблемы
    3. По возможности: Проблема и вся работа в одном слайде
    4. Литература, какие методы развиваются
    5. Постановка задачи и, при необходимости, обозначения
    6. IDEF0 (без рамки, или в отдельном pdf)
      • Процедура подготовки данных, если предполагается
      • Основные модули с интерфейсами
      • Детализация основных модулей, если необходимо
    7. Цель вычислительного эксперимента и описание данных

8 ноября

Анализ ошибки в вычислительных экспериментах как анализ изменения функции ошибки при изменении состава выборки

Задана стратегия разбиения скользящего контроля. Поставлена задача оптимизации параметров для одного разбиения. Для набора разбиений получен набор значений векторов оптимальных параметров, набор значений функции ошибки на обучении и на контроле. Задан набор внешних критериев. Получен набор значений внешних критериев на обучении и контроле. Анализ ошибки содержит следующие базовые тесты.

  1. Анализ состава выборки:
    1. анализ простоты выборки по отдельным признакам (гистограммы признаков),
    2. анализ мультикоррелированности признаков, в частности анализ корреляционных или ковариационных матриц (визуализация результатов факторного анализа, метода Белсли, VIF, в частности, при изменении состава признаков),
    3. тест наличия выбросов в выборке (визуализация изменения функции ошибки при исключении выбросов),
    4. тест наличия мультимоделей (снижение ошибки при, например, использовании стратегии бустинга)
    5. оценка необходимой мощности выборки (по оси абсцисс - число объектов, по оси ординат - ошибка на обучении и ее стандартное отклонение),
    6. оценка необходимого числа признаков (по оси абсцисс - последовательно добавляемые признаки; признаки добавляются, например, по убыванию скорости изменения ошибки - т.н. ускорение и торможение ошибки)).
  2. Анализ дисперсии параметров и функции ошибки
    1. анализ стандартного отклонения функции ошибки (внутреннего критерия) и внешних критериев (в частности, визуализация ROC - обучение и контроль на каждом из разбиений),
    2. анализ изменения функции ошибки на итерациях оптимизации (ось абсцисс - итерации, ось ординат функция ошибки на обучении, контроле и ее стандартное отклонение),
    3. анализ изменения параметров и гиперпараметров модели (по оси абсцисс - итерации, по оси ординат - набор параметров, лапша и их стандартные отклонения или гиперпараметры),
    4. анализ изменения параметров и функций ошибки при из изменении структурных параметров или регуляризаторов (они по оси абсцисс, по оси ординат - не забываем о стандартном отклонении, получаемом скользящим контролем).
  3. Сложность алгоритма оптимизации функции ошибки в зависимости от объема выборки
    1. теоретическая,
    2. эмпирическая,
    3. аппроксимация эмпирической функции теоретической (по оси абсцисс - объем выборки, число признаков, число кластеров).
  4. Анализ свойств модели с помощью внешних критериев, учет возможных ограничений на параметры и структуру модели
    1. построение парето-оптимального фронта множества моделей, из которых производится выбор.

15 ноября

  • Используя профайлер, оптимизировать узкие места в коде. Проделанную работу описать в секции 5.3 systemdocs, используя отчеты профайлера и вставляя комментарии о проделанной работе.

На заметку:

  • Узкие места - те фрагменты кода, которые занимают значительное время при выполнении вычислительного эксперимента. Требуется показать, что при достигнуты улучшения кода при замене циклов на матричные операции или показать, что код достаточно хорошо оптимизирован. При этом необходимо в отчет вставить наиболее значимые строки из отчета профайлера. Это как правило, первые 10-15 строк. Копировать можно из html-отчета профайлера или воспользоваться функцией profile. В ней есть пример, как сохранить отчет профайлера в удобном формате. При оптимизации кода можно вставить в отчет те измерения кода, которые вы считаете удачными.
  • Также при оптимизации рекомендуется пользоваться функцией parfor - параллельный for. См. документацию "doc parfor" и пример, где показано как включать параллельный режим. Совет: конструкции вида x = x+1 или x(end+1) = y и подобные конструкции не распараллеливаются. Чтобы избежать таких конструкций, надо заранее создавать структуры/матрицы требуемого размера.

22 ноября

  • Оформление результатов в формате ipnb
    • Выделен и оформлен интерфейс к эксплуатируемой модели.
    • Сделан визуальный отчет.

29 ноября

  • Написать рецензию, [назвать файл YourSurname2014Review]. В заголовке рецензии - название работы, имя автора работы. В рецензии отражается, насколько качественно сделана система; удобно ли пользоваться документацией.
Важно: в рецензии должны быть отражены все ключевые элементы проекта, ML, Annotation,

Data, Literature, Statement, Algorithm, Idef, interFaces, Code, Unit, Tests, Profiler, Report, Notebook.


План рецензии:

  1. Введение и мотивация:
    • мотивация автора глазами рецензента
    • альтернативные источники информации
    • место работы в области
    • резюме по мотивации (актуальность и новизна)
  2. Техническая часть.
    1. Постановка задачи: подтвердить или предложить альтернативу с обоснованием
    2. IDEF: выразить мнение об организации структуры интерфейса, пояснениях, именовании переменных, детализации.
    3. Составлено ли описание структуры данных, списка модулей.
    4. Код:
      • читаемость,
      • наличие комментариев и вспомогательных файлов,
      • отступы и структура,
      • код работает отдельно от автора.
    5. Профилирование и SystemDocs.
    6. Вычислительный эксперимент.
      • Иллюстрации оформлены в соответствии с JMLDA/Figs.
  3. Резюме в целом, мнение рецензента о работе.
  • Подготовить доклад на 1-1,5 минуты о рецензируемой работе. Рецензией можно поделиться с автором и консультантом.
  • Используя результаты вычислительного эксперимента и системного тестирования, создать поясняющие графики и таблицы и поместить их в раздел 5.2. При оформления отчета желательно разделять текст по содержанию на адекватно поименованные параграфы. В отчет должны входить:
    • Визуализация процесса выбора модели и оптимизиции структурных параметров
    • Визуализации зависимости функции потерь от уровня шума или других факторов

Вне проекта. Детализация на странице обсуждения

Список проектов

Шаблон описания проекта

  • Название: Название, под которым статья подается в журнал.
  • Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
  • Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.
  • Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.
  • Базовой алгоритм: Ссылка на алгоритм, с которым проводится сравнение или на ближайшую по теме работу.
  • Авторы: эксперт, консультант.

Задача 1

  • Название: Выявление и отслеживание тем в новостном потоке.
  • Задача: Выявить темы в накопленных за определённое время новостных сообщениях. Разбить накопленные сообщения на тематические цепочки.
  • Данные: Синтетическая коллекция монотематических текстов с временными отметками (по дням).
  • Литература:
  • Базовой алгоритм:
  • Авторы: Виктор Сафронов, К. В. Воронцов.

Задача 2

Личные инструменты