Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 174, осень 2014

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Список проектов)
Текущая версия (19:20, 25 февраля 2015) (править) (отменить)
(9. Прогнозирование четвертичных структур белков: нивелирование)
 
(398 промежуточных версий не показаны.)
Строка 2: Строка 2:
__NOTOC__
__NOTOC__
-
{{tip|Заметки и планы осеннего семестра. Материал будет убран на методическую страницу к концу августа. В сентябре тут будут опубликованы разделы '''Результаты''', '''Расписание''', '''Постановка задач'''. --[[Участник:Strijov|Strijov]] 02:09, 15 мая 2014 (MSD)}}
+
== Основная часть курса ==
 +
'''Результаты предыдущих курсов'''
 +
* [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 174, весна 2014 | Группа 174, весна 2014: первая научная статья]]
 +
* [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 074, осень 2013 | Группа 074, осень 2013: вычислительный эксперимент]]
 +
* Короткий адрес страницы [http://bit.ly/1oBXFVP bit.ly/1oBXFVP]
 +
 
 +
== Описание курса ==
Этот семестр посвящен постановке вычислительных экспериментов. Результатом эксперимента является анализ свойств математической модели, получаемой в результате решения поставленной задачи машинного обучения анализа данных. Построенная модель подготавливается к эксплуатации и представляется на языке, наиболее подходящем для эксплуатации. Cоздаются эксплуатационные интерфейсы. Результатами работы являются:
Этот семестр посвящен постановке вычислительных экспериментов. Результатом эксперимента является анализ свойств математической модели, получаемой в результате решения поставленной задачи машинного обучения анализа данных. Построенная модель подготавливается к эксплуатации и представляется на языке, наиболее подходящем для эксплуатации. Cоздаются эксплуатационные интерфейсы. Результатами работы являются:
Строка 9: Строка 15:
# версия кода для эксплуатаци[http://mvr.jmlda.org],
# версия кода для эксплуатаци[http://mvr.jmlda.org],
# доклады и презентация.
# доклады и презентация.
-
 
-
'''Результаты предыдущих курсов'''
 
-
* [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 174, весна 2014 | Группа 174, весна 2014: первая научная статья]]
 
-
* [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 074, осень 2013 | Группа 074, осень 2013: вычислительный эксперимент]]
 
-
 
-
== Черновик описания курса ==
 
'''Анализ свойств''' модели (алгоритма распознания, классификации, прогнозирования) включает следующие основные элементы:
'''Анализ свойств''' модели (алгоритма распознания, классификации, прогнозирования) включает следующие основные элементы:
Строка 47: Строка 47:
'''Требования к слушателям''': слушатели знают базовый курс лекций К.В. Воронцова и программируют на Матлабе.
'''Требования к слушателям''': слушатели знают базовый курс лекций К.В. Воронцова и программируют на Матлабе.
 +
'''Технология работы''': время работы человека гораздо ценнее времени работы компьютера. Поэтому мы работаем следующим образом:
'''Технология работы''': время работы человека гораздо ценнее времени работы компьютера. Поэтому мы работаем следующим образом:
-
1) ставим задачу в формальном наиболее детализированном варианте, формально описываем аалгоритм,
+
1) ставим задачу в формальном наиболее детализированном варианте, формально описываем алгоритм,
2) делаем вычислительные эксперименты на Матлабе,
2) делаем вычислительные эксперименты на Матлабе,
-
3) полученные модели переписываем на том языке, на котором модели будут эксплуатироваться. Это может быть VHDL, в котором результатом компиляции является микросхема-процессор специального назначения увеличивающий скорость вычисления в миллионы раз, CUDA для видеопроцессоров, Java для телефонов, PL-SQL для систем коллективного пользования, Ruby on Rails для интернета.
+
3) полученные модели переписываем на том языке, на котором модели будут эксплуатироваться. Это может быть VHDL, в котором результатом компиляции является микросхема-процессор специального назначения увеличивающий скорость вычисления в миллионы раз, CUDA для видеопроцессоров, Java для телефонов, PL-SQL для систем коллективного пользования, Ruby on Rails для интернета.
 +
 
 +
== Работа и консультации ==
 +
# Работы сдаются в течение недели.
 +
# Желательна итеративная сдача работ, начинать показ лучше в выходные.
 +
# Дедлайн последней версии работы: вторник 6:00am (проверка занимает весь вторник).
 +
# В отчет будет добавлен пункт об учете времени, затраченном на выполнение проекта по неделям.
 +
# Каждый этап работ + 1 балл по системе (А--, А-, А, А+, А++). Несделанная работа — 0. Мотивированный перенос работы — знак «>».
 +
 
 +
Оценка + 6 = сумма.
== Результаты ==
== Результаты ==
Строка 59: Строка 69:
! Ссылка
! Ссылка
! Консультант
! Консультант
 +
! Рецензент
! Доклады
! Доклады
! Буквы
! Буквы
Строка 65: Строка 76:
|-
|-
|[[Участник:rgazizullina|Газизуллина Римма]]
|[[Участник:rgazizullina|Газизуллина Римма]]
-
|Поставьте в это поле название работы
+
|Вопросно-ответная система
|[http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group174/Gazizullina2014RailwayForecasting/], [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group174/Gazizullina2014RailwayForecasting/doc/Gazizullina2014RailwayForecasting.pdf?format=raw pdf]
|[http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group174/Gazizullina2014RailwayForecasting/], [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group174/Gazizullina2014RailwayForecasting/doc/Gazizullina2014RailwayForecasting.pdf?format=raw pdf]
-
|
+
||[[Участник:MKudinov|Кудинов Михаил]]
-
|
+
|[[Участник:Mshinkevich|Шинкевич Михаил]]
-
|
+
|BMRF
-
|
+
|GLAICUTDPRWS
-
|
+
|16
 +
|10
|-
|-
|[[Участник:Agrinchuk|Гринчук Алексей]]
|[[Участник:Agrinchuk|Гринчук Алексей]]
-
|
+
|Разработка метрик качества тематических моделей для библиотеки BigARTM
-
|[http://svn.code.sf.net/p/mlalgorithms/code/Group174/Grinchuk2014StructuredPrediction/], [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Grinchuk2014StructuredPrediction/doc/Grinchuk2014StructuredPrediction.pdf?format=raw pdf]
+
|[http://svn.code.sf.net/p/mlalgorithms/code/Group174/Grinchuk2014BigARTM/], [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Grinchuk2014BigARTM/doc/Grinchuk2014BigARTM.pdf?format=raw pdf]
-
|
+
|Апишев Мурат
-
|
+
|[[Участник:Mpopova|Попова Мария]]
-
|
+
|BRF
-
|
+
|GLAICUTD0>RWS
-
|
+
|14
-
|-
+
|8
-
|[[Участник:Aguschin|Гущин Александр]]
+
-
|
+
-
|[http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group174/Guschin2014FeaturesGeneration/], [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Guschin2014FeaturesGeneration/doc/Guschin2014DocumentRetrieval.pdf?format=raw pdf]
+
-
|
+
-
|
+
-
|
+
-
|
+
-
|
+
|-
|-
|[[Участник:Iefimova|Ефимова Ирина]]
|[[Участник:Iefimova|Ефимова Ирина]]
|Формирование однородных обучающих выборок в информационном анализе ЭКГ-сигналов
|Формирование однородных обучающих выборок в информационном анализе ЭКГ-сигналов
|[http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group174/Efimova2014DiagnosticsOfDiseases/], [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Efimova2014DiagnosticsOfDiseases/doc/Efimova2014DiagnosticsOfDiseases.pdf?format=raw pdf]
|[http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group174/Efimova2014DiagnosticsOfDiseases/], [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Efimova2014DiagnosticsOfDiseases/doc/Efimova2014DiagnosticsOfDiseases.pdf?format=raw pdf]
-
|[[Участник:Celyh|Целых Влада]], <br /> Зухба Анастасия
+
|[[Участник:Celyh|Целых Влада]]
-
|
+
|[[Участник:rgazizullina|Газизуллина Римма]]
-
|
+
|BMRF
-
|
+
|GLAI+CUTDPRWS
-
|
+
|16.25
 +
|10
|-
|-
-
|[[Участник:Azhukov|Жуков Андрей]]
+
|[[Участник:azhukov|Жуков Андрей]]
-
|
+
|Тематическое моделирование новостных потоков
-
|[http://svn.code.sf.net/p/mlalgorithms/code/Group174/Zhukov2014UniversityRanking/], [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Zhukov2014UniversityRanking/doc/Zhukov2014UniversityRanking.pdf?format=raw pdf]
+
|[http://svn.code.sf.net/p/mlalgorithms/code/Group174/Zhukov2014NewsTM/], [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Zhukov2014UniversityRanking/doc/Zhukov2014UniversityRanking.pdf?format=raw pdf]
-
|
+
|Дойков Никита
-
|
+
|[[Участник:Alipatova|Липатова Анна]]
-
|
+
|BMR?F
-
|
+
|GL+AICUTDPRWS
-
|
+
|15.25-W
 +
|9
|-
|-
|[[Участник:Aignatov|Игнатов Андрей]]
|[[Участник:Aignatov|Игнатов Андрей]]
|Полигон алгоритмов классификации для информационного анализа ЭКГ-сигналов
|Полигон алгоритмов классификации для информационного анализа ЭКГ-сигналов
|[http://svn.code.sf.net/p/mlalgorithms/code/Group174/Ignatov2014ManifoldsTraining/], [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Ignatov2014ManifoldsTraining/doc/Ignatov2014ManifoldsTraining.pdf?format=raw pdf]
|[http://svn.code.sf.net/p/mlalgorithms/code/Group174/Ignatov2014ManifoldsTraining/], [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Ignatov2014ManifoldsTraining/doc/Ignatov2014ManifoldsTraining.pdf?format=raw pdf]
-
|Кто консультант?
+
|[[Участник:Celyh|Целых Влада]]
-
|
+
|[[Участник:Aplavin|Плавин Александр]]
-
|
+
|BMRF
-
|
+
|GLA++ICU>TDPRWS++
-
|
+
|17
 +
|10
|-
|-
|[[Участник:Mkarasikov|Карасиков Михаил]]
|[[Участник:Mkarasikov|Карасиков Михаил]]
 +
|Прогнозирование третичных структур белков: оптимизация
 +
|[http://svn.code.sf.net/p/mlalgorithms/code/Group174/Karasikov2014SidechainPrediction/doc/]
 +
[http://svn.code.sf.net/p/mlalgorithms/code/Group174/Karasikov2014SidechainPrediction/doc/Karasikov2014Systemdocs.pdf pdf]
 +
|С.В. Грудинин,
 +
Ю.В. Максимов
 +
|Жуков Андрей
 +
|BMF
 +
|GLA++ICUTDPRWS++
 +
|16
 +
|10
 +
|-
 +
|[[Участник:Кулунчаков|Кулунчаков Андрей]]
 +
|Ранжирование документов с помощью структурно-простых моделей
 +
|[http://svn.code.sf.net/p/mlalgorithms/code/Group174/Kulunchakov2014RankinBySimpleFun/], [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Kulunchakov2014RankinBySimpleFun/doc/Kulunchakov2014RankingBySimpleFun.pdf?format=raw pdf]
 +
|[[Участник:Anastasiya|Мотренко Анастасия]]
 +
|Сухарева Анжелика
 +
|MRF
 +
|GLAIC+U+T+D+P+RWS
 +
|16.25
 +
|10
 +
|-
 +
|[[Участник:Alipatova|Липатова Анна]]
 +
|Инструмент для эмпирического исследования переобучения линейных классификаторов и его приложение в задачах медицинской диагностики.
 +
|[http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group174/Lipatova2014Project/], [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Lipatova2014Project/Lipatova2014Systemdocs.doc]
 +
|Ишкина Шаура
 +
|[[Участник:Mkarasikov|Карасиков Михаил]]
 +
|BMF
 +
|GLA+I+CUTDPRWS
 +
|15.5
 +
|9
 +
|-
 +
|[[Участник:Aplavin|Плавин Александр]]
 +
|Визуализация и частичная разметка тематической структуры текстовых коллекций
 +
|[http://svn.code.sf.net/p/mlalgorithms/code/Group174/Plavin2014TopicsNumberOptimization/], [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Plavin2014TopicsNumberOptimization/doc/Plavin2014TopicsNumberOptimization.pdf?format=raw pdf]
 +
|[[Участник:AnyaP|Потапенко Анна]]
 +
|[[Участник:Aignatov|Игнатов Андрей]]
 +
|RF
 +
|G+LAIC++UT>DPR+>W++S
 +
|15.5+
 +
|10
 +
|-
 +
|[[Участник:Mpopova|Попова Мария]]
 +
|Последовательный выбор моделей распознавания физической активности человека
 +
|[http://svn.code.sf.net/p/mlalgorithms/code/Group174/Popova2014OptimalModelSelection/], [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Popova2014OptimalModelSelection/doc/Popova2014OptimalModelSelection.pdf?format=raw pdf]
 +
|В. В. Стрижов
 +
|[[Участник:Mshvets|Швец Михаил]]
 +
|BMRF
 +
|GLA>IC++UTDPRWS
 +
|16.5
 +
|10
 +
|-
 +
|Сухарева Анжелика
 +
|Классификация научных текстов по отраслям знаний
|
|
-
|[http://svn.code.sf.net/p/mlalgorithms/code/Group174/Karasikov2014MulticlassClassification/], [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Karasikov2014MulticlassClassification/doc/Karasikov2014MulticlassClassification.pdf?format=raw pdf]
+
|[[Участник:Sidious|Царьков Сергей]]
 +
|[[Участник:Кулунчаков|Кулунчаков Андрей]]
 +
|BMRF
 +
|GLAI++C>>>>DP+R>S
 +
|13.75
 +
|8
 +
|-
 +
|[[Участник:Mshvets|Швец Михаил]]
 +
|Монотонные классификаторы с отбором признаков для задач медицинской диагностики
 +
|[http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group174/Shvets2014MonotonicClassification/], [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Shvets2014MonotonicClassification/doc/Shvets2014ProblemStatement.pdf?format=raw pdf]
 +
|[[Участник:Настя Зухба|Зухба Анастасия]]
 +
|[[Участник:Agrinchuk|Гринчук Алексей]]
 +
|BMF
 +
|GLAICUTDPRWS
 +
|15
 +
|9
 +
|-
 +
|[[Участник:Mshinkevich|Шинкевич Михаил]]
 +
|Офф-лайн оценка рекомендательной системы фильмов, основанной на двух популярных подходах.
 +
|[http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group174/Shinkevich2014RegularizatorsCombination/], [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Shinkevich2014RegularizatorsCombination/doc/Shinkevich2014RegularizatorsCombination.pdf?format=raw pdf]
 +
||[[Участник:Peter Romov|Петр Ромов]]
 +
|[[Участник:Iefimova|Ефимова Ирина]]
 +
|BMR?F
 +
|G+LAICUTDPRWS
 +
|16.25
 +
|10
 +
|-
 +
|[[Участник:Alogins|Логинс Алвис (Sk)]]
 +
|TOUCH: In-Memory Spatial Join by Hierarchical Data-Oriented Partitioning.
 +
|[http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group174/Logins2014Touch/], [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Logins2014Touch/doc/Logins2014Systemdocs.doc]
 +
|[[Участник:Anastasiya|Мотренко Анастасия]]
 +
|Червинский Федор
 +
|BMRF
 +
|GLAIСUTDPRRWS+
 +
|16.25
 +
|10
 +
|-
 +
|[[Участник:chervinskii|Червинский Федор (Sk)]]
 +
|EEG Classification for Brain-Computer Interfaces
 +
|[http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group174/Chervinskii2014EEGClassification/],[http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group174/Chervinskii2014EEGClassification/doc/Chervinskii2014ProblemStatement.pdf?format=raw pdf]
 +
|[[Участник:Anastasiya|Мотренко Анастасия]]
 +
|[[Участник:Alogins|Логинс Алвис]]
 +
|BMF
 +
|GL--A-ICUTDPR-WS
 +
|14
 +
|9
 +
|-
 +
|Усман Бен (Sk)
 +
|Уточнение прогноза железнодорожных грузоперевозок по биржевым данным
|
|
 +
|[[Участник:Medvmasha|Стенина Мария]]
|
|
 +
|B
 +
|GLAIC-TDRW
 +
|9.75
 +
|5
 +
|-
|
|
|
|
|
|
-
|-
 
-
|[[Участник:Кулунчаков|Кулунчаков Андрей]]
 
|
|
-
|[http://svn.code.sf.net/p/mlalgorithms/code/Group174/Kulunchakov2014IsomorphicStructures/], [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Kulunchakov2014IsomorphicStructures/doc/Kulunchakov2014IsomorphicStructures.pdf?format=raw pdf]
 
|
|
|
|
Строка 136: Строка 247:
|
|
|-
|-
-
|[[Участник:Alipatova|Липатова Анна]]
+
|[[Участник:Aguschin|Гущин Александр]]
-
|
+
| Задача двухклассовой классификации изображений
-
|[http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group174/Lipatova2014StructureLearning/], [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Lipatova2014StructureLearning/doc/Lipatova2014StructureLearning.pdf?format=raw pdf]
+
|[https://github.com/aguschin/2014ImageClassificationTraining]
-
|
+
|[[Участник:Olman|Лексин Василий]]
|
|
|
|
 +
|GLAI-C+U-T-DP-R>WS
|
|
|
|
|-
|-
-
|[[Участник:Nmakarova|Макарова Анастасия]]
+
<!--
-
|
+
|[[Участник:Akostjuk|Костюк Анна]]
-
|[http://svn.code.sf.net/p/mlalgorithms/code/Group174/Makarova2014DynamicTS/], [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Makarova2014DynamicTS/doc/Makarova2014DynamicTS.pdf?format=raw pdf]
+
| Определение запрещенного товара на картинке
|
|
 +
|[[Участник:Olman|Лексин Василий]]
|
|
|
|
 +
|G>>>>000
|
|
|
|
|-
|-
-
|[[Участник:Aplavin|Плавин Александр]]
+
|[[Участник:Nmakarova|Макарова Анастасия]]
 +
|Диагностика заболеваний на основе зависимости между знаками приращений амлитуд и интервалов в дискретизированной ЭКГ.
 +
|[http://svn.code.sf.net/p/mlalgorithms/code/Group174/Makarova2014DiagnosticEM/], [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Makarova2014DynamicTS/doc/Makarova2014DynamicTS.pdf?format=raw pdf]
 +
|К.В.Воронцов
|
|
-
|[http://svn.code.sf.net/p/mlalgorithms/code/Group174/Plavin2014TopicsNumberOptimization/], [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Plavin2014TopicsNumberOptimization/doc/Plavin2014TopicsNumberOptimization.pdf?format=raw pdf]
+
|B
-
|[[Участник:AnyaP|И.О. Консультанта]]
+
|000000000
|
|
|
|
 +
|-
 +
|Абе Калан (Sk)
|
|
|
|
-
|-
 
-
|[[Участник:Mpopova|Попова Мария]]
 
-
|
 
-
|[http://svn.code.sf.net/p/mlalgorithms/code/Group174/Popova2014OptimalModelSelection/], [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Popova2014OptimalModelSelection/doc/Popova2014OptimalModelSelection.pdf?format=raw pdf]
 
|
|
|
|
|
|
 +
|000000000
|
|
|
|
|-
|-
-
|[[Участник:Mshvets|Швец Михаил]]
+
|Иванов Николай (Sk)
|
|
-
|[http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group174/Shvets2014MultimodelInterpretation/], [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Shvets2014MultimodelInterpretation/doc/Shvets2014MultimodelInterpretation.pdf?format=raw pdf]
 
|
|
|
|
|
|
 +
|
 +
|>0000000
|
|
|
|
|-
|-
-
|[[Участник:Mshinkevich|Шинкевич Михаил]]
+
|Кищенко Ярослав (Sk)
|
|
-
|[http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group174/Shinkevich2014RegularizatorsCombination/], [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Shinkevich2014RegularizatorsCombination/doc/Shinkevich2014RegularizatorsCombination.pdf?format=raw pdf]
 
|
|
|
|
|
|
 +
|
 +
|000000000
|
|
|
|
|-
|-
-
|Sk
+
|Мунхоева Марина (Sk)
-
|Что
+
|Learning influence probabilities in social networks (или 40)
-
|
+
|
|
|
|
|
|
 +
|B
 +
|GL0I-00000
|
|
|
|
|-
|-
-
|Sk
+
|Юрченко Виктор (Sk)
-
|Что
+
|
|
|
|
|
|
|
|
 +
|
 +
|000000000
|
|
|
|
|-
|-
-
|ВШЭ
+
|Гурьев Георгий (Sk)
-
|Что
+
|
|
|
|
|
|
|
|
 +
|
 +
|00000000
|
|
|
|
|-
|-
-
|ВШЭ
+
|[[Участник:linafru|Широкова Елена(Sk)]]
-
|Что
+
|Жанровая классификация текстов
-
|
+
-
|
+
|
|
 +
|[[Участник:AnyaP|Потапенко Анна]]
|
|
 +
|B
 +
|G>0000000
|
|
|
|
|-
|-
 +
-->
|}
|}
-
== Расписание (до начала курса будет уточняться) ==
+
== Расписание ==
{|class="wikitable"
{|class="wikitable"
! Дата
! Дата
Строка 239: Строка 362:
|3
|3
|Первая лекция. Представление нового курса, мотивация, организация работ. Две вводные лекции для новых студентов (по возможности).
|Первая лекция. Представление нового курса, мотивация, организация работ. Две вводные лекции для новых студентов (по возможности).
-
|Обсудим прошлый семестр.
+
|
|
|
|-
|-
Строка 245: Строка 368:
|10
|10
|Выбрана задача, рецензент. Доклад на 45 секунд о своем проекте.
|Выбрана задача, рецензент. Доклад на 45 секунд о своем проекте.
-
|Запись в ML.
+
|Запись в ML. Доклад B
-
|
+
|Go
|-
|-
|
|
|17
|17
-
|Собрана литература, написаны комментарии.
+
|Собрана литература. Собрана и описана выборка, сделано описание данных в текстовом виде или в IDEF0. Доклад 2й подгруппы.
-
|Список литературы и мини-сообщение.
+
|Список литературы. Описание данных.
-
|Literatura
+
|Literature
|-
|-
|
|
|24
|24
-
|Поставлена задача для синтетических данных. Написана математическая постановка в формате TeX.
+
|Поставлена задача. Написаны математическая постановка в формате TeX и описание базового алгоритма.
-
|Примерно страница текста.
+
|Постановка задачи и алгоритм.
-
|Statement
+
|Algorithm
|-
|-
|Октябрь
|Октябрь
|1
|1
-
|Создан файл отчета. Сделано описание проекта. Создана архитектура и интерфейс ядра системы (синтетические данные).
+
|Разработана архитектура и интерфейс ядра системы.
-
|Описание, IDEF0.
+
|Описание архитектуры в IDEF0.
|Idef
|Idef
|-
|-
-
|8
 
|
|
-
|Детализирован интерфейс, написан код первого приближения.
+
|15
-
|Код для синтетических данных.
+
|Детализирован интерфейс, написан код.
 +
|Код для реальных данных.
|Code
|Code
-
|-
 
-
|
 
-
|15
 
-
|Написаны юнит-тесты и модуль, их запускающий.
 
-
|Юнит-тесты.
 
-
|Unit-test
 
|-
|-
|
|
|22
|22
-
|Собраны реальные данные. Доработана схема IDEF0. Написаны модули подготовки данных.
+
| Написаны юнит-тесты и модуль, их запускающий. Подготовлен доклад с обоснованием интерфейсов и IDEF-описания.
-
|Данные, вторая схема IDEF0, модули.
+
|Юнит-тесты, доклад
-
|Data
+
|Unit
|-
|-
|
|
|29
|29
-
|Написаны и запущены системные тесты. По результатам доработки кода написана рецензия на работу.
+
|Собраны и подготовлены данные, необходимые для тестирования. Доработана схема IDEF0 в части подготовки данных. Написаны и запущены системные тесты.
-
|Тесты, рецензия.
+
|Тесты, данные, доработанная схема IDEF0.
-
|Tests
+
|Tests, Data
|-
|-
|Ноябрь
|Ноябрь
|5
|5
-
|Код оптимизирован.
+
|Код оптимизирован.
|Отчет профайлера до и после.
|Отчет профайлера до и после.
|Profiler
|Profiler
Строка 298: Строка 415:
|
|
|12
|12
-
|Сделан визуальный отчет.
+
|Сделан визуальный отчет. По результатам доработки кода написана рецензия на работу.
-
|Завершенный тех.отчет.
+
|Завершенный тех.отчет, рецензия.
-
|Report
+
|Report, Review
|-
|-
|
|
|19
|19
-
|Разработан веб-интерфейс.
+
|Сделан пользовательский интерфейс и неcколько примеров использования системы.
|Код на сайте.
|Код на сайте.
|Web
|Web
Строка 310: Строка 427:
|
|
|26
|26
-
|Сделан пользовательский интерфейс и неколько примеров использования системы.
+
|Подготовлен доклад, приведены в порядок документация и код.
-
|Обсуждение результатов, доклад первой группы.
+
|Обсуждение результатов, доклад F первой группы.
-
|Show
+
|Slides
|-
|-
|Декабрь
|Декабрь
|3
|3
-
|Подготовлен доклад, приведены в порядок документация и код.
+
| -
-
|Доклад второй группы.
+
|Доклад F второй группы.
-
|Show
+
|
|-
|-
 +
|}
 +
Доклады обозначаются буквами B, M, F.
 +
== Завершение проекта, доклад ==
 +
 +
{|class="wikitable"
 +
|-
 +
! Дата
 +
! Статус
 +
! Докладчики
 +
|-
 +
| 27 ноября, 21:30
 +
| плановые доклады, консультация группы
 +
| Газизуллина, Шинкевич
 +
|-
 +
| 3 декабря, 21:00
 +
| плановые доклады, фиксация букв
 +
| Ефимова, Игнатов, Попова, Жуков
 +
|-
 +
| 10 декабря, 21:00
 +
| плановые доклады, завершение курса
 +
| Сухарева, Плавин, Логинс
 +
|-
 +
| 14 декабря, 22:00
 +
| альтернативное время докладов
 +
| Карасиков, Швец, Гринчук, Липатова, Червинский
 +
|-
 +
| 17 декабря, 21:00
 +
| финальные доклады, завершение приема отчетов НИР, отправка ведомостей и отчетов в деканат
 +
| Кулунчаков
 +
|-
|}
|}
 +
Организационное:
 +
* Рецензенты не записываются, но выступают сразу за основным докладчиком по желанию.
 +
* В XX:55 первый докладчик или Михаил Шинкевич (заранее благодарен - В.С.) собирает группу в скайпе и звонит мне.
-
== Работа и консультации ==
+
 
-
# Работы сдаются в течение недели.
+
 
-
# Желательна итеративная сдача работ, начинать показ лучше в выходные.
+
== Домашние задания ==
-
# Дедлайн последней версии работы: среда 6:00am (проверка занимает всю среду).
+
'''10 сентября'''
-
# В отчет будет добавлен пункт об учете времени, затраченном на выполнение проекта по неделям.
+
* Выбрать задачу и подготовить доклад о выбранной задаче на 45 секунд (первая часть группы). Содержание доклада включает:
-
# Каждый этап работ + 1 балл по системе (А--, А-, А, А+, А++). Несделанная работа — 0. Мотивированный перенос работы — знак «>».
+
# Существо и цели проекта.
 +
# Важность и применимость задачи.
 +
# Описание предполагаемых методов решения.
 +
* Создать описание проекта, заполнить разделы «Мотивация» (1.1.2) и «Литература» (1.1.3) в SystemDocs
 +
** Шаблон файла: [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group074/Kuznetsov2013SSAForecasting/doc/Surname2013Systemdocs.doc?format=raw Surname2014SystemDocs]
 +
** Пример заполнения: [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group074/KotenkoKudryashova2013NDVI/doc/SYSTEMDOC.pdf?format=raw].
 +
 
 +
Дополнительно для студентов Сколтеха:
 +
# Получить доступ к проекту MLalgorithms на SourceForge через старосту группы, прочитать [[SourceForge| статью]], загрузить MLalgorithms.
 +
# Зарегистрироваться на сайте machinelearning.ru, послать логин старосте.
 +
# В папке Group174 создать папку Surname2014PrijectName (См. [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)]], раздел "Работа с репозиторием".)
 +
 
 +
 
 +
'''17 сентября'''
 +
* Получить четкую постановку задачи, зафиксировать базовый алгоритм. При необходимости, расширить список литературы.
 +
* Собрать выборку и описать форматы и структуры данных в разделе 1.4 SystemDocs: состав выборки, основные статистики, гипотезу порождение данных. Создать описание процедуры порождения выборки в формате IDEF0.
 +
** Скачать и установить [http://ramussoftware.com/ Ramus], разобраться с нотацией IDEF0
 +
* Заполнить раздел Выполнимость задачи/Feasibility. Уточнить границы применимости предлагаемых методов, прописать условия отказа от классификации.
 +
* Подготовить доклад о выбранной задаче на 45 секунд (вторая часть группы).
 +
 
 +
 
 +
'''24 сентября'''
 +
 
 +
Создать отдельный файл LaTeX c постановкой задачи и базовым описанием алгоритма, включающими
 +
* описание выборки,
 +
* предположения и ограничения по составу выборки
 +
* статистические предположения о природе выборки (гипотезу порождения данных),
 +
* определения: что такое модель, алгоритм,
 +
* ограничения на множество допустимых моделей,
 +
* функцию ошибки, критерий качества,
 +
* оптимизационную постановку задачи,
 +
* вид эксплуатационный модели.
 +
 
 +
 
 +
'''1 октября'''
 +
* При необходимости, доработать постановку задачи. Сделать окончательное описание базового алгоритма.
 +
* Создать двухуровневую схему в IDEF0 (разделы 1.2.2 и 1.2.3), желательно, разделяя стадии обучения и использования модели.
 +
* Описать интерфейсы (раздел 2 SystemDocs).
 +
 
 +
 
 +
'''15 октября'''
 +
 
 +
Написать код.
 +
 
 +
 
 +
'''22 октября'''
 +
* Подготовить доклад, в котором обосновываются предлагаемые интерфейсы и IDEF-описания системы.
 +
* Написать юнит-тесты для каждого модуля.
 +
 
 +
'''29 октября'''
 +
 
 +
* Доделать IDEF0: детализировать блок обработки пользовательских данных, сделать второй уровень детализации. Второй уровень посвящен проверке адекватности пользовательских данных на:
 +
# наличие вирусов в теле загружаемых данных (воздерживаться от выполнения команд, находящихся в теле файлов, например, mpeg),
 +
# тип загружаемого файла,
 +
# величину загружаемого файла,
 +
# допустимость времени расчетов, сложности алгоритма распознавания (не более 15 сек, в противном случае обсуждается вариант фонового выполнения алгоритма или отправка результатов по почте),
 +
# допустимость объема памяти (желательно не более 200 МБ),
 +
# адекватность структуры входных данных (алгоритм не должен возвращать неадекватные результаты получив неадекватные данные, желательно сообщать о таком случае).
 +
* В папке data собрать реальные данные, предназначенные для демонстрации работы алгоритма (и, возможно, для тестирования, если объем данных невелик). При большом объеме данных в эту папку записываются файлы со ссылками в интернет, где можно скачать большую выборку. Вариант: ссылка находится в загрузчике данных. Подготовить описание данных в systemdocs.
 +
* Подготовить модель загрузки и проверки пользовательских данных. Модуль должен загружать один пользовательский файл.
 +
* Создать системные тесты: протестировать входные данные и запускаемый модуль. Поместить ссылку на него в раздел 5.2 SystemDocs
 +
 
 +
'''5 ноября'''
 +
 
 +
* Используя профайлер, оптимизировать узкие места в коде. Проделанную работу описать в секции 5.3 systemdocs, используя отчеты профайлера и вставляя комментарии о проделанной работе.
 +
На заметку:
 +
* Узкие места - те фрагменты кода, которые занимают значительное время при выполнении вычислительного эксперимента. Требуется показать, что при достигнуты улучшения кода при замене циклов на матричные операции или показать, что код достаточно хорошо оптимизирован. При этом необходимо в отчет вставить наиболее значимые строки из отчета профайлера. Это как правило, первые 10-15 строк. Копировать можно из html-отчета профайлера или воспользоваться функцией profile. В ней есть пример, как сохранить отчет профайлера в удобном формате. При оптимизации кода можно вставить в отчет те измерения кода, которые вы считаете удачными.
 +
* Также при оптимизации рекомендуется пользоваться функцией parfor - параллельный for. См. документацию "doc parfor" и пример, где показано как включать параллельный режим. Совет: конструкции вида x = x+1 или x(end+1) = y и подобные конструкции не распараллеливаются. Чтобы избежать таких конструкций, надо заранее создавать структуры/матрицы требуемого размера. Параллельные вычисления работают в Матлабе начиная с версии 2012.
 +
 
 +
'''12 ноября'''
 +
 
 +
* Написать рецензию, назвать файл YourSurname2014Review. В заголовке рецензии - название работы, имя автора работы. В рецензии отражается, насколько качественно сделана система; удобно ли пользоваться документацией. План рецензии:
 +
# Введение и мотивация:
 +
#* мотивация автора глазами рецензента
 +
#* альтернативные источники информации
 +
#* место работы в области
 +
#* резюме по мотивации (актуальность и новизна)
 +
# Техническая часть.
 +
## Постановка задачи: подтвердить или предложить альтернативу с обоснованием
 +
## IDEF: выразить мнение об организации структуры интерфейса, пояснениях, именовании переменных, детализации.
 +
## Составлено ли описание структуры данных, списка модулей.
 +
## Код:
 +
##* читаемость,
 +
##* наличие комментариев и вспомогательных файлов,
 +
##* отступы и структура,
 +
##* код работает отдельно от автора.
 +
## Профилирование и SystemDocs.
 +
## Вычислительный эксперимент.
 +
##* Иллюстрации оформлены в соответствии с JMLDA/Figs.
 +
# Резюме в целом, мнение рецензента о работе.
 +
* Подготовить доклад на 1-1,5 минуты о рецензируемой работе. Рецензией можно поделиться с автором и консультантом.
 +
*Используя результаты вычислительного эксперимента и системного тестирования, создать поясняющие графики и таблицы и поместить их в раздел 5.2. При оформления отчета желательно разделять текст по содержанию на адекватно поименованные параграфы. В отчет должны входить:
 +
** Визуализация процесса выбора модели и оптимизиции структурных параметров
 +
** Визуализации зависимости функции потерь от уровня шума или других факторов
 +
** ...
 +
 
 +
'''19 ноября'''
 +
 
 +
Создать папку «web», содержащую следующие файлы:
 +
# File "config.json" (name and extension should be the same). Fill this file using example placed in folder "Group074/Kuznetsov2013SSAForecasting/web/"
 +
# File "main.m" with one argument variable and one resulting variable:
 +
html = main(filname), where filename is a text string containing file name, and html is text string containing visual "web" report in html format.
 +
# File "test.csv" (you can use another extension), This file should contain test object (text, time series, image, sound, video, etc.) for forecasting.
 +
# Other files, that are required for function "main" (in particular file with parameters and structural parameters of forecasting model/algorithm)
 +
 
 +
For testing purposes it is strongly recommended to launch function writeHTML. It calls function "main('test.csv')" and save results into "out.html". This file should contain either "web" report about results of forecasting or error massage about some trouble with forecasting (types of errors were considered in data loading section).
== Задачи ==
== Задачи ==
Строка 343: Строка 598:
* '''Базовой алгоритм''': Ссылка на простой алгоритм, решающий эту задачу.
* '''Базовой алгоритм''': Ссылка на простой алгоритм, решающий эту задачу.
-
== Список проектов ==
+
== Предлагаемые задачи, часть 1 ==
-
===1. Визуализация и частичная разметка тематической структуры текстов ===
+
=== 8. Прогнозирование третичных структур белков: оптимизация ===
-
*'''Консультант:''' А.А. Потапенко
+
* '''Консультант:''' С.В. Грудинин, Ю.В. Максимов
-
*'''Задача:''' Разработать среду визуализации, отображающую вероятности принадлежности слов к темам, полученные с помощью тематической модели. Предусмотреть возможность ручной разметки принадлежности слов к темам для дальнейшего использования в оценке качества модели или в частичном обучении. С помощью разработанной среды сравнить стандартную модель PLSA (Probabilistic Latent Semantic Analysis) и регуляризованную модель с разреженными различными предметными и сглаженными фоновыми темами.
+
* '''Задача:''' Поиск наилучшей упаковки боковых цепей белковой структуры в предположении известного жесткого остова при помощи выпуклой оптимизации.
 +
Более полная задача включает в себя также перебор оснований в первичной последовательность при жестком остове и называется "обратный фолдинг".
 +
Предложить алгоритм оптимизации.
-
*'''Данные:''' Коллекция статей конференций ММРО-ИОИ за несколько лет.
+
Входная матрица разряжена и имеет блочный вид,
-
*'''Литература:'''
+
-
** [[Медиа:Task_Potapenko_Fall.pdf| Описание задачи и предлагаемые пути решения]]
+
-
** Vorontsov K. V., Potapenko A. A. Tutorial on Probabilistic Topic Modeling: Additive Regularization for Stochastic Matrix Factorization. // Analysis of Images, Social Networks, and Texts AIST-2014.— CCIS 436, Springer.
+
-
===2. Формирование однородных обучающих выборок в информационном анализе электрокардиосигналов ===
+
<tex>
-
* '''Консультант:''' В.Р.Целых, А.В.Зухба
+
E(\underline{x})=\left[\begin{array}{c}
-
* '''Задача:'''
+
x_{1}^{1}\\
-
*: ''Дано:'' две размеченные выборки объектов двух классов. Первая выборка эталонная, вторая содержит неизвестную долю выбросов — объектов с неверной классификацией.
+
x_{2}^{1}\\
-
*: ''Найти:'' вычислительно эффективный способ очистки второй выборки от выбросов.
+
\vdots\\
-
*: ''Критерий:'' возрастание 10-fold CV AUC при пополнении первой обучающей выборки отфильтрованной второй выборкой.
+
x_{1}^{i}\\
-
* '''Данные:''' выборки электрокардиограмм с диагнозами по 14 заболеваниям, для каждого из которых есть два типа выборок: эталонные прецеденты (прошедшие всестороннее обследование с применением современных клинических, лабораторных и инструментальных методов исследования) и случаи, когда диагнозы устанавливались терапевтом.
+
x_{2}^{i}\\
-
* '''Базовый алгоритм:''' пополнение обучающей выборки всеми объектами второй выборки с отступами не менее заданного порога.
+
\vdots\\
-
* '''Литература:'''
+
x_{1}^{N}\\
-
* Воронцов К. В. [[Изображение:Voron-ML-Metric-slides.pdf|Метрические алгоритмы классификации]]. Лекции по машинному обучению. — 2014.
+
x_{2}^{N}\\
-
* Успенский В. М. Информационная функция сердца // Клиническая медицина, 2008. — Т. 86, № 5. — С. 4–13.
+
x_{3}^{N}
-
* Успенский В. М. Информационная функция сердца. Теория и практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. — М.: «Экономика и информация», 2008. — 116 с.
+
\end{array}\right]^{T}\left[\begin{array}{ccccccccc}
-
* Обзоры по outlier detection, anomaly detection, novelty detection, semisupervised learning.
+
0 & 0 & \cdots & e_{11}^{k1} & e_{21}^{k1} & \cdots & e_{11}^{N1} & e_{21}^{N1} & e_{31}^{N1}\\
 +
0 & 0 & \cdots & e_{12}^{k1} & e_{22}^{k1} & \cdots & e_{12}^{N1} & e_{22}^{N1} & e_{32}^{N1}\\
 +
\vdots & \vdots & \ddots & \vdots & \vdots & \ddots & \vdots & \vdots & \vdots\\
 +
e_{11}^{1i} & e_{21}^{1i} & \cdots & e_{11}^{ki} & e_{21}^{ki} & \cdots & e_{11}^{Ni} & e_{21}^{Ni} & e_{31}^{Ni}\\
 +
e_{12}^{1i} & e_{22}^{1i} & \cdots & e_{12}^{ki} & e_{22}^{ki} & \cdots & e_{12}^{Ni} & e_{22}^{Ni} & e_{32}^{Ni}\\
 +
\vdots & \vdots & \ddots & \vdots & \vdots & \ddots & \vdots & \vdots & \vdots\\
 +
e_{11}^{1N} & e_{21}^{1N} & \cdots & e_{11}^{kN} & e_{21}^{kN} & \cdots & 0 & 0 & 0\\
 +
e_{12}^{1N} & e_{22}^{1N} & \cdots & e_{12}^{kN} & e_{22}^{kN} & \cdots & 0 & 0 & 0\\
 +
e_{13}^{1N} & e_{23}^{1N} & \cdots & e_{13}^{kN} & e_{23}^{kN} & \cdots & 0 & 0 & 0
 +
\end{array}\right]\left[\begin{array}{c}
 +
x_{1}^{1}\\
 +
x_{2}^{1}\\
 +
\vdots\\
 +
x_{1}^{i}\\
 +
x_{2}^{i}\\
 +
\vdots\\
 +
x_{1}^{N}\\
 +
x_{2}^{N}\\
 +
x_{3}^{N}
 +
\end{array}\right]
 +
</tex>
 +
 +
Нужно решить и исследовать следующие задачи:
 +
 
 +
1) Minimization problem 1 (statistical physics) :
 +
 
 +
<tex>\begin{align} E(\underline{x}) +bx & \rightarrow & \textrm{min} \\
 +
\textrm{w.r.t}. && \left|| x^{k}\right||_{1}=1\;\forall k \\
 +
&& x_{i}^{k}\geq0\;\forall i,k \end{align} </tex>
 +
 
 +
2) Minimization problem 2 :
 +
 
 +
<tex>\begin{align}E(\underline{x}) +bx &\rightarrow& \textrm{min}\\
 +
\textrm{w.r.t}. && \left|| x^{k}\right||_{2}=1\;\forall k \\
 +
&&x_{i}^{k}\geq0\;\forall i,k \end{align}</tex>
 +
 
 +
3) Minimization problem 3 (structural biology) :
 +
 
 +
<tex>\begin{align}E(\underline{x}) +bx &\rightarrow& \textrm{min} \\
 +
\textrm{w.r.t}. &&\left|| x^{k}\right||_{\infty}=1\;\forall k \\
 +
&& x_{i}^{k}\geq0\;\forall i,k \end{align}</tex>
-
===3. ... устойчивость вероятностной модели ... (новое название в прикладном ключе) ===
+
* '''Данные:''' Входные матрицы и вектора на основе анализа ротамерных состояний боковых цепей и простой модели силового поля были сконструированы М. Карасиковым. Размерность задачи - тысячи и десятки тысяч параметров.
-
* '''Консультант:''' М.A. Дударенко
+
-
*'''Задача:''' Вероятностная тематическая модель описывает написать что надо получить с прикладной точки зрения ()
+
-
* '''Данные:''' Коллекция документов задаётся частотами слов. Поскольку для
+
-
решения задачи необходимо знать «истинные» матрицы <tex>\Phi, \Theta,</tex> эксперименты производятся на реалистичных модельных или полумодельных данных, удовлетворяющих гипотезам
+
-
разреженности, слабой коррелированности тем и наличия фоновых тем.
+
* '''Литература:'''
* '''Литература:'''
-
** Аддитивная регуляризация (это общий материал, можно узкоспециальное описание?)
+
** [[Медиа:MaximovProgrammingRequiremets.pdf|Замечания по программной реализации]]
-
** тематическое ...
+
** Обзор современных методов решения поставленной задачи есть в [[Медиа:2014-Kihara-Assessment_of_protein_side-chain_conformation_prediction_methods_in_different_residue_environments.pdf| L. X. Peterson et al, "Assessment of protein side-chain conformation prediction methods in different residue environments", Proteins 2014, DOI: 10.1002/prot.24552]].
-
'''Базовый алгоритм:''' ссылка на описание алгоритма
+
* '''Базовый алгоритм:''' Итеративная, Монте-Карло оптимизация - это медленные методы. Нужно разработать выпуклую релаксацию - 1) semi-definite relaxation, 2) Lagrange relaxation
-
===4. Рекомендация товаров для совместной продажи ===
+
===7. Уточнение прогноза железнодорожных грузоперевозок по биржевым данным ===
-
* '''Консультант:''' А.А. Пимкова
+
* '''Консультант:''' Стенина (Медведникова) Мария.
 +
* '''Задача:''' построить алгоритм уточнения прогноза грузоперевозок, включив в модель как исторические данные о загруженности, так и внешние данные: биржевые цены на основные инструменты и нормативные документы. Рассматривается проблема обнаружения причинно-следственных связей в разнородных временных рядах. Предлагается прогностическая модель, использующая выявленные связи. При построении модели используются экспертные высказывания относительно вида связей.
 +
* '''Данные:''' Исторические биржевые цены на основные инструменты и данные по железнодорожным грузоперевозкам.
 +
* '''Литература:'''
 +
** Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным. [http://jmlda.org/papers/doc/2012/no4/Medvednikova2012RailRoads.pdf pdf]
 +
** Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И. Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла. [http://jmlda.org/papers/doc/2013/no5/Motrenko2013RailRoads.pdf pdf]
 +
* '''Базовый алгоритм:''' Требуется найти.
 +
 
 +
===5. Диагностика заболеваний по анализу пульсовой волны===
 +
* '''Консультант:''' Кузнецова Рита.
 +
* '''Задача:''' Решается задача классификации состояния здоровья человека на основании анализа пульсовых волн. Требуется изучить набор базовых подходов и предложить новые варианты алгоритмов.
 +
* '''Данные:''' 1) [https://svn.code.sf.net/p/mlalgorithms/code/Group974/Kuznetsova2014PulseWave/data/]; 2) [http://physionet.org/physiobank/database/]
 +
* '''Литература:'''
 +
** Danbing Jia, Dongyu Zhang,Naimin Li Pulse Waveform Classification Using Support Vector Machine with Gaussian Time Warp Edit Distance Kernel, Computational and Mathematical Methods in Medicine Volume 2014 (2014)
 +
** Stephen R. Alty, Natalia Angarita-Jaimes, Sandrine C. Millasseau, Philip J. Chowienczy Predicting Arterial Stiffness From the Digital Volume Pulse Waveform, IEEE Trans Biomed Eng. 2007 Dec;54(12):2268-75.
 +
** C.C. Chiu, B.Y. Liau, S.J. Yeh, C.L. Hsu Artificial Neural Network Classification of Arterial Pulse Waveforms in Cardiovascular Diseases, Biomed 2008, Proceedings 21, pp. 129–132, 2008.
 +
** Almeida VG, Vieira J, Santos P, Pereira T, Pereira HC, Correia C, Pego M, Cardoso J. Machine Learning Techniques for Arterial Pressure Waveform Analysis, Journal of Personalized Medicine. 2013; 3(2):82-101.
 +
* '''Базовый алгоритм:''' SVM, алгоритмы кластеризации.
 +
 
 +
=== 4. Рекомендация товаров для совместной продажи ===
 +
* '''Консультант:''' И.С. Гуз, А.А. Пимкова
* '''Задача:''' Необходимо выделить группы товаров, продаваемых на Авито, которые являются дополняющими друг к другу (пример: автомобили и шины) и которые было бы интересно продавать совместно. При этом классический алгоритм выделения ассоциативных правил (пример - Apriori) не совсем эффективен, так как каждый товар описывается некоторой иерархией признаков (Пример: Авто -> Mazda -> 6 -> 2.0л) и эффективные правила могут содержать элементы различных иерархий (Вместе с "Авто -> Mazda -> 6" часто продаются "Шины -> Continental -> r16"). Необходимо формализовать и иметь возможность внедрить в алгоритм поиска подобных правил экспертные ограничения, запрещающие определенные классы правил, так как на их основе могут создаваться крайне не релевантные рекомендации.
* '''Задача:''' Необходимо выделить группы товаров, продаваемых на Авито, которые являются дополняющими друг к другу (пример: автомобили и шины) и которые было бы интересно продавать совместно. При этом классический алгоритм выделения ассоциативных правил (пример - Apriori) не совсем эффективен, так как каждый товар описывается некоторой иерархией признаков (Пример: Авто -> Mazda -> 6 -> 2.0л) и эффективные правила могут содержать элементы различных иерархий (Вместе с "Авто -> Mazda -> 6" часто продаются "Шины -> Continental -> r16"). Необходимо формализовать и иметь возможность внедрить в алгоритм поиска подобных правил экспертные ограничения, запрещающие определенные классы правил, так как на их основе могут создаваться крайне не релевантные рекомендации.
* '''Данные:''' История продаваемых совместно товаров, где каждый товар описывается набором атрибутов и принадлежит соответствующей товарной иерархии.
* '''Данные:''' История продаваемых совместно товаров, где каждый товар описывается набором атрибутов и принадлежит соответствующей товарной иерархии.
Строка 392: Строка 701:
'''Базовый алгоритм:''' Алгоритм выделения обобщенных ассоциативных правил.
'''Базовый алгоритм:''' Алгоритм выделения обобщенных ассоциативных правил.
-
===5. Интерпретация движений человека с помощью носимого акселерометра ===
+
=== 40. Определение что на картинке есть запрещенный товар ===
-
* '''Консультант:''' А.П. Мотренко
+
* '''Консультант:''' В.А. Лексин
 +
* '''Задача:''' Двухклассовая классификация изображений
 +
** Часть 1: медикаменты
 +
** Часть 2: оружие
 +
** Часть 3: алкоголь и табак
 +
* '''Данные:''' На inclass.kaggle.com по приглашению.
 +
* '''Литература:''' Надо искать
 +
* '''Базовый алгоритм:''' Deep learning
 +
 
 +
=== 21. Идентификация человека по изображению радужной оболочки глаза ===
 +
* '''Консультант:''' И.А. Матвеев
 +
* '''Задача:''' В проблеме идентификации человека по изображению радужной оболочки глаза (радужке) важнейшую роль играет выделение области радужки на исходном снимке (сегментация радужки). Однако, изображение радужки как правило частично закрыто (затенено) веками, ресницами, бликами, то есть часть радужки не может быть использована для распознавания и более того, использование данных с затенённых участков может порождать ложные признаки и снижать точность. Поэтому одним из важных этапов сегментации изображения радужки является
 +
отбраковка затенённых участков.
 +
* '''Данные:''' растровое монохромное изображение, типичный размер 640*480 пикселей (однако, возможны и другие размеры) и координаты центров и радиусы двух окружностей, аппроксимирующих зрачок и радужку.
 +
* '''Литература:'''
 +
** [[Медиа:TaskIris.pdf |Описание задачи и предлагаемые пути решения]]
 +
** Monro D. University of Bath Iris Image Database // http:// www.bath.ac.uk/ elec-eng/ research/ sipg/ irisweb/
 +
** Chinese academy of sciences institute of automation (CASIA) CASIA Iris image database // http://www.cb-sr.ia.ac.cn/IrisDatabase.htm, 2005.
 +
** MMU Iris Image Database: Multimedia University // http:// pesonna.mmu.edu.my/ ccteo/
 +
** Phillips P.J., Scruggs W.T., O’Toole A.J. et al. Frvt2006 and ice2006 large–scale experimental results // IEEE PAMI. 2010. V. 32. № 5. P. 831–846.
 +
** G.Xu, Z.Zhang, Y.Ma Improving the performance of iris recogniton system using eyelids and eyelashes detection and iris image enhancement // Proc. 5Th Int. Conf. Cognitive Informatics. 2006. P.871-876.
 +
* '''Базовый алгоритм:''' метод, использующий скользящее окно и текстурные признаки [2006: Xu, Zhang, Ma].
 +
 
 +
=== 23. Определение движения наземных инженерных сооружений по спутниковым снимкам(*) ===
 +
* '''Консультант:''' И.А. Рейер, А.А. Адуенко
* '''Задача:'''
* '''Задача:'''
 +
* '''Данные:'''
* '''Литература:'''
* '''Литература:'''
-
** ...
+
**
-
** ...
+
**
-
* '''Базовой алгоритм:''' Что было разработано?
+
* '''Базовый алгоритм:'''
 +
 
 +
=== 40. Определение точной границы зрачка ===
 +
* '''Консультант:''' И.А. Матвеев
 +
* '''Задача:''' Требуется разработать метод построения устойчивых точной границы и эквивалентной окружности (см.[[Медиа: TaskIris2.pdf| подробное описание задачи]]). Критерием качества алгоритма служит устойчивость найденных решений к малым вариациям исходных данных.
 +
* '''Данные:''' растровое монохромное изображение, типичный размер 640*480 пикселей (однако, возможны и другие размеры) и координаты центров и радиусы двух приближённых окружностей, аппроксимирующих зрачок и радужку. Тестовая выборка включает в себя несколько тысяч изображений баз BATH[1], CASIA [2], MMU[3], NDIRIS [4] с прилагающейся разметкой. Изображения в формате BMP.
 +
* '''Литература:'''
 +
** [1] Monro D. University of Bath Iris Image Database // http:// www.bath.ac.uk/ elec-eng/ research/ sipg/ irisweb/
 +
** [2] Chinese academy of sciences institute of automation (CASIA) CASIA Iris image database // http://www.cb-sr.ia.ac.cn/IrisDatabase.htm, 2005.
 +
** [3] MMU Iris Image Database: Multimedia University // http:// pesonna.mmu.edu.my/ ccteo/
 +
** [4] Phillips P.J., Scruggs W.T., O’Toole A.J. et al. Frvt2006 and ice2006 large–scale experimental results // IEEE PAMI. 2010. V. 32. № 5. P. 831–846.
 +
** [[Медиа: TaskIris2.pdf| Описание задачи]]
 +
* '''Базовый алгоритм:''' Один из перспективных вариантов решения — использование метода оптимального кругового пути; возможный альтернативный метод — непосредственный поиск округлого тёмного объекта в расширенном окне, заданном окружностью зрачка.
 +
 
 +
== Часть 2 ==
 +
 
 +
=== 9. Прогнозирование четвертичных структур белков: нивелирование ===
 +
* '''Консультант:''' Ю.В. Максимов
 +
* '''Задача:''' Задача заключается в предсказании упаковки белковых молекул в мультимерный комплекс в приближении жестких тел. Одна из формклировок задачи записывается как невыпуклая оптимизация.
 +
Нужно исследовать эту формулировку и предложить алгоритм решения.
 +
Suppose we have <tex>N</tex> proteins in an assembly, such that each protein <tex>i</tex> can be located in one of <tex>P</tex> positions <tex>x_{p}^{i}</tex>. <tex>N</tex> is ~ 10, <tex>P</tex> ~ 100. To each two vectors <tex>x_{i}^{p}</tex> and <tex>x_{j}^{q}</tex>, we can assign an energy function <tex>q_{0}</tex>, which is the overlap integral in the simplest approximation. Each protein position also has an associated score <tex>b_{0}</tex>.
 +
Thus, the optimal packing problem can be formulated as
 +
<tex>
 +
\begin{align}
 +
x^{T}Q_{0}x+b_{0}^{T}x &\rightarrow& \textrm{min}\\
 +
\textrm{w.r.t}. &&\left\Vert x^{k}\right\Vert _{\infty}=1\;\forall k \\
 +
&& x_{i}^{k}\geq0\;\forall i,k
 +
\end{align}
 +
</tex>
 +
* '''Данные:''' Собираются при помощи одного из стандартных комплексов решенных при помощи электронной микроскопии. Значения энергий и интегралов перекрытия вычисляются при помощи модификации одного из стандартных пакетов, например, [http://nano-d.inrialpes.fr/software/hermitefit/ HermiteFit]. Данные генерируются за ~ 1 минуту, модификация кода и подготовка данных займет ~ 1 неделю.
 +
* '''Литература:''' Ю.Е. Нестеров Введение в выпуклую оптимизацию (доступна на сайте PreMoLab)
 +
* '''Замечания по коду:''' [[Медиа:MaximovProgrammingRequiremets.pdf|Замечания по программной реализации]]
 +
* '''Базовый алгоритм:''' Хочется попробовать выпуклые релаксации.
 +
 
 +
=== 1. Формирование однородных обучающих выборок в информационном анализе электрокардиосигналов ===
 +
* '''Консультант:''' [[Участник:Celyh|Целых Влада]]
 +
* '''Задача:'''
 +
*: ''Дано:'' две размеченные выборки объектов двух классов. Первая выборка эталонная, вторая содержит неизвестную долю выбросов — объектов с неверной классификацией.
 +
*: ''Найти:'' вычислительно эффективный способ очистки второй выборки от выбросов.
 +
*: ''Критерий:'' возрастание 10-fold CV AUC при пополнении первой обучающей выборки отфильтрованной второй выборкой.
 +
* '''Данные:''' выборки электрокардиограмм с диагнозами по 14 заболеваниям, для каждого из которых есть два типа выборок: эталонные прецеденты (прошедшие всестороннее обследование с применением современных клинических, лабораторных и инструментальных методов исследования) и случаи, когда диагнозы устанавливались терапевтом.
 +
* '''Базовый алгоритм:''' пополнение обучающей выборки всеми объектами второй выборки с отступами не менее заданного порога.
 +
* '''Литература:'''
 +
*# Воронцов К. В. [[Изображение:Voron-ML-Metric-slides.pdf|Метрические алгоритмы классификации]]. Лекции по машинному обучению. — 2014.
 +
*# Успенский В. М. Информационная функция сердца // Клиническая медицина, 2008. — Т. 86, № 5. — С. 4–13.
 +
*# Успенский В. М. Информационная функция сердца. Теория и практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. — М.: «Экономика и информация», 2008. — 116 с.
 +
*# Обзоры по outlier detection, anomaly detection, novelty detection, semisupervised learning.
 +
 
 +
=== 2. Полигон алгоритмов классификации для информационного анализа электрокардиосигналов ===
 +
* '''Консультант:''' [[Участник:Celyh|Целых Влада]]
 +
* '''Задача:''' разработка инструментальной среды для поддержки совместной работы в исследовательской группе по информационному анализу ЭКГ-сигналов.
 +
* '''Данные:''' выборки электрокардиограмм с диагнозами по 14 заболеваниям. Объекты-электрокардиограммы задаются несколькими представлениями, полученными после различных этапов предобработки (демодуляции, дискретизации, векторизации).
 +
* '''Литература:'''
 +
*# Успенский В. М. Информационная функция сердца. Теория и практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. — М.: «Экономика и информация», 2008. — 116 с.
 +
'''Базовый алгоритм:''' наивный байесовский классификатор над векторизованным представлением электрокардиограмм.
 +
 
 +
=== 3. Монотонные классификаторы с отбором признаков для задач медицинской диагностики ===
 +
* '''Консультант:''' [[Участник:Настя Зухба|Зухба Анастасия]]
 +
* '''Задача:''' реализация и исследование алгоритма обучения монотонного классификатора ближайшего соседа с отбором признаков и эталонных объектов.
 +
* '''Данные:''' выборки электрокардиограмм (в векторном представлении) с диагнозами по 14 заболеваниям.
 +
* '''Литература:'''
 +
*# Махина Г.А. О восстановлении монотонных булевых функций методом ближайшего соседа. ИОИ-9. 2012.
 +
'''Базовый алгоритм:''' наивный байесовский классификатор над векторизованным представлением электрокардиограмм.
-
===6. Ранжирование документов с помощью структурно-простых моделей ===
+
=== 6. Ранжирование документов с помощью структурно-простых моделей ===
* '''Консультант:''' А.П. Мотренко
* '''Консультант:''' А.П. Мотренко
* '''Задача:''' Решается задача поиска ранжирующей функции в задачах информационного поиска. Цель: развить или улучшить результаты работы [Goswami et al, 2014]. В работе [Goswami et al, 2014] поиск осуществляется полным перебором суперпозиций, порожденных заданной грамматикой и удовлетворяющих ограничениям, определяемым спецификой задачи. Предложенные ограничения позволяют провести перебор суперпозиций сложности (длины) до восьми включительно и обнаружить ранжирующие функции, статистически не менее точные, чем некоторые из традиционно используемых ранжирующих функций большей сложности (например, BM25 сложности 25). Возможные пути развития:
* '''Задача:''' Решается задача поиска ранжирующей функции в задачах информационного поиска. Цель: развить или улучшить результаты работы [Goswami et al, 2014]. В работе [Goswami et al, 2014] поиск осуществляется полным перебором суперпозиций, порожденных заданной грамматикой и удовлетворяющих ограничениям, определяемым спецификой задачи. Предложенные ограничения позволяют провести перебор суперпозиций сложности (длины) до восьми включительно и обнаружить ранжирующие функции, статистически не менее точные, чем некоторые из традиционно используемых ранжирующих функций большей сложности (например, BM25 сложности 25). Возможные пути развития:
Строка 414: Строка 810:
** Goswami P., Moura1 S., Gaussier E., Amini M.R. Exploring the Space of IR Functions //Advances in Information Retrieval. Lecture Notes in Computer Science. 8416:372-384, 2014.
** Goswami P., Moura1 S., Gaussier E., Amini M.R. Exploring the Space of IR Functions //Advances in Information Retrieval. Lecture Notes in Computer Science. 8416:372-384, 2014.
** [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group874/Motrenko2014FunctionLearning/doc/FurtherSteps.pdf?format=raw Описание задачи].
** [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group874/Motrenko2014FunctionLearning/doc/FurtherSteps.pdf?format=raw Описание задачи].
-
* '''Базовой алгоритм:''' Алгоритм полного перебора допустимых суперпозиций порождающих функций.
+
* '''Базовый алгоритм:''' Алгоритм полного перебора допустимых суперпозиций порождающих функций.
-
===7. Уточнение прогноза железнодорожных грузоперевозок по биржевым данным ===
 
-
* '''Консультант:'''
 
-
* '''Задача:'''
 
-
* '''Данные:''' Исторические биржевые цены на основные инструменты и данные по железнодорожным грузоперевозкам.
 
-
* '''Литература:'''
 
-
** Tools for the
 
-
** ...
 
-
* '''Базовой алгоритм:'''
 
-
=== 8. Прогнозирование третичных структур белков: оптимизация ===
+
=== 38. Разработка выпуклого обучаещего алгоритма Gibbs-SVM ===
-
* '''Консультант:''' Ю. Максимов
+
* '''Консультант:''' Ю. Максимов
-
* '''Задача:''' Предложить алгоритм оптимизации.
+
* '''Задача:''' Найти и исследовать устойчивое решение для следующей задачи, которая является продолжением метода опорных векторов.
-
* '''Данные:''' Источник М. Карасиков.
+
Нам нужно классифицировать данные исходя из значений некоторых стат сумм. Задачу можно сформулировать следующим образом,
-
* '''Литература:'''
+
-
** ... [[Медиа:LearningEmbedding.pdf |Описание задачи и предлагаемые пути решения]]
+
-
* '''Базовой алгоритм:'''
+
-
=== 9. Прогнозирование четвертичных структур белков: нивелирование ===
+
Maximize (in <tex>w</tex>):
-
* '''Консультант:''' Ю.В. Максимов
+
-
* '''Задача:''' Предложить алгоритм нивелирования.
+
-
* '''Данные:''' Источник М. Карасиков.
+
-
* '''Литература:'''
+
-
** ... [[Медиа:LearningEmbedding.pdf |Описание задачи и предлагаемые пути решения]]
+
-
* '''Базовой алгоритм:'''
+
-
=== 10. Прогнозирование объемов потребоения электроэнегргии ===
+
<tex>
-
* '''Консультант:''' Маркус Хильдман
+
\frac{C}{p}||w||_{p}^{p}+\sum_{(x,y)\in D}\left(\epsilon\ln\sum_{x}e^{-\frac{w^{T}\phi(x)+loss(x)}{\epsilon}}-\epsilon\ln\sum_{y}e^{-\frac{w^{T}\phi(y)+loss(y)}{\epsilon}}\right)
-
* '''Задача:''' Сделать элегантную систему прогнозирования.
+
</tex>
-
* '''Данные:''' Консультант.
+
-
* '''Литература:'''
+
Эта задача похожа на latent-variable SVM.
-
** ...
+
-
* '''Базовой алгоритм:'''
+
-
=== 11. Про интергральные индикаторы ===
+
* '''Данные:''' Входные данные в бинарном или matlab формате, те же, что и для стандартной SVM-задачи.
 +
* '''Рекомендации по коду:''' [[Медиа:MaximovProgrammingRequiremets.pdf|Замечания по программной реализации]]
 +
* '''Литература:''' [http://alexander-schwing.de/papers/SchwingEtAl_ICML2012.pdf Efficient Structured Prediction with Latent Variables for General Graphical Models], [http://www.cs.cornell.edu/people/tj/publications/yu_joachims_09a.pdf Learning Structural SVMs with Latent Variables] , [http://static.googleusercontent.com/media/research.google.com/en//pubs/archive/42183.pdf A Discriminative Latent Variable Model for Online Clustering] , [http://jmlr.org/proceedings/papers/v32/ping14.pdf Marginal Structured SVM with Hidden Variables]
 +
* '''Базовый алгоритм:''' concave-convex procedure (CCCP)?
 +
 
 +
=== 11. Про интегральные индикаторы ===
* '''Консультант:''' М.П. Кузнецов
* '''Консультант:''' М.П. Кузнецов
* '''Задача:'''
* '''Задача:'''
Строка 455: Строка 837:
* '''Литература:'''
* '''Литература:'''
** ...
** ...
-
* '''Базовой алгоритм:'''
+
* '''Базовый алгоритм:'''
-
=== 12. Про копулы ===
+
=== 16. Последовательный выбор моделей распознавания физической активности чесловека ===
-
* '''Консультант:''' Биляна
+
* '''Консультант:''' А.П. Мотренко
-
* '''Задача:'''
+
* '''Задача:''' На основе существующих алгоритмов [Кузнецов: 2014; Попова, Стрижов: 2014] создать алгоритм онлайн классификации типа движения пользователя, который бы определял текущий тип активности, учитывая исторические данные и пользовательские отзывы (правильно или неправильно алгоритм распознал тип движения).
-
* '''Данные:''' Консультант.
+
* '''Данные:''' показания акселерометра, трехмерные временные ряды.
-
* '''Литература:'''
+
* '''Литература:'''
-
** ...
+
** Михаил Кузнецов, 2014. [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/TSLearning\doc\TSClassification.pdf?format=raw TSClassification.pdf]
-
* '''Базовой алгоритм:'''
+
** М.С. Попова, В.В. Стрижов. Выбор оптимальной модели классификации по измерениям акселерометра. [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group174\Popova2014OptimalModelSelection\doc\Popova2014OptimalModelSelection.pdf?format=raw Popova2014OptimalModelSelection.pdf]
 +
* '''Базовый алгоритм:'''
-
=== 13. Про медицину ===
 
-
* '''Консультант:''' С.Г.
 
-
* '''Задача:'''
 
-
* '''Данные:''' Консультант.
 
-
* '''Литература:'''
 
-
** ...
 
-
* '''Базовой алгоритм:'''
 
-
=== 14. Про акселероменты -1 ===
+
 
 +
=== 31. Визуализация и частичная разметка тематической структуры текстовых коллекций ===
 +
*'''Консультант:''' [[Участник:AnyaP|Потапенко Анна]]
 +
*'''Задача:''' Разработать среду визуализации, отображающую темы, документы и термины в вероятностной тематической модели. При отображении текста документа должны отображаться принадлежности слов к темам. Предусмотреть возможность ручной разметки принадлежности слов к темам для оценивания качества модели или частичного обучения.
 +
*'''Данные:''' Коллекция статей конференций ММРО-ИОИ за несколько лет.
 +
*'''Литература:'''
 +
*# [[Медиа:Task_Potapenko_Fall.pdf| Описание задачи и предлагаемые пути решения]]
 +
*# Vorontsov K. V., Potapenko A. A. Tutorial on Probabilistic Topic Modeling: Additive Regularization for Stochastic Matrix Factorization. // Analysis of Images, Social Networks, and Texts AIST-2014.— CCIS 436, Springer.
 +
 
 +
=== 32. Тематическое моделирование новостных потоков ===
 +
* '''Консультант:''' Дойков Никита
 +
* '''Задача:''' Веб-интерфейс для визуального анализа качества динамической тематической модели. Для каждой темы, найденной моделью, должна генерироваться страница. На ней должны находиться: график темы во времени; ранжированный список сообщений, в которых была эта тема; ранжированный список терминов этой темы. Должны быть сформированы страницы сообщений, на которых можно прочитать их исходный текст, тематические слова должны быть покрашены цветами, соответствующими темам.
 +
* '''Данные:''' коллекция пресс-релизов органов государственной власти и внешнеполитических ведомств ряда стран за 10 лет, на английском языке.
 +
* '''Литература:'''
 +
*# Xuerui Wang and Andrew McCallum. Topics Over Time: a non-Markov continuous-time model of topical trends. 12th ACM SIGKDD.
 +
* '''Базовый алгоритм:''' описанные в литературе динамические тематические модели (ТОТ и др.)
 +
 
 +
=== 33. Иерархическая тематическая модель научных конференций ММРО и ИОИ ===
 +
* '''Консультант:''' Стенин Сергей, Чиркова Надежда
 +
* '''Задача:''' реализация и исследование нисходящего алгоритма построения тематической иерархии с учётом авторства; визуализация тематической иерархии в виде web-сайта с возможностью навигации по тематическому дереву и по коллекции исходных документов в PDF-формате.
 +
* '''Данные:''' коллекция статей научных конференций ММРО и ИОИ за 7 лет, на русском языке.
 +
* '''Литература:'''
 +
* '''Базовый алгоритм:''' описанные в литературе иерархические тематические модели.
 +
 
 +
=== 34. Мультиязычная тематическая модель для автоматического формирования словарей профессиональной терминологии ===
 +
* '''Консультант:''' Виктор Кантор (ABBYY), Марина Дударенко
 +
* '''Задача:''' реализация и исследование нисходящего алгоритма построения тематической иерархии с учётом авторства; визуализация тематической иерархии в виде web-сайта с возможностью навигации по тематическому дереву и по коллекции исходных документов в PDF-формате.
 +
* '''Данные:''' коллекция параллельных текстов (русский+английский) по математике и физике, предоставленная ABBYY.
 +
* '''Литература:'''
 +
* '''Базовый алгоритм:''' описанные в литературе методы выравнивания параллельных текстов, выделения терминов, формирования словарей.
 +
 
 +
=== 35. Жанровая классификация текстов ===
 +
* '''Консультант:''' Романенко Александр, Потапенко Анна
 +
* '''Задача:''' кластеризация больших текстовых интернет-коллекций по жанрам.
 +
* '''Данные:''' коллекция текстов, размеченная экспертами по функциональным категориям (предоставлена Сергеем Шаровым).
 +
* '''Литература:'''
 +
* '''Базовый алгоритм:''' описанные в литературе методы выравнивания параллельных текстов, выделения терминов, формирования словарей.
 +
 
 +
=== 36. Мультимодальная тематическая модель для персонализации показа рекламных баннеров ===
 +
* '''Консультант:''' Соколов Евгений (Яндекс), Александр Фрей
 +
* '''Задача:''' построение мультимодальной тематической модели, учитывающей клики пользователей по рекламным объявлениям для повышения точности предсказания CTR объявлений.
 +
* '''Данные:''' под NDA Яндекс, возможна отладка модели на синтетических данных.
 +
* '''Литература:'''
 +
* '''Базовый алгоритм:''' описанные в литературе тематические модели классификации (Dependency LDA И др.).
 +
 
 +
=== 37. Разработка метрик качества тематических моделей для библиотеки BigARTM ===
 +
* '''Консультант:''' Апишев Мурат
 +
* '''Задача:''' Сравнение онлайновых алгоритмов тематического моделирования текстовых коллекций, реализованных в библиотеках BigARTM и Vowpal Wabbit по производительности и качеству модели. Реализация метрик качества и средств мониторинга процесса обучения регуляризованных тематических моделей в BigARTM.
 +
* '''Данные:''' любые из доступных (примерно 10) текстовых коллекций.
 +
* '''Литература:'''
 +
*# Vorontsov K. V., Potapenko A. A. Tutorial on Probabilistic Topic Modeling: Additive Regularization for Stochastic Matrix Factorization. // Analysis of Images, Social Networks, and Texts AIST-2014.— CCIS 436, Springer.
 +
* '''Базовый алгоритм:''' PLSA, LDA.
 +
 
 +
=== 41. Классификация научных текстов по отраслям знаний ===
 +
* '''Консультант:''' Царьков Сергей
 +
* '''Задача:''' повышение качества классификации научных текстов по отраслям науки при автоматическом выделении терминов.
 +
* '''Данные:''' коллекция авторефератов диссертаций на русском языке.
 +
* '''Литература:''' статьи по term extraction.
 +
* '''Базовый алгоритм:''' наивный байесовский классификатор с отбором признаков над униграммной моделью.
 +
 
 +
== Часть 3 ==
 +
=== 5. Алгоритм авторизации пользователя на основе акселерометрического описания жестов ===
 +
* '''Консультант:''' А.П. Мотренко
 +
* '''Задача:''' Задача состоит в разработке алгоритма анализа акселерометрических временных рядов с целью распознавания движений и идентификации личности пользователя. В случае, когда жест, совершаемый пользователем, фиксирован и известен, существующие алгоритмы [Пример 1] позволяют с высокой точностью определить, выполняет ли жест авторизированный пользователь (хозяин устройства) или кто-то другой. Необходимо разработать алгоритм, на основе исторических данных определяющий пользователя, выполняющего произвольные движения, по характерным биометрическим показателям.
 +
* '''Данные:''' показания акселерометра, трехмерные временные ряды.
 +
* '''Литература:'''
 +
** Пример 1: http://www.hatori.ip.titech.ac.jp/paper_pdf/ISPACS%202006%20(final-f).pdf
 +
 
 +
=== 14. Выделение фундаментального периода при сегментировании акселерометрических временных рядов ===
* '''Консультант:''' А.А. Кузьмин
* '''Консультант:''' А.А. Кузьмин
-
* '''Задача:'''
+
* '''Задача:''' Решается задача сегментирования временных рядов в рамках задачи распознавания активности человека по сенсорным временным рядам. Предполагается наличие фундаментальной периодики, рассматриваемой как элементарная единица движения. Исходя из природы исследуемых данных и соображений интерпретируемости, на выделяемые сегменты накладывается следующее требование: каждый сегмент должен соответствовать фундаментальному периоду. Проблемы:
-
* '''Данные:''' Консультант.
+
# временные ряды не строго периодические\квазипериодические.
 +
# временные ряды состоят из множества «периодик». Необходимо выбрать из них фундаментальную.
 +
* '''Данные:''' Есть, консультант.
* '''Литература:'''
* '''Литература:'''
-
** ...
+
** Мотренко, 2014. Extracting fundamental periods to segment human motion time series. [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group874/Motrenko2014TSSEgmentation/doc/Motrenko2014TSS_eng.pdf?format=raw pdf]
-
* '''Базовой алгоритм:'''
+
* '''Базовый алгоритм:''' Выбирается пара главных компонент тракторной матрицы исследуемого временного ряда, и траектория выбранных компонент рассекается осью симметрии. Таким образом ряд разбивается на полупериоды, которые затем объединяются в период.
-
=== 15. Про акселероменты -2 ===
+
=== 25. Сравнение эффективности логических методов в задачах анализа данных ===
 +
* '''Консультант:''' Ю.В. Максимов
 +
* '''Задача:''' состоит в сравнительном исследовании качества комбинаторно-логических методов при решении задач анализа данных. В частности, сравнении методов, основанных на построении ДНФ разделяющих классы(редукционный; последовательное перемножение (Дьяконов)) и др.
 +
* '''Данные:''' Базы libsvm, uci и imagenet(файл с дип фичерсами для некоторых коллекций будет выдан консультантом).
 +
* '''Литература:''' [http://www.machinelearning.ru/wiki/images/b/b1/Logical_Methods_Maximov%28Strijov_Cource_Proposal%29.pdf приведена в файле]
 +
* '''Замечания к коду:''' [[Медиа:MaximovProgrammingRequiremets.pdf|Замечания по программной реализации]]
 +
* '''Базовый алгоритм:''' Базовый алгоритм: Решающие деревья(ID3, ID4.5, CART), построение ДНФ последовательным перемножением(Дьяконов, 2003) и другие приведенные в файлах-описаниях.
 +
 
 +
=== 24. Автоматическое построение программы научных конференций ===
* '''Консультант:''' А.А. Кузьмин
* '''Консультант:''' А.А. Кузьмин
* '''Задача:'''
* '''Задача:'''
-
* '''Данные:''' Консультант.
+
* '''Данные:'''
-
* '''Литература:'''
+
* '''Литература:'''
-
** ...
+
**
-
* '''Базовой алгоритм:'''
+
**
 +
* '''Базовый алгоритм:''' В работе [Пример 1] траектории вектора ускорения сравниваются с помощью углового расстояния между ними. Предлагается сравнивать не сами сигналы, но их фазовые траектории.
-
=== 16. Последовательный выбор моделей распознавания физической активности чесловека ===
+
=== 22. Сегментация визуальных сцен: группирование суперпикселей ===
-
* '''Консультант:''' А.А. Токмакова
+
* '''Консультант:''' И.А. Рейер
-
* '''Задача:'''
+
* '''Задача:''' В процессе подготовки
-
* '''Данные:''' Консультант.
+
* '''Данные:'''
-
* '''Литература:'''
+
* '''Литература:'''
-
** ...
+
**
-
* '''Базовой алгоритм:'''
+
**
 +
* '''Базовый алгоритм:'''
-
=== 17. Последовательный выбор моделей распознавания физической активности чесловека ===
+
=== 19. Задача двухклассовой классификации изображений ===
-
* '''Консультант:''' А.А. Токмакова
+
* '''Консультант:''' В.А.Лексин
-
* '''Задача:'''
+
* '''Задача:''' Определение что на картинке есть контакты: телефонный номер, email, ссылка и т.д.
-
* '''Данные:''' Консультант.
+
* '''Данные:''' Планируется конкурс на machinelearning.ru
* '''Литература:'''
* '''Литература:'''
-
** ...
+
** Надо искать
-
* '''Базовой алгоритм:'''
+
* '''Базовый алгоритм:''' Deep learning
=== 18. Прогнозрование вероятности клика по покупательским поисковым запросам ===
=== 18. Прогнозрование вероятности клика по покупательским поисковым запросам ===
Строка 511: Строка 967:
* '''Литература:'''
* '''Литература:'''
** ...
** ...
-
* '''Базовой алгоритм:'''
+
* '''Базовый алгоритм:'''
-
=== 19. Свободный первый уровень ===
+
=== 15. Навигация в отсутствии сигнала GPS ===
* '''Консультант:'''
* '''Консультант:'''
-
* '''Задача:'''
+
* '''Задача 1:''' Задано пространство (<i>B</i>) допустимых положений субъекта. Требуется по представленному "профилю" движения субъекта <i>m</i> определить его положение в пространстве <i>B</i>. Профиль движения может включать (не обязательно все) данные датчиков носимых приборов (смартфоны, "умные" браслеты и т.п.) — направление, ускорение, сердечный ритм, уровень сигнала и т.п.
-
* '''Данные:'''
+
* '''Задача 2:''' Построение пространства (<i>B</i>) допустимых положений субъектов по профилям движения.
 +
 
 +
* '''Данные:''' Консультант.
* '''Литература:'''
* '''Литература:'''
** ...
** ...
-
* '''Базовой алгоритм:'''
+
* '''Базовый алгоритм:'''
 +
 
=== 20. Метапрогнозирование временных рядов ===
=== 20. Метапрогнозирование временных рядов ===
* '''Консультант:''' А.С. Инякин
* '''Консультант:''' А.С. Инякин
-
* '''Задача:''' Задан набор алгоритмов прогнозирования временных рядов. По предъявленному временному ряду требуется указать алгоритм, который доставляет наиболее точный прогноз. При этом сам алгоритм выполнять не предполагается. Для решения этой задачи предлагается построить набор признаков, описывающих временной ряд Экспертно создается набор порождающих функций, которые 1) преобразуют временной ряд (например, сглаживают, раскладывают по главным компонентам), 2) извлекают из временного ряда его агрегированные описания (например,
+
* '''Задача:''' Задан набор алгоритмов прогнозирования временных рядов. По предъявленному временному ряду требуется указать алгоритм, который доставляет наиболее точный прогноз. При этом сам алгоритм выполнять не предполагается. Для решения этой задачи предлагается построить набор признаков, описывающих временной ряд Экспертно создается набор порождающих функций, которые 1) преобразуют временной ряд (например, сглаживают, раскладывают по главным компонентам), 2) извлекают из временного ряда его агрегированные описания (например, среднее, дисперсию, число экстремумов). Возможно порождение значительного количества признаков путем построения суперпозиций порождающих функций.
-
среднее, дисперсию, число экстремумов). Возможно порождение значительного количества признаков путем построения суперпозиций порождающих функций.
+
* '''Данные:''' Библиотека квазипериодических и апериодических временных рядов
* '''Данные:''' Библиотека квазипериодических и апериодических временных рядов
* '''Литература:'''
* '''Литература:'''
Строка 531: Строка 989:
** Найти дополнительную обзорную литературу по автоматическому прогнозированию.
** Найти дополнительную обзорную литературу по автоматическому прогнозированию.
-
=== 21. Идентификация человека по изображению радужной оболочки глаза ===
+
=== 27. Исправление опечаток ===
-
* '''Консультант:''' И.А. Матвеев
+
* '''Задача''': Samsung, подробная информация по требованию
-
* '''Задача:''' В проблеме идентификации человека по изображению радужной оболочки глаза (радужке) важнейшую роль играет выделение области радужки на исходном снимке (сегментация радужки). Однако, изображение радужки как правило частично закрыто (затенено) веками, ресницами, бликами, то есть часть радужки не может быть использована для распознавания и более того, использование данных с затенённых участков может порождать ложные признаки и снижать точность. Поэтому одним из важных этапов сегментации изображения радужки является
+
-
отбраковка затенённых участков.
+
-
* '''Данные:''' растровое монохромное изображение, типичный размер 640*480 пикселей (однако, возможны и другие размеры) и координаты центров и радиусы двух окружностей, аппроксимирующих зрачок и радужку.
+
-
* '''Литература:'''
+
-
** [[Медиа:TaskIris.pdf |Описание задачи и предлагаемые пути решения]]
+
-
** Monro D. University of Bath Iris Image Database // http:// www.bath.ac.uk/ elec-eng/ research/ sipg/ irisweb/
+
-
** Chinese academy of sciences institute of automation (CASIA) CASIA Iris image database // http://www.cb-sr.ia.ac.cn/IrisDatabase.htm, 2005.
+
-
** MMU Iris Image Database: Multimedia University // http:// pesonna.mmu.edu.my/ ccteo/
+
-
** Phillips P.J., Scruggs W.T., O’Toole A.J. et al. Frvt2006 and ice2006 large–scale experimental results // IEEE PAMI. 2010. V. 32. № 5. P. 831–846.
+
-
** G.Xu, Z.Zhang, Y.Ma Improving the performance of iris recogniton system using eyelids and eyelashes detection and iris image enhancement // Proc. 5Th Int. Conf. Cognitive Informatics. 2006. P.871-876.
+
-
* '''Базовый алгоритм:''' метод, использующий скользящее окно и текстурные признаки [2006: Xu, Zhang, Ma].
+
-
=== 22. Построение скелета по (какому-то) изображению ===
+
=== 28.T9 ===
-
* '''Консультант:''' И.А. Рейер
+
* '''Задача''': построить модель, предлагающую следующее слово во фразе по известным предыдущим. (подробная информация по требованию)
-
* '''Задача:'''
+
* '''Данные''': Samsung
-
* '''Данные:'''
+
-
* '''Литература:'''
+
-
**
+
-
**
+
-
* '''Базовый алгоритм:'''
+
-
=== 23. Определение движения наземных инженерных сооружений по спутниковым снимкам(*) ===
+
=== 29. Классификация в естественных языках ===
-
* '''Консультант:''' А.А. Адуенко
+
* '''Задача''': определение языка; определение кодировки (угадать правильную кодировку, если текст отображается в нечитаемом виде); классификация по темам, жанрам и т. д.(подробная информация по требованию)
-
* '''Задача:'''
+
* '''Данные''': Samsung
-
* '''Данные:'''
+
-
* '''Литература:'''
+
-
**
+
-
**
+
-
* '''Базовый алгоритм:'''
+
-
=== 24. Автоматическое построение программы научных конференций ===
+
=== 30. Вопросно-ответная система ===
-
* '''Консультант:''' А.А. Кузьмин
+
* '''Задача''': извлечение информации (какие-нибудь простые типы вопросов, подробная информация по требованию)
-
* '''Задача:'''
+
* '''Данные''': Samsung
-
* '''Данные:'''
+
-
* '''Литература:'''
+
-
**
+
-
**
+
-
* '''Базовый алгоритм:'''
+
-
=== 25. Сравнение эффективности логических методов в задачах анализа данных ===
+
=== 39. Обучение метрик в задачах полного и частичного обучения ===
* '''Консультант:''' Ю.В. Максимов
* '''Консультант:''' Ю.В. Максимов
-
* '''Задача:''' состоит в сравнительном исследовании качества комбинаторно-логических методов при решении задач анализа данных. В частности, сравнении методов, основанных на построении ДНФ разделяющих классы(редукционный; последовательное перемножение (Дьяконов)) и др.
+
* '''Задача:''' состоит в программной реализации комплекса методов выпуклой и DC-оптимизации для задачи выбора оптимальной метрики в задачах распознавания. Иными словами, в построении метрики такой, что классификация методом ближайших соседей дает высокую точность.
-
* '''Данные:''' Базы libsvm, uci и imagenet(файл с дип фичерсами для некоторых коллекций будет выдан консультантом).
+
* '''Данные:''' Birds и Fungus коллекции ImageNet с извлеченными Deep features(предоставляется консультантом).
-
* '''Литература:''' [http://www.machinelearning.ru/wiki/images/b/b1/Logical_Methods_Maximov%28Strijov_Cource_Proposal%29.pdf приведена в файле]
+
* '''Литература:''' Список литературы и описание подробное задачи приведены [[Медиа:Maximov_Metric_Learning%28Strijov_Course%29.pdf| в файле]]
-
**
+
* '''Замечания к коду:''' [[Медиа:MaximovProgrammingRequiremets.pdf|Замечания по программной реализации]]
-
**
+
* '''Базовый алгоритм:''' выпуклая релаксация задачи решаемая внутренней точкой через CVX.
-
* '''Базовый алгоритм:''' Базовый алгоритм: Решающие деревья(ID3, ID4.5, CART), построение ДНФ последовательным перемножением(Дьяконов, 2003) и другие.
+
== Сделать ==
== Сделать ==

Текущая версия


Основная часть курса

Результаты предыдущих курсов

Описание курса

Этот семестр посвящен постановке вычислительных экспериментов. Результатом эксперимента является анализ свойств математической модели, получаемой в результате решения поставленной задачи машинного обучения анализа данных. Построенная модель подготавливается к эксплуатации и представляется на языке, наиболее подходящем для эксплуатации. Cоздаются эксплуатационные интерфейсы. Результатами работы являются:

  1. эксплуатационная документация в формате systemdoics,
  2. код вычислительного эксперимента и тесты,
  3. версия кода для эксплуатаци[1],
  4. доклады и презентация.

Анализ свойств модели (алгоритма распознания, классификации, прогнозирования) включает следующие основные элементы:

  • тестирование постановки задачи и принятых (статистических) гипотез порождения данных
  • анализ ошибки или анализ регрессионных остатков,
  • анализ адекватности модели,
  • анализ условий применимости модели,
  • анализ сложности модели,
  • анализ вычислительной сложности алгоритмов построения или эксплуатации модели.

Результат выполнения работ:

  • модуль для построения модели на языке Матлаб,
  • юнит-тесты модуля,
  • вычислительный эксперимент, системные тесты: анализ свойств модели (то же),
  • модуль эксплуатации модели, код на языке эксплуатации (С, ++, #, Python, Java, CUDA, Ruby, VHDL, ...),
  • юнит-тесты эксплуатируемой части,
  • конструкторская документация в формате Systemdocs, в частности:
    • мотивация проекта,
    • формальная постановка задачи,
    • IDEF модуля построения модели,
    • IDEF модуля эксплуатации модели (если требуется),
    • описание интерфейсов,
    • описание системных тестов и их результатов,
    • описание юнит-тестов,
    • анализ производительности.

Эксплуатация модели предполагается в одном из вариантов, доступных для широкого круга пользователей:

  • модуль на Google Play,
  • модуль на сервере mvr.jmlda.org.

Научная статья: написание научной статьи приветствуется, но не входит в расписание проекта. Это связано с повышением требования к качеству статей студентов четвертого курса. Так как на третьем курсе мы подали ряд статей в журналы ВАК, то имеет смысл для некоторых работ обсудить формат статьи в журнал WebOfKnowledge.

Требования к слушателям: слушатели знают базовый курс лекций К.В. Воронцова и программируют на Матлабе.

Технология работы: время работы человека гораздо ценнее времени работы компьютера. Поэтому мы работаем следующим образом: 1) ставим задачу в формальном наиболее детализированном варианте, формально описываем алгоритм, 2) делаем вычислительные эксперименты на Матлабе, 3) полученные модели переписываем на том языке, на котором модели будут эксплуатироваться. Это может быть VHDL, в котором результатом компиляции является микросхема-процессор специального назначения увеличивающий скорость вычисления в миллионы раз, CUDA для видеопроцессоров, Java для телефонов, PL-SQL для систем коллективного пользования, Ruby on Rails для интернета.

Работа и консультации

  1. Работы сдаются в течение недели.
  2. Желательна итеративная сдача работ, начинать показ лучше в выходные.
  3. Дедлайн последней версии работы: вторник 6:00am (проверка занимает весь вторник).
  4. В отчет будет добавлен пункт об учете времени, затраченном на выполнение проекта по неделям.
  5. Каждый этап работ + 1 балл по системе (А--, А-, А, А+, А++). Несделанная работа — 0. Мотивированный перенос работы — знак «>».

Оценка + 6 = сумма.

Результаты

Автор Тема научной работы Ссылка Консультант Рецензент Доклады Буквы Сумма Оценка
Газизуллина Римма Вопросно-ответная система [2], pdf Кудинов Михаил Шинкевич Михаил BMRF GLAICUTDPRWS 16 10
Гринчук Алексей Разработка метрик качества тематических моделей для библиотеки BigARTM [3], pdf Апишев Мурат Попова Мария BRF GLAICUTD0>RWS 14 8
Ефимова Ирина Формирование однородных обучающих выборок в информационном анализе ЭКГ-сигналов [4], pdf Целых Влада Газизуллина Римма BMRF GLAI+CUTDPRWS 16.25 10
Жуков Андрей Тематическое моделирование новостных потоков [5], pdf Дойков Никита Липатова Анна BMR?F GL+AICUTDPRWS 15.25-W 9
Игнатов Андрей Полигон алгоритмов классификации для информационного анализа ЭКГ-сигналов [6], pdf Целых Влада Плавин Александр BMRF GLA++ICU>TDPRWS++ 17 10
Карасиков Михаил Прогнозирование третичных структур белков: оптимизация [7]

pdf

С.В. Грудинин,

Ю.В. Максимов

Жуков Андрей BMF GLA++ICUTDPRWS++ 16 10
Кулунчаков Андрей Ранжирование документов с помощью структурно-простых моделей [8], pdf Мотренко Анастасия Сухарева Анжелика MRF GLAIC+U+T+D+P+RWS 16.25 10
Липатова Анна Инструмент для эмпирического исследования переобучения линейных классификаторов и его приложение в задачах медицинской диагностики. [9], [10] Ишкина Шаура Карасиков Михаил BMF GLA+I+CUTDPRWS 15.5 9
Плавин Александр Визуализация и частичная разметка тематической структуры текстовых коллекций [11], pdf Потапенко Анна Игнатов Андрей RF G+LAIC++UT>DPR+>W++S 15.5+ 10
Попова Мария Последовательный выбор моделей распознавания физической активности человека [12], pdf В. В. Стрижов Швец Михаил BMRF GLA>IC++UTDPRWS 16.5 10
Сухарева Анжелика Классификация научных текстов по отраслям знаний Царьков Сергей Кулунчаков Андрей BMRF GLAI++C>>>>DP+R>S 13.75 8
Швец Михаил Монотонные классификаторы с отбором признаков для задач медицинской диагностики [13], pdf Зухба Анастасия Гринчук Алексей BMF GLAICUTDPRWS 15 9
Шинкевич Михаил Офф-лайн оценка рекомендательной системы фильмов, основанной на двух популярных подходах. [14], pdf Петр Ромов Ефимова Ирина BMR?F G+LAICUTDPRWS 16.25 10
Логинс Алвис (Sk) TOUCH: In-Memory Spatial Join by Hierarchical Data-Oriented Partitioning. [15], [16] Мотренко Анастасия Червинский Федор BMRF GLAIСUTDPRRWS+ 16.25 10
Червинский Федор (Sk) EEG Classification for Brain-Computer Interfaces [17],pdf Мотренко Анастасия Логинс Алвис BMF GL--A-ICUTDPR-WS 14 9
Усман Бен (Sk) Уточнение прогноза железнодорожных грузоперевозок по биржевым данным Стенина Мария B GLAIC-TDRW 9.75 5
Гущин Александр Задача двухклассовой классификации изображений [18] Лексин Василий GLAI-C+U-T-DP-R>WS

Расписание

Дата Что сделано Результат для обсуждения Буква
Сентябрь 3 Первая лекция. Представление нового курса, мотивация, организация работ. Две вводные лекции для новых студентов (по возможности).
10 Выбрана задача, рецензент. Доклад на 45 секунд о своем проекте. Запись в ML. Доклад B Go
17 Собрана литература. Собрана и описана выборка, сделано описание данных в текстовом виде или в IDEF0. Доклад 2й подгруппы. Список литературы. Описание данных. Literature
24 Поставлена задача. Написаны математическая постановка в формате TeX и описание базового алгоритма. Постановка задачи и алгоритм. Algorithm
Октябрь 1 Разработана архитектура и интерфейс ядра системы. Описание архитектуры в IDEF0. Idef
15 Детализирован интерфейс, написан код. Код для реальных данных. Code
22 Написаны юнит-тесты и модуль, их запускающий. Подготовлен доклад с обоснованием интерфейсов и IDEF-описания. Юнит-тесты, доклад Unit
29 Собраны и подготовлены данные, необходимые для тестирования. Доработана схема IDEF0 в части подготовки данных. Написаны и запущены системные тесты. Тесты, данные, доработанная схема IDEF0. Tests, Data
Ноябрь 5 Код оптимизирован. Отчет профайлера до и после. Profiler
12 Сделан визуальный отчет. По результатам доработки кода написана рецензия на работу. Завершенный тех.отчет, рецензия. Report, Review
19 Сделан пользовательский интерфейс и неcколько примеров использования системы. Код на сайте. Web
26 Подготовлен доклад, приведены в порядок документация и код. Обсуждение результатов, доклад F первой группы. Slides
Декабрь 3 - Доклад F второй группы.

Доклады обозначаются буквами B, M, F.


Завершение проекта, доклад

Дата Статус Докладчики
27 ноября, 21:30 плановые доклады, консультация группы Газизуллина, Шинкевич
3 декабря, 21:00 плановые доклады, фиксация букв Ефимова, Игнатов, Попова, Жуков
10 декабря, 21:00 плановые доклады, завершение курса Сухарева, Плавин, Логинс
14 декабря, 22:00 альтернативное время докладов Карасиков, Швец, Гринчук, Липатова, Червинский
17 декабря, 21:00 финальные доклады, завершение приема отчетов НИР, отправка ведомостей и отчетов в деканат Кулунчаков

Организационное:

  • Рецензенты не записываются, но выступают сразу за основным докладчиком по желанию.
  • В XX:55 первый докладчик или Михаил Шинкевич (заранее благодарен - В.С.) собирает группу в скайпе и звонит мне.


Домашние задания

10 сентября

  • Выбрать задачу и подготовить доклад о выбранной задаче на 45 секунд (первая часть группы). Содержание доклада включает:
  1. Существо и цели проекта.
  2. Важность и применимость задачи.
  3. Описание предполагаемых методов решения.
  • Создать описание проекта, заполнить разделы «Мотивация» (1.1.2) и «Литература» (1.1.3) в SystemDocs

Дополнительно для студентов Сколтеха:

  1. Получить доступ к проекту MLalgorithms на SourceForge через старосту группы, прочитать статью, загрузить MLalgorithms.
  2. Зарегистрироваться на сайте machinelearning.ru, послать логин старосте.
  3. В папке Group174 создать папку Surname2014PrijectName (См. Численные методы обучения по прецедентам (практика, В.В. Стрижов), раздел "Работа с репозиторием".)


17 сентября

  • Получить четкую постановку задачи, зафиксировать базовый алгоритм. При необходимости, расширить список литературы.
  • Собрать выборку и описать форматы и структуры данных в разделе 1.4 SystemDocs: состав выборки, основные статистики, гипотезу порождение данных. Создать описание процедуры порождения выборки в формате IDEF0.
    • Скачать и установить Ramus, разобраться с нотацией IDEF0
  • Заполнить раздел Выполнимость задачи/Feasibility. Уточнить границы применимости предлагаемых методов, прописать условия отказа от классификации.
  • Подготовить доклад о выбранной задаче на 45 секунд (вторая часть группы).


24 сентября

Создать отдельный файл LaTeX c постановкой задачи и базовым описанием алгоритма, включающими

  • описание выборки,
  • предположения и ограничения по составу выборки
  • статистические предположения о природе выборки (гипотезу порождения данных),
  • определения: что такое модель, алгоритм,
  • ограничения на множество допустимых моделей,
  • функцию ошибки, критерий качества,
  • оптимизационную постановку задачи,
  • вид эксплуатационный модели.


1 октября

  • При необходимости, доработать постановку задачи. Сделать окончательное описание базового алгоритма.
  • Создать двухуровневую схему в IDEF0 (разделы 1.2.2 и 1.2.3), желательно, разделяя стадии обучения и использования модели.
  • Описать интерфейсы (раздел 2 SystemDocs).


15 октября

Написать код.


22 октября

  • Подготовить доклад, в котором обосновываются предлагаемые интерфейсы и IDEF-описания системы.
  • Написать юнит-тесты для каждого модуля.

29 октября

  • Доделать IDEF0: детализировать блок обработки пользовательских данных, сделать второй уровень детализации. Второй уровень посвящен проверке адекватности пользовательских данных на:
  1. наличие вирусов в теле загружаемых данных (воздерживаться от выполнения команд, находящихся в теле файлов, например, mpeg),
  2. тип загружаемого файла,
  3. величину загружаемого файла,
  4. допустимость времени расчетов, сложности алгоритма распознавания (не более 15 сек, в противном случае обсуждается вариант фонового выполнения алгоритма или отправка результатов по почте),
  5. допустимость объема памяти (желательно не более 200 МБ),
  6. адекватность структуры входных данных (алгоритм не должен возвращать неадекватные результаты получив неадекватные данные, желательно сообщать о таком случае).
  • В папке data собрать реальные данные, предназначенные для демонстрации работы алгоритма (и, возможно, для тестирования, если объем данных невелик). При большом объеме данных в эту папку записываются файлы со ссылками в интернет, где можно скачать большую выборку. Вариант: ссылка находится в загрузчике данных. Подготовить описание данных в systemdocs.
  • Подготовить модель загрузки и проверки пользовательских данных. Модуль должен загружать один пользовательский файл.
  • Создать системные тесты: протестировать входные данные и запускаемый модуль. Поместить ссылку на него в раздел 5.2 SystemDocs

5 ноября

  • Используя профайлер, оптимизировать узкие места в коде. Проделанную работу описать в секции 5.3 systemdocs, используя отчеты профайлера и вставляя комментарии о проделанной работе.

На заметку:

  • Узкие места - те фрагменты кода, которые занимают значительное время при выполнении вычислительного эксперимента. Требуется показать, что при достигнуты улучшения кода при замене циклов на матричные операции или показать, что код достаточно хорошо оптимизирован. При этом необходимо в отчет вставить наиболее значимые строки из отчета профайлера. Это как правило, первые 10-15 строк. Копировать можно из html-отчета профайлера или воспользоваться функцией profile. В ней есть пример, как сохранить отчет профайлера в удобном формате. При оптимизации кода можно вставить в отчет те измерения кода, которые вы считаете удачными.
  • Также при оптимизации рекомендуется пользоваться функцией parfor - параллельный for. См. документацию "doc parfor" и пример, где показано как включать параллельный режим. Совет: конструкции вида x = x+1 или x(end+1) = y и подобные конструкции не распараллеливаются. Чтобы избежать таких конструкций, надо заранее создавать структуры/матрицы требуемого размера. Параллельные вычисления работают в Матлабе начиная с версии 2012.

12 ноября

  • Написать рецензию, назвать файл YourSurname2014Review. В заголовке рецензии - название работы, имя автора работы. В рецензии отражается, насколько качественно сделана система; удобно ли пользоваться документацией. План рецензии:
  1. Введение и мотивация:
    • мотивация автора глазами рецензента
    • альтернативные источники информации
    • место работы в области
    • резюме по мотивации (актуальность и новизна)
  2. Техническая часть.
    1. Постановка задачи: подтвердить или предложить альтернативу с обоснованием
    2. IDEF: выразить мнение об организации структуры интерфейса, пояснениях, именовании переменных, детализации.
    3. Составлено ли описание структуры данных, списка модулей.
    4. Код:
      • читаемость,
      • наличие комментариев и вспомогательных файлов,
      • отступы и структура,
      • код работает отдельно от автора.
    5. Профилирование и SystemDocs.
    6. Вычислительный эксперимент.
      • Иллюстрации оформлены в соответствии с JMLDA/Figs.
  3. Резюме в целом, мнение рецензента о работе.
  • Подготовить доклад на 1-1,5 минуты о рецензируемой работе. Рецензией можно поделиться с автором и консультантом.
  • Используя результаты вычислительного эксперимента и системного тестирования, создать поясняющие графики и таблицы и поместить их в раздел 5.2. При оформления отчета желательно разделять текст по содержанию на адекватно поименованные параграфы. В отчет должны входить:
    • Визуализация процесса выбора модели и оптимизиции структурных параметров
    • Визуализации зависимости функции потерь от уровня шума или других факторов
    • ...

19 ноября

Создать папку «web», содержащую следующие файлы:

  1. File "config.json" (name and extension should be the same). Fill this file using example placed in folder "Group074/Kuznetsov2013SSAForecasting/web/"
  2. File "main.m" with one argument variable and one resulting variable:

html = main(filname), where filename is a text string containing file name, and html is text string containing visual "web" report in html format.

  1. File "test.csv" (you can use another extension), This file should contain test object (text, time series, image, sound, video, etc.) for forecasting.
  2. Other files, that are required for function "main" (in particular file with parameters and structural parameters of forecasting model/algorithm)

For testing purposes it is strongly recommended to launch function writeHTML. It calls function "main('test.csv')" and save results into "out.html". This file should contain either "web" report about results of forecasting or error massage about some trouble with forecasting (types of errors were considered in data loading section).

Задачи

Шаблон задачи[1]

  • Название: Название решаемой прикладной задачи.
  • Задача: Описание или постановка прикладной задачи. Также возможна ссылка на классическую постановку задачи.
  • Данные: Ссылка на выборку, краткое описание данных, используемых в вычислительном эксперименте.
  • Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.
  • Базовой алгоритм: Ссылка на простой алгоритм, решающий эту задачу.

Предлагаемые задачи, часть 1

8. Прогнозирование третичных структур белков: оптимизация

  • Консультант: С.В. Грудинин, Ю.В. Максимов
  • Задача: Поиск наилучшей упаковки боковых цепей белковой структуры в предположении известного жесткого остова при помощи выпуклой оптимизации.

Более полная задача включает в себя также перебор оснований в первичной последовательность при жестком остове и называется "обратный фолдинг". Предложить алгоритм оптимизации.

Входная матрица разряжена и имеет блочный вид,


E(\underline{x})=\left[\begin{array}{c}
x_{1}^{1}\\
x_{2}^{1}\\
\vdots\\
x_{1}^{i}\\
x_{2}^{i}\\
\vdots\\
x_{1}^{N}\\
x_{2}^{N}\\
x_{3}^{N}
\end{array}\right]^{T}\left[\begin{array}{ccccccccc}
0 & 0 & \cdots & e_{11}^{k1} & e_{21}^{k1} & \cdots & e_{11}^{N1} & e_{21}^{N1} & e_{31}^{N1}\\
0 & 0 & \cdots & e_{12}^{k1} & e_{22}^{k1} & \cdots & e_{12}^{N1} & e_{22}^{N1} & e_{32}^{N1}\\
\vdots & \vdots & \ddots & \vdots & \vdots & \ddots & \vdots & \vdots & \vdots\\
e_{11}^{1i} & e_{21}^{1i} & \cdots & e_{11}^{ki} & e_{21}^{ki} & \cdots & e_{11}^{Ni} & e_{21}^{Ni} & e_{31}^{Ni}\\
e_{12}^{1i} & e_{22}^{1i} & \cdots & e_{12}^{ki} & e_{22}^{ki} & \cdots & e_{12}^{Ni} & e_{22}^{Ni} & e_{32}^{Ni}\\
\vdots & \vdots & \ddots & \vdots & \vdots & \ddots & \vdots & \vdots & \vdots\\
e_{11}^{1N} & e_{21}^{1N} & \cdots & e_{11}^{kN} & e_{21}^{kN} & \cdots & 0 & 0 & 0\\
e_{12}^{1N} & e_{22}^{1N} & \cdots & e_{12}^{kN} & e_{22}^{kN} & \cdots & 0 & 0 & 0\\
e_{13}^{1N} & e_{23}^{1N} & \cdots & e_{13}^{kN} & e_{23}^{kN} & \cdots & 0 & 0 & 0
\end{array}\right]\left[\begin{array}{c}
x_{1}^{1}\\
x_{2}^{1}\\
\vdots\\
x_{1}^{i}\\
x_{2}^{i}\\
\vdots\\
x_{1}^{N}\\
x_{2}^{N}\\
x_{3}^{N}
\end{array}\right]

Нужно решить и исследовать следующие задачи:

1) Minimization problem 1 (statistical physics)  :

\begin{align} E(\underline{x})	+bx & \rightarrow	& \textrm{min} \\
\textrm{w.r.t}.	&&	\left|| x^{k}\right||_{1}=1\;\forall k \\
	&&	x_{i}^{k}\geq0\;\forall i,k \end{align}

2) Minimization problem 2 :

\begin{align}E(\underline{x})	+bx &\rightarrow&	\textrm{min}\\
\textrm{w.r.t}.	&&	\left|| x^{k}\right||_{2}=1\;\forall k \\
		&&x_{i}^{k}\geq0\;\forall i,k \end{align}

3) Minimization problem 3 (structural biology) :

\begin{align}E(\underline{x})	+bx &\rightarrow&	\textrm{min} \\
\textrm{w.r.t}.		&&\left|| x^{k}\right||_{\infty}=1\;\forall k \\
	&&	x_{i}^{k}\geq0\;\forall i,k \end{align}

7. Уточнение прогноза железнодорожных грузоперевозок по биржевым данным

  • Консультант: Стенина (Медведникова) Мария.
  • Задача: построить алгоритм уточнения прогноза грузоперевозок, включив в модель как исторические данные о загруженности, так и внешние данные: биржевые цены на основные инструменты и нормативные документы. Рассматривается проблема обнаружения причинно-следственных связей в разнородных временных рядах. Предлагается прогностическая модель, использующая выявленные связи. При построении модели используются экспертные высказывания относительно вида связей.
  • Данные: Исторические биржевые цены на основные инструменты и данные по железнодорожным грузоперевозкам.
  • Литература:
    • Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным. pdf
    • Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И. Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла. pdf
  • Базовый алгоритм: Требуется найти.

5. Диагностика заболеваний по анализу пульсовой волны

  • Консультант: Кузнецова Рита.
  • Задача: Решается задача классификации состояния здоровья человека на основании анализа пульсовых волн. Требуется изучить набор базовых подходов и предложить новые варианты алгоритмов.
  • Данные: 1) [20]; 2) [21]
  • Литература:
    • Danbing Jia, Dongyu Zhang,Naimin Li Pulse Waveform Classification Using Support Vector Machine with Gaussian Time Warp Edit Distance Kernel, Computational and Mathematical Methods in Medicine Volume 2014 (2014)
    • Stephen R. Alty, Natalia Angarita-Jaimes, Sandrine C. Millasseau, Philip J. Chowienczy Predicting Arterial Stiffness From the Digital Volume Pulse Waveform, IEEE Trans Biomed Eng. 2007 Dec;54(12):2268-75.
    • C.C. Chiu, B.Y. Liau, S.J. Yeh, C.L. Hsu Artificial Neural Network Classification of Arterial Pulse Waveforms in Cardiovascular Diseases, Biomed 2008, Proceedings 21, pp. 129–132, 2008.
    • Almeida VG, Vieira J, Santos P, Pereira T, Pereira HC, Correia C, Pego M, Cardoso J. Machine Learning Techniques for Arterial Pressure Waveform Analysis, Journal of Personalized Medicine. 2013; 3(2):82-101.
  • Базовый алгоритм: SVM, алгоритмы кластеризации.

4. Рекомендация товаров для совместной продажи

  • Консультант: И.С. Гуз, А.А. Пимкова
  • Задача: Необходимо выделить группы товаров, продаваемых на Авито, которые являются дополняющими друг к другу (пример: автомобили и шины) и которые было бы интересно продавать совместно. При этом классический алгоритм выделения ассоциативных правил (пример - Apriori) не совсем эффективен, так как каждый товар описывается некоторой иерархией признаков (Пример: Авто -> Mazda -> 6 -> 2.0л) и эффективные правила могут содержать элементы различных иерархий (Вместе с "Авто -> Mazda -> 6" часто продаются "Шины -> Continental -> r16"). Необходимо формализовать и иметь возможность внедрить в алгоритм поиска подобных правил экспертные ограничения, запрещающие определенные классы правил, так как на их основе могут создаваться крайне не релевантные рекомендации.
  • Данные: История продаваемых совместно товаров, где каждый товар описывается набором атрибутов и принадлежит соответствующей товарной иерархии.
  • Литература:
    • Акобир Шахиди, Введение в анализ ассоциативных правил, 2002.
    • Акобир Шахиди, Apriori – масштабируемый алгоритм поиска ассоциативных правил, 2002 - http://www.basegroup.ru/library/analysis/association_rules/apriori/.
    • Сергей Ларин, Применение ассоциативных правил для стимулирования продаж>, 2003 - http://www.basegroup.ru/library/practice/salepromotion/.
    • R. Srikant, R. Agrawal, Mining Generalized Association Rules, In Proc. of the 21st International Conference on VLDB, Zurich, Switzerland, 1995.
    • J.S. Park, M.-S. Chen, and S.Y. Philip, An Effective HashBased Algorithm for Mining Association Rules, In Proc. ACM SIGMOD Int’l Conf. Management of Data, ACM Press, New York, 1995.
    • R. Agrawal, R. Srikant, Fast algorithms for mining association rules, In Proc. of the VLDB Conference, Santiago, Chile, September 1994

Базовый алгоритм: Алгоритм выделения обобщенных ассоциативных правил.

40. Определение что на картинке есть запрещенный товар

  • Консультант: В.А. Лексин
  • Задача: Двухклассовая классификация изображений
    • Часть 1: медикаменты
    • Часть 2: оружие
    • Часть 3: алкоголь и табак
  • Данные: На inclass.kaggle.com по приглашению.
  • Литература: Надо искать
  • Базовый алгоритм: Deep learning

21. Идентификация человека по изображению радужной оболочки глаза

  • Консультант: И.А. Матвеев
  • Задача: В проблеме идентификации человека по изображению радужной оболочки глаза (радужке) важнейшую роль играет выделение области радужки на исходном снимке (сегментация радужки). Однако, изображение радужки как правило частично закрыто (затенено) веками, ресницами, бликами, то есть часть радужки не может быть использована для распознавания и более того, использование данных с затенённых участков может порождать ложные признаки и снижать точность. Поэтому одним из важных этапов сегментации изображения радужки является

отбраковка затенённых участков.

  • Данные: растровое монохромное изображение, типичный размер 640*480 пикселей (однако, возможны и другие размеры) и координаты центров и радиусы двух окружностей, аппроксимирующих зрачок и радужку.
  • Литература:
    • Описание задачи и предлагаемые пути решения
    • Monro D. University of Bath Iris Image Database // http:// www.bath.ac.uk/ elec-eng/ research/ sipg/ irisweb/
    • Chinese academy of sciences institute of automation (CASIA) CASIA Iris image database // http://www.cb-sr.ia.ac.cn/IrisDatabase.htm, 2005.
    • MMU Iris Image Database: Multimedia University // http:// pesonna.mmu.edu.my/ ccteo/
    • Phillips P.J., Scruggs W.T., O’Toole A.J. et al. Frvt2006 and ice2006 large–scale experimental results // IEEE PAMI. 2010. V. 32. № 5. P. 831–846.
    • G.Xu, Z.Zhang, Y.Ma Improving the performance of iris recogniton system using eyelids and eyelashes detection and iris image enhancement // Proc. 5Th Int. Conf. Cognitive Informatics. 2006. P.871-876.
  • Базовый алгоритм: метод, использующий скользящее окно и текстурные признаки [2006: Xu, Zhang, Ma].

23. Определение движения наземных инженерных сооружений по спутниковым снимкам(*)

  • Консультант: И.А. Рейер, А.А. Адуенко
  • Задача:
  • Данные:
  • Литература:
  • Базовый алгоритм:

40. Определение точной границы зрачка

  • Консультант: И.А. Матвеев
  • Задача: Требуется разработать метод построения устойчивых точной границы и эквивалентной окружности (см. подробное описание задачи). Критерием качества алгоритма служит устойчивость найденных решений к малым вариациям исходных данных.
  • Данные: растровое монохромное изображение, типичный размер 640*480 пикселей (однако, возможны и другие размеры) и координаты центров и радиусы двух приближённых окружностей, аппроксимирующих зрачок и радужку. Тестовая выборка включает в себя несколько тысяч изображений баз BATH[1], CASIA [2], MMU[3], NDIRIS [4] с прилагающейся разметкой. Изображения в формате BMP.
  • Литература:
    • [1] Monro D. University of Bath Iris Image Database // http:// www.bath.ac.uk/ elec-eng/ research/ sipg/ irisweb/
    • [2] Chinese academy of sciences institute of automation (CASIA) CASIA Iris image database // http://www.cb-sr.ia.ac.cn/IrisDatabase.htm, 2005.
    • [3] MMU Iris Image Database: Multimedia University // http:// pesonna.mmu.edu.my/ ccteo/
    • [4] Phillips P.J., Scruggs W.T., O’Toole A.J. et al. Frvt2006 and ice2006 large–scale experimental results // IEEE PAMI. 2010. V. 32. № 5. P. 831–846.
    • Описание задачи
  • Базовый алгоритм: Один из перспективных вариантов решения — использование метода оптимального кругового пути; возможный альтернативный метод — непосредственный поиск округлого тёмного объекта в расширенном окне, заданном окружностью зрачка.

Часть 2

9. Прогнозирование четвертичных структур белков: нивелирование

  • Консультант: Ю.В. Максимов
  • Задача: Задача заключается в предсказании упаковки белковых молекул в мультимерный комплекс в приближении жестких тел. Одна из формклировок задачи записывается как невыпуклая оптимизация.

Нужно исследовать эту формулировку и предложить алгоритм решения. Suppose we have N proteins in an assembly, such that each protein i can be located in one of P positions x_{p}^{i}. N is ~ 10, P ~ 100. To each two vectors x_{i}^{p} and x_{j}^{q}, we can assign an energy function q_{0}, which is the overlap integral in the simplest approximation. Each protein position also has an associated score b_{0}. Thus, the optimal packing problem can be formulated as 
\begin{align}
x^{T}Q_{0}x+b_{0}^{T}x	&\rightarrow&	\textrm{min}\\
\textrm{w.r.t}.		&&\left\Vert x^{k}\right\Vert _{\infty}=1\;\forall k \\
	&&	x_{i}^{k}\geq0\;\forall i,k
\end{align}

  • Данные: Собираются при помощи одного из стандартных комплексов решенных при помощи электронной микроскопии. Значения энергий и интегралов перекрытия вычисляются при помощи модификации одного из стандартных пакетов, например, HermiteFit. Данные генерируются за ~ 1 минуту, модификация кода и подготовка данных займет ~ 1 неделю.
  • Литература: Ю.Е. Нестеров Введение в выпуклую оптимизацию (доступна на сайте PreMoLab)
  • Замечания по коду: Замечания по программной реализации
  • Базовый алгоритм: Хочется попробовать выпуклые релаксации.

1. Формирование однородных обучающих выборок в информационном анализе электрокардиосигналов

  • Консультант: Целых Влада
  • Задача:
    Дано: две размеченные выборки объектов двух классов. Первая выборка эталонная, вторая содержит неизвестную долю выбросов — объектов с неверной классификацией.
    Найти: вычислительно эффективный способ очистки второй выборки от выбросов.
    Критерий: возрастание 10-fold CV AUC при пополнении первой обучающей выборки отфильтрованной второй выборкой.
  • Данные: выборки электрокардиограмм с диагнозами по 14 заболеваниям, для каждого из которых есть два типа выборок: эталонные прецеденты (прошедшие всестороннее обследование с применением современных клинических, лабораторных и инструментальных методов исследования) и случаи, когда диагнозы устанавливались терапевтом.
  • Базовый алгоритм: пополнение обучающей выборки всеми объектами второй выборки с отступами не менее заданного порога.
  • Литература:
    1. Воронцов К. В. Изображение:Voron-ML-Metric-slides.pdf. Лекции по машинному обучению. — 2014.
    2. Успенский В. М. Информационная функция сердца // Клиническая медицина, 2008. — Т. 86, № 5. — С. 4–13.
    3. Успенский В. М. Информационная функция сердца. Теория и практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. — М.: «Экономика и информация», 2008. — 116 с.
    4. Обзоры по outlier detection, anomaly detection, novelty detection, semisupervised learning.

2. Полигон алгоритмов классификации для информационного анализа электрокардиосигналов

  • Консультант: Целых Влада
  • Задача: разработка инструментальной среды для поддержки совместной работы в исследовательской группе по информационному анализу ЭКГ-сигналов.
  • Данные: выборки электрокардиограмм с диагнозами по 14 заболеваниям. Объекты-электрокардиограммы задаются несколькими представлениями, полученными после различных этапов предобработки (демодуляции, дискретизации, векторизации).
  • Литература:
    1. Успенский В. М. Информационная функция сердца. Теория и практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. — М.: «Экономика и информация», 2008. — 116 с.

Базовый алгоритм: наивный байесовский классификатор над векторизованным представлением электрокардиограмм.

3. Монотонные классификаторы с отбором признаков для задач медицинской диагностики

  • Консультант: Зухба Анастасия
  • Задача: реализация и исследование алгоритма обучения монотонного классификатора ближайшего соседа с отбором признаков и эталонных объектов.
  • Данные: выборки электрокардиограмм (в векторном представлении) с диагнозами по 14 заболеваниям.
  • Литература:
    1. Махина Г.А. О восстановлении монотонных булевых функций методом ближайшего соседа. ИОИ-9. 2012.

Базовый алгоритм: наивный байесовский классификатор над векторизованным представлением электрокардиограмм.

6. Ранжирование документов с помощью структурно-простых моделей

  • Консультант: А.П. Мотренко
  • Задача: Решается задача поиска ранжирующей функции в задачах информационного поиска. Цель: развить или улучшить результаты работы [Goswami et al, 2014]. В работе [Goswami et al, 2014] поиск осуществляется полным перебором суперпозиций, порожденных заданной грамматикой и удовлетворяющих ограничениям, определяемым спецификой задачи. Предложенные ограничения позволяют провести перебор суперпозиций сложности (длины) до восьми включительно и обнаружить ранжирующие функции, статистически не менее точные, чем некоторые из традиционно используемых ранжирующих функций большей сложности (например, BM25 сложности 25). Возможные пути развития:
    • предложить алгоритм направленного поиска суперпозиций большей сложности на основе полученных результатов.
    • модифицировать базовый алгоритм и найти более оптимальную ранжирующую функцию.
  • Данные: Данные по текстовым коллекциям LIG. Объектами выборки являются пары документ-запрос (d, q), документы коллекции отранжированы экспертно для каждого запроса. Для каждого слова w из запроса q вычисляются значение ранжирующей функции f(x, y, k), зависящей от трех переменных:
  1. x — нормализованная частота встречаемости слова w в документе d:  x = t_d^{w}\log(1 + c\cdot l_{avg}/l_d), где t_d^{w} — частота встречаемости слова w в документе d (вычисляется для каждого слова из q), l_{d} длина документа в коллекции, l_{avg} — средняя длина документа в коллекции, c\in{\mathbb{R}} — некий параметр.
  2. y — нормализованная частота встречаемости слова w в коллекции:  y = \frac{N_w}{N}, где N_w — количество документов в коллекции, содержащих слово w, N — общее число документов в коллекции.
  3. k — действительнозначный параметр.
  • Литература:
    • Goswami P., Moura1 S., Gaussier E., Amini M.R. Exploring the Space of IR Functions //Advances in Information Retrieval. Lecture Notes in Computer Science. 8416:372-384, 2014.
    • Описание задачи.
  • Базовый алгоритм: Алгоритм полного перебора допустимых суперпозиций порождающих функций.


38. Разработка выпуклого обучаещего алгоритма Gibbs-SVM

  • Консультант: Ю. Максимов
  • Задача: Найти и исследовать устойчивое решение для следующей задачи, которая является продолжением метода опорных векторов.

Нам нужно классифицировать данные исходя из значений некоторых стат сумм. Задачу можно сформулировать следующим образом,

Maximize (in w):


\frac{C}{p}||w||_{p}^{p}+\sum_{(x,y)\in D}\left(\epsilon\ln\sum_{x}e^{-\frac{w^{T}\phi(x)+loss(x)}{\epsilon}}-\epsilon\ln\sum_{y}e^{-\frac{w^{T}\phi(y)+loss(y)}{\epsilon}}\right)

Эта задача похожа на latent-variable SVM.

11. Про интегральные индикаторы

  • Консультант: М.П. Кузнецов
  • Задача:
  • Данные: Интернет
  • Литература:
    • ...
  • Базовый алгоритм:

16. Последовательный выбор моделей распознавания физической активности чесловека

  • Консультант: А.П. Мотренко
  • Задача: На основе существующих алгоритмов [Кузнецов: 2014; Попова, Стрижов: 2014] создать алгоритм онлайн классификации типа движения пользователя, который бы определял текущий тип активности, учитывая исторические данные и пользовательские отзывы (правильно или неправильно алгоритм распознал тип движения).
  • Данные: показания акселерометра, трехмерные временные ряды.
  • Литература:
  • Базовый алгоритм:


31. Визуализация и частичная разметка тематической структуры текстовых коллекций

  • Консультант: Потапенко Анна
  • Задача: Разработать среду визуализации, отображающую темы, документы и термины в вероятностной тематической модели. При отображении текста документа должны отображаться принадлежности слов к темам. Предусмотреть возможность ручной разметки принадлежности слов к темам для оценивания качества модели или частичного обучения.
  • Данные: Коллекция статей конференций ММРО-ИОИ за несколько лет.
  • Литература:
    1. Описание задачи и предлагаемые пути решения
    2. Vorontsov K. V., Potapenko A. A. Tutorial on Probabilistic Topic Modeling: Additive Regularization for Stochastic Matrix Factorization. // Analysis of Images, Social Networks, and Texts AIST-2014.— CCIS 436, Springer.

32. Тематическое моделирование новостных потоков

  • Консультант: Дойков Никита
  • Задача: Веб-интерфейс для визуального анализа качества динамической тематической модели. Для каждой темы, найденной моделью, должна генерироваться страница. На ней должны находиться: график темы во времени; ранжированный список сообщений, в которых была эта тема; ранжированный список терминов этой темы. Должны быть сформированы страницы сообщений, на которых можно прочитать их исходный текст, тематические слова должны быть покрашены цветами, соответствующими темам.
  • Данные: коллекция пресс-релизов органов государственной власти и внешнеполитических ведомств ряда стран за 10 лет, на английском языке.
  • Литература:
    1. Xuerui Wang and Andrew McCallum. Topics Over Time: a non-Markov continuous-time model of topical trends. 12th ACM SIGKDD.
  • Базовый алгоритм: описанные в литературе динамические тематические модели (ТОТ и др.)

33. Иерархическая тематическая модель научных конференций ММРО и ИОИ

  • Консультант: Стенин Сергей, Чиркова Надежда
  • Задача: реализация и исследование нисходящего алгоритма построения тематической иерархии с учётом авторства; визуализация тематической иерархии в виде web-сайта с возможностью навигации по тематическому дереву и по коллекции исходных документов в PDF-формате.
  • Данные: коллекция статей научных конференций ММРО и ИОИ за 7 лет, на русском языке.
  • Литература:
  • Базовый алгоритм: описанные в литературе иерархические тематические модели.

34. Мультиязычная тематическая модель для автоматического формирования словарей профессиональной терминологии

  • Консультант: Виктор Кантор (ABBYY), Марина Дударенко
  • Задача: реализация и исследование нисходящего алгоритма построения тематической иерархии с учётом авторства; визуализация тематической иерархии в виде web-сайта с возможностью навигации по тематическому дереву и по коллекции исходных документов в PDF-формате.
  • Данные: коллекция параллельных текстов (русский+английский) по математике и физике, предоставленная ABBYY.
  • Литература:
  • Базовый алгоритм: описанные в литературе методы выравнивания параллельных текстов, выделения терминов, формирования словарей.

35. Жанровая классификация текстов

  • Консультант: Романенко Александр, Потапенко Анна
  • Задача: кластеризация больших текстовых интернет-коллекций по жанрам.
  • Данные: коллекция текстов, размеченная экспертами по функциональным категориям (предоставлена Сергеем Шаровым).
  • Литература:
  • Базовый алгоритм: описанные в литературе методы выравнивания параллельных текстов, выделения терминов, формирования словарей.

36. Мультимодальная тематическая модель для персонализации показа рекламных баннеров

  • Консультант: Соколов Евгений (Яндекс), Александр Фрей
  • Задача: построение мультимодальной тематической модели, учитывающей клики пользователей по рекламным объявлениям для повышения точности предсказания CTR объявлений.
  • Данные: под NDA Яндекс, возможна отладка модели на синтетических данных.
  • Литература:
  • Базовый алгоритм: описанные в литературе тематические модели классификации (Dependency LDA И др.).

37. Разработка метрик качества тематических моделей для библиотеки BigARTM

  • Консультант: Апишев Мурат
  • Задача: Сравнение онлайновых алгоритмов тематического моделирования текстовых коллекций, реализованных в библиотеках BigARTM и Vowpal Wabbit по производительности и качеству модели. Реализация метрик качества и средств мониторинга процесса обучения регуляризованных тематических моделей в BigARTM.
  • Данные: любые из доступных (примерно 10) текстовых коллекций.
  • Литература:
    1. Vorontsov K. V., Potapenko A. A. Tutorial on Probabilistic Topic Modeling: Additive Regularization for Stochastic Matrix Factorization. // Analysis of Images, Social Networks, and Texts AIST-2014.— CCIS 436, Springer.
  • Базовый алгоритм: PLSA, LDA.

41. Классификация научных текстов по отраслям знаний

  • Консультант: Царьков Сергей
  • Задача: повышение качества классификации научных текстов по отраслям науки при автоматическом выделении терминов.
  • Данные: коллекция авторефератов диссертаций на русском языке.
  • Литература: статьи по term extraction.
  • Базовый алгоритм: наивный байесовский классификатор с отбором признаков над униграммной моделью.

Часть 3

5. Алгоритм авторизации пользователя на основе акселерометрического описания жестов

  • Консультант: А.П. Мотренко
  • Задача: Задача состоит в разработке алгоритма анализа акселерометрических временных рядов с целью распознавания движений и идентификации личности пользователя. В случае, когда жест, совершаемый пользователем, фиксирован и известен, существующие алгоритмы [Пример 1] позволяют с высокой точностью определить, выполняет ли жест авторизированный пользователь (хозяин устройства) или кто-то другой. Необходимо разработать алгоритм, на основе исторических данных определяющий пользователя, выполняющего произвольные движения, по характерным биометрическим показателям.
  • Данные: показания акселерометра, трехмерные временные ряды.
  • Литература:

14. Выделение фундаментального периода при сегментировании акселерометрических временных рядов

  • Консультант: А.А. Кузьмин
  • Задача: Решается задача сегментирования временных рядов в рамках задачи распознавания активности человека по сенсорным временным рядам. Предполагается наличие фундаментальной периодики, рассматриваемой как элементарная единица движения. Исходя из природы исследуемых данных и соображений интерпретируемости, на выделяемые сегменты накладывается следующее требование: каждый сегмент должен соответствовать фундаментальному периоду. Проблемы:
  1. временные ряды не строго периодические\квазипериодические.
  2. временные ряды состоят из множества «периодик». Необходимо выбрать из них фундаментальную.
  • Данные: Есть, консультант.
  • Литература:
    • Мотренко, 2014. Extracting fundamental periods to segment human motion time series. pdf
  • Базовый алгоритм: Выбирается пара главных компонент тракторной матрицы исследуемого временного ряда, и траектория выбранных компонент рассекается осью симметрии. Таким образом ряд разбивается на полупериоды, которые затем объединяются в период.

25. Сравнение эффективности логических методов в задачах анализа данных

  • Консультант: Ю.В. Максимов
  • Задача: состоит в сравнительном исследовании качества комбинаторно-логических методов при решении задач анализа данных. В частности, сравнении методов, основанных на построении ДНФ разделяющих классы(редукционный; последовательное перемножение (Дьяконов)) и др.
  • Данные: Базы libsvm, uci и imagenet(файл с дип фичерсами для некоторых коллекций будет выдан консультантом).
  • Литература: приведена в файле
  • Замечания к коду: Замечания по программной реализации
  • Базовый алгоритм: Базовый алгоритм: Решающие деревья(ID3, ID4.5, CART), построение ДНФ последовательным перемножением(Дьяконов, 2003) и другие приведенные в файлах-описаниях.

24. Автоматическое построение программы научных конференций

  • Консультант: А.А. Кузьмин
  • Задача:
  • Данные:
  • Литература:
  • Базовый алгоритм: В работе [Пример 1] траектории вектора ускорения сравниваются с помощью углового расстояния между ними. Предлагается сравнивать не сами сигналы, но их фазовые траектории.

22. Сегментация визуальных сцен: группирование суперпикселей

  • Консультант: И.А. Рейер
  • Задача: В процессе подготовки
  • Данные:
  • Литература:
  • Базовый алгоритм:

19. Задача двухклассовой классификации изображений

  • Консультант: В.А.Лексин
  • Задача: Определение что на картинке есть контакты: телефонный номер, email, ссылка и т.д.
  • Данные: Планируется конкурс на machinelearning.ru
  • Литература:
    • Надо искать
  • Базовый алгоритм: Deep learning

18. Прогнозрование вероятности клика по покупательским поисковым запросам

  • Консультант: М.П. Кузнецов
  • Задача:
  • Данные: Есть
  • Литература:
    • ...
  • Базовый алгоритм:

15. Навигация в отсутствии сигнала GPS

  • Консультант:
  • Задача 1: Задано пространство (B) допустимых положений субъекта. Требуется по представленному "профилю" движения субъекта m определить его положение в пространстве B. Профиль движения может включать (не обязательно все) данные датчиков носимых приборов (смартфоны, "умные" браслеты и т.п.) — направление, ускорение, сердечный ритм, уровень сигнала и т.п.
  • Задача 2: Построение пространства (B) допустимых положений субъектов по профилям движения.
  • Данные: Консультант.
  • Литература:
    • ...
  • Базовый алгоритм:


20. Метапрогнозирование временных рядов

  • Консультант: А.С. Инякин
  • Задача: Задан набор алгоритмов прогнозирования временных рядов. По предъявленному временному ряду требуется указать алгоритм, который доставляет наиболее точный прогноз. При этом сам алгоритм выполнять не предполагается. Для решения этой задачи предлагается построить набор признаков, описывающих временной ряд Экспертно создается набор порождающих функций, которые 1) преобразуют временной ряд (например, сглаживают, раскладывают по главным компонентам), 2) извлекают из временного ряда его агрегированные описания (например, среднее, дисперсию, число экстремумов). Возможно порождение значительного количества признаков путем построения суперпозиций порождающих функций.
  • Данные: Библиотека квазипериодических и апериодических временных рядов
  • Литература:
    • Кузнецов М.П., Мафусалов А.А., Животовский Н.К., Зайцев Е., Сунгуров Д.С. Сглаживающие алгоритмы прогнозирования // Машинное обучение и анализ данных, 2011. T.1, №1. C.104-112.
    • Фадеев И.В., Ивкин Н.П., Савинов Н.А., Корниенко А.И., Кононенко Д.С., Джамтырова Р.Б. Авторегрессионные алгоритмы прогнозирования // Машинное обучение и анализ данных, 2011. T.1, №1. C.92-103.
    • Найти дополнительную обзорную литературу по автоматическому прогнозированию.

27. Исправление опечаток

  • Задача: Samsung, подробная информация по требованию

28.T9

  • Задача: построить модель, предлагающую следующее слово во фразе по известным предыдущим. (подробная информация по требованию)
  • Данные: Samsung

29. Классификация в естественных языках

  • Задача: определение языка; определение кодировки (угадать правильную кодировку, если текст отображается в нечитаемом виде); классификация по темам, жанрам и т. д.(подробная информация по требованию)
  • Данные: Samsung

30. Вопросно-ответная система

  • Задача: извлечение информации (какие-нибудь простые типы вопросов, подробная информация по требованию)
  • Данные: Samsung

39. Обучение метрик в задачах полного и частичного обучения

  • Консультант: Ю.В. Максимов
  • Задача: состоит в программной реализации комплекса методов выпуклой и DC-оптимизации для задачи выбора оптимальной метрики в задачах распознавания. Иными словами, в построении метрики такой, что классификация методом ближайших соседей дает высокую точность.
  • Данные: Birds и Fungus коллекции ImageNet с извлеченными Deep features(предоставляется консультантом).
  • Литература: Список литературы и описание подробное задачи приведены в файле
  • Замечания к коду: Замечания по программной реализации
  • Базовый алгоритм: выпуклая релаксация задачи решаемая внутренней точкой через CVX.

Сделать

Написать методические рекомендации для руководителей по планированию и проверке результатов работ.


Примечания

Личные инструменты