Анализ поведения по сигналам носимых устройств

Материал из MachineLearning.

Перейти к: навигация, поиск

Короткий адрес: http://bit.ly/2r3y70F

Содержание

Проекты

Задача

  • Название: Порождение признаков с помощью локально-аппроксимирующих моделей
  • Задача: Требуется проверить выполнимость гипотезы о простоте выборки для порожденных признаков. Признаки - оптимальные параметры аппроксимирующих моделей. При этом вся выборка не является простой и требует смеси моделей для ее аппроксимации. Исследовать информативность порожденных признаков - параметров аппроксимирующих моделей, обученных на сегментах исходного временного ряда.
  • Данные:
    • WISDM (Kwapisz, J.R., G.M. Weiss, and S.A. Moore. 2011. Activity recognition using cell phone accelerometers. ACM SigKDD Explorations Newsletter. 12(2):74–82.), USC-HAD или сложнее. Данные акселерометра (Human activity recognition using smart phone embedded sensors: A Linear Dynamical Systems method, W Wang, H Liu, L Yu, F Sun - Neural Networks (IJCNN), 2014)
    • (Временной ряд (библиотека примеров), раздел Accelerometry).
  • Литература:
    • Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1471-1483.[1]
    • Карасиков М.Е., Стрижов В.В. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика и ее применения, 2016.URL
    • Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. URL
    • Исаченко Р.В., Стрижов В.В. Метрическое обучение в задачах многоклассовой классификации временных рядов // Информатика и ее применения, 2016, 10(2) : 48-57. URL
    • Задаянчук А.И., Попова М.С., Стрижов В.В. Выбор оптимальной модели классификации физической активности по измерениям акселерометра // Информационные технологии, 2016. URL
    • Motrenko A.P., Strijov V.V. Extracting fundamental periods to segment human motion time series // Journal of Biomedical and Health Informatics, 2016, Vol. 20, No. 6, 1466 - 1476. URL
    • Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single triaxial accelerometer // Multimedia Tools and Applications, 2015, 17.05.2015 : 1-14. URL
    • Аникеев Д.А., Пенкин Г.О., Стрижов В.В. Классификация физической активности человека с помощью локальных аппроксимирующих моделей // Информатика и ее применения, 2018, 18(1) : 144-145. [2]
    • Isachenko R.V., Bochkarev А.М., Zharikov I.N., Strijov V.V. Feature Generation for Physical Activity Classification // Artificial Intelligence and Decision Making, 2018, 3 : 20-27. [3]
  • Базовый алгоритм: Описан в работе Кузнецова, Ивкина.
  • Решение: Требуется построить набор локально-аппроксимирующих моделей и выбрать наиболее адекватные.
  • Новизна: Создан стандарт построения локально-аппроксимирующих моделей.
  • Авторы: С.Д. Иванычев, Р.Г. Нейчев, В.В. Стрижов



Задача 7 (1)

PAN 2017 (http://pan.webis.de/clef17/pan17-web/author-identification.html) PAN 2016 (http://pan.webis.de/clef16/pan16-web/author-identification.html)

  • Литература:

1. Ian Goodfellow. NIPS 2016 Tutorial: Generative Adversarial Networks (https://arxiv.org/pdf/1701.06547.pdf) 2. Jiwei Li, Will Monroe, Tianlin Shi, Sebastien Jean, Alan Ritter and Dan Jurafsky. Adversarial Learning for Neural Dialogue Generation(https://arxiv.org/pdf/1701.06547.pdf) 3. M. Kuznetsov, A. Motrenko, R. Kuznetsova, V. Strijov. Methods for Intrinsic Plagiarism Detection and Author Diarization (https://pdfs.semanticscholar.org/1011/6d82a8438c78877a8a142be47c4ee8662138.pdf) 4. K. Safin, R. Kuznetsova. Style Breach Detection with Neural Sentence Embeddings (https://pdfs.semanticscholar.org/c70e/7f8fbc561520accda7eea2f9bbf254edb255.pdf)

  • Базовый алгоритм: решение, описанное в [3, 4].
  • Решение: предлагается решать задачу, используя generative adversarial networks — генеративная модель порождает тексты в одном авторском стиле, дискриминативная модель — бинарный классификатор.
  • Новизна: предполагается, что решение этой задачи предлагаемым методом может дать прирост качества по сравнению с типичными методами решениями этой задачи, а также связанных с ней задач кластеризации авторов.
  • Авторы: Рита Кузнецова (консультант), В. В. Стрижов

Задача 8 (1)

  • Название: Получение оценок правдоподобия с использованием автокодировщиков
  • Задача: предполагается, что рассматриваемые объекты подчиняются гипотезе многообразия (manifold learning) — вектора высокий размерности сосредоточились вокруг некоторого подпространства меньшей размерности. Работы [1, 2] показывают, что некоторые модификации автокодировщиков ищут k-мерное многообразие в пространстве объектов, которое наиболее полно передает структуру данных. В работе [2] выводится оценка плотности вероятности данных с помощью автокодировщика. Требуется получить эту оценку на правдоподобие модели.
  • Данные: предлагается провести эксперимент на коротких текстовых фрагментах Google ngrams (http://storage.googleapis.com/books/ngrams/books/datasetsv2.html)
  • Литература:
    1. Pascal Vincent, Hugo Larochelle, Isabelle Lajoie, Yoshua Bengio, Pierre-Antoine Manzagol. Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion (http://www.jmlr.org/papers/volume11/vincent10a/vincent10a.pdf).
    2. Guillaume Alain, Yoshua Bengio. What Regularized Auto-Encoders Learn from the Data Generating Distribution (https://arxiv.org/pdf/1211.4246.pdf)
    3. Hanna Kamyshanska, Roland Memisevic. The Potential Energy of an Autoencoder (https://www.iro.umontreal.ca/~memisevr/pubs/AEenergy.pdf)
  • Базовый алгоритм:
  • Решение: в задаче предлагается обучить векторные представления для фраз (n-грамм) с использованием автокодировщика, с помощью теоремы 2 в работе [2] получить оценку на правдоподобие выборки и, с помощью этой оценки, вывести правдоподобие модели. С помощью полученных оценок можно также рассмотреть процесс сэмплирования.
  • Новизна: получение оценок правдоподобия данных и правдоподобия модели, порождение текстов с помощью полученных оценок.
  • Авторы: Рита Кузнецова (консультант).

Задача 9 (1)

  • Название: Предсказание свойств и типов атомов в молекулярных графах при помощи сверточных сетей.
  • Задача: Multilabel classification using convolutional neural networks (CNN) on graphs.

Для предсказания взаимодействия молекул друг с другом зачастую необходимо правильно описать составляющие их атомы, поставив им в соответствие некоторые типы. Для маленьких молекул доступно не так много дескрипторов: координаты и химические элементы атомов, длины связей и величины углов между ними. Используя эти признаки, мы успешно предсказываем гибридизации атомов и типы связей. При таком подходе каждый атом рассматривается «по отдельности», информация о соседних атомах, необходимая для определения типа атома, практически не используется, и типы атомов определяются с помощью проверки большого числа условий. В то же время, молекулы представимы в виде трехмерных молекулярных графов, и было бы интересно использовать это для предсказания их типов методами машинного обучения, например, с помощью CNN. Необходимо предсказать типы вершин и рёбер молекулярных графов :

    • тип атома (тип вершины графа, около 150 классов),
    • гибридизацию атома (вспомогательный признак, тип вершины, 4 класса),
    • тип связи (вспомогательный признак, тип ребра, 5 классов).

Тип атома (вершины графа) основан на информации о его гибридизации и свойствах соседних с ним атомов. Поэтому в случае успешного решения задачи классификации можно провести кластеризацию для поиска других способов определения типов атомов.

  • Данные: Около 15 тысяч молекул, представленных в виде молекулярных графов. Для каждой вершины (атома) известны 3D координаты и химический элемент. Дополнительно посчитаны длины связей, величины углов и двугранных углов между атомами (3D координаты графа), бинарные признаки, отражающие, входит ли атом в цикл и является ли он терминальным. Выборка размечена, однако в размеченных данных может содержаться ~5 % ошибок.

Если данных будет недостаточно, возможно увеличение выборки (до 200 тысяч молекул), сопряженное с увеличением неточности в разметке.

  • Литература:
  • Базовой алгоритм: Предсказание гибридизаций и порядков связей с помощью мультиклассового нелинейного SVM с небольшим числом дескрипторов. https://hal.inria.fr/hal-01381010/document
  • Решение: Предлагаемое решение задачи и способы проведения исследования.

Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма. На первом этапе нужно будет определить операции на графах, необходимые для построения архитектуры сети. Далее нужно будет обучить сеть для мульти-классовой классификации типов вершин (и ребер) входного графа. Для оценки качества алгоритма предполагается оценивать точность с помощью кросс-валидации. Для конечной публикации (в профильном журнале) нужно будет сделать специфический тест на качество предсказаний: на основе предсказанных типов связи молекула записывается в виде строки (в формате SMILES) и сравнивается с образцом. В этом случае для каждой молекулы предсказание будет считаться верным, только если типы всех связей в ней были предсказаны без ошибок.

  • Новизна: Предложенные молекулярные графы обладают 3D структурой и внутренней иерархией, что делает их идеальным объектом применения CNN.
  • Авторы: Сергей Грудинин, Мария Кадукова, В. В. Стрижов.

Данные, ссылки на коллекции

Библиографические коллекции

Категория:Статьи

https://doi.org/10.1109/TNNLS.2016.2531089
https://doi.org/10.1007/s10444-016-9483-y
https://doi.org/10.1007/s00521-015-2039-0
https://doi.org/10.1016/j.neucom.2018.02.074
https://academic.oup.com/biostatistics/advance-article/doi/10.1093/biostatistics/kxx070/4788724
https://doi.org/10.1016/j.ins.2018.02.041
https://doi.org/10.1016/j.asoc.2017.11.037
https://doi.org/10.1016/j.asoc.2018.01.002
https://doi.org/10.1002/bimj.201700021
https://doi.org/10.1007/s11063-017-9592-8
https://web.stanford.edu/~hallac/GGS.pdf
http://eprints.lse.ac.uk/64863/8/Fryzlewicz_Multiple%20change-point%20detection_2017_published%20LSERO.pdf
https://doi.org/10.1177/0278364917713116
https://doi.org/10.1109/JSEN.2017.2703859
https://doi.org/10.1117/12.2262918
https://doi.org/10.1145/3014812.3014875
https://doi.org/10.1145/3056540.3076194
https://doi.org/10.1016/j.procs.2016.05.345
https://doi.org/10.1177/1550147716683687
https://doi.org/10.1109/35021BIGCOMP.2015.7072841
https://dl.acm.org/citation.cfm?id=2997017
https://doi.org/10.1016/j.ins.2017.11.045
http://www.mdpi.com/1424-8220/18/4/1126/htm
http://www.mdpi.com/1424-8220/18/2/623/htm
https://doi.org/10.1007/s11042-015-3188-y
https://doi.org/10.1142/S021951941850015X
https://doi.org/10.1016/j.ins.2017.11.045
Карасиков М.Е., Стрижов В.В. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика и ее применения, 2016. [URL]
Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. [URL]
Исаченко Р.В., Стрижов В.В. Метрическое обучение в задачах многоклассовой классификации временных рядов // Информатика и ее применения, 2016, 10(2) : 48-57. [URL]
Задаянчук А.И., Попова М.С., Стрижов В.В. Выбор оптимальной модели классификации физической активности по измерениям акселерометра // Информационные технологии, 2016. [URL]
Motrenko A.P., Strijov V.V. Extracting fundamental periods to segment human motion time series // Journal of Biomedical and Health Informatics, 2015, PP(99). [URL]
Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single triaxial accelerometer // Multimedia Tools and Applications, 2015, 17.05.2015 : 1-14. [URL] И прочие работы по этой теме тут www.ccas.ru/strijov
Личные инструменты