Математические методы анализа текстов (ВМиК МГУ) / 2018

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Семинары)
(Результаты проверки)
Строка 113: Строка 113:
! Лабораторная № 3
! Лабораторная № 3
! Лабораторная № 4
! Лабораторная № 4
 +
! Доклад + выступление
! Итог
! Итог
|-
|-
Строка 120: Строка 121:
|
|
|
|
 +
|
|
|
|-
|-
| Белобородов Дмитрий
| Белобородов Дмитрий
| 9
| 9
 +
|
|
|
|
|
Строка 131: Строка 134:
| Бобров Евгений
| Бобров Евгений
| 7
| 7
 +
|
|
|
|
|
Строка 138: Строка 142:
| Бобров Роман
| Бобров Роман
| 4.5
| 4.5
 +
|
|
|
|
|
Строка 145: Строка 150:
| Гарипов Тимур
| Гарипов Тимур
| 8
| 8
 +
|
|
|
|
|
Строка 152: Строка 158:
| Драпак Степан
| Драпак Степан
| 8
| 8
 +
|
|
|
|
|
Строка 159: Строка 166:
| Каюмов Эмиль
| Каюмов Эмиль
| 7.8
| 7.8
 +
|
|
|
|
|
Строка 166: Строка 174:
| Коваленко Павел
| Коваленко Павел
| 6.5
| 6.5
 +
|
|
|
|
|
Строка 173: Строка 182:
| Лунин Дмитрий
| Лунин Дмитрий
| 5.4
| 5.4
 +
|
|
|
|
|
Строка 180: Строка 190:
| Николаев Владимир
| Николаев Владимир
| 4
| 4
 +
|
|
|
|
|
Строка 187: Строка 198:
| Пиджакова Анна
| Пиджакова Анна
| 4.5
| 4.5
 +
|
|
|
|
|
Строка 194: Строка 206:
| Полыковский Даниил
| Полыковский Даниил
| 8
| 8
 +
|
|
|
|
|
Строка 202: Строка 215:
| 9
| 9
|
|
 +
|
|
|
|
|
Строка 210: Строка 224:
|
|
|
|
 +
|
|
|
|
|
Строка 216: Строка 231:
| 2.5
| 2.5
|
|
 +
|
|
|
|
|
Строка 222: Строка 238:
| Ходырева Виктория
| Ходырева Виктория
| 8
| 8
 +
|
|
|
|
|
Строка 230: Строка 247:
| 8
| 8
|
|
 +
|
|
|
|
|

Версия 12:11, 30 марта 2018

Содержание

Курс посвящен методам анализа текстов на основе статистики и машинного обучения.

Курс читается магистрам 1го года кафедры «Математические методы прогнозирования» ВМК МГУ.

Обработка естественного языка (Natural Language Processing) - широкая область на стыке лингвистики и компьютерных технологий. Сегодня здесь решается огромное число задач, например, классификация текстов, определение тональности, машинный перевод, распознавание речи, обработка запросов в поиске. В ходе курса слушатели познакомятся с основными методами и применят их на практике.

Контакты

  • Лекции и семинары проходят по пятницам 12-50 - 14-25, 14-35 - 16-10 в ауд.505.
  • Лектор: Виктор Китов
  • Семинарист: Мурат Апишев
  • Почта курса (семинары, задания): nlp.msu@gmail.com.
  • Здесь вы в любой момент можете оставить анонимный отзыв или предложение.

Программа курса

  • Токенизация, коллокации, регулярные выражения, языковые модели
  • Определение частей речи, скрытая марковская модель, модель максимальной энтропии, тэггер Брилла.
  • Классификация текстов, tf-idf, метод ближайших центроидов, модели Бернулли и мультиномиальная; регуляризация, отбор признаков; анализ тональности.
  • Тематические модели.
  • Нейросети (обратное распространение ошибки, функции активации, инициализация весов, оптимизация); векторные представления слов: word2vec (CBOW, skip-gram), glove.
  • Регулярные языки, transduser, типы грамматик, контекстно-свободные грамматики; синтаксические анализаторы; алгоритм Кока-Янгера-Касами, вероятностные грамматики, вероятностный алгоритм Кока-Янгера-Касами
  • Детали обучения нейросетей: дропаут, батч-нормализация, рекуррентные нейронные сети; задача NER.
  • RNN, LSTM, GRU; CNN
  • Вопросно-ответные системы, автоматическая суммаризация, PageRank
  • WordNet, проблема лексической неоднозначности, алгоритм Леска; проверка орфографии

Лекции

Токенизация, коллокации, регулярные выражения.

Языковые модели.

Скрытая марковская модель для дискретных признаков.

Разметка частей речи.

Семинары

Дата Тема Материалы
Семинар 1 9.02.2018 Правила курса, получение данных, предобработка текста, извлечение коллокаций. Слайды
Семинар 2 17.02.2018 Языковые модели, статистический машинный перевод, задача выравнивания. Слайды
Семинар 3 12.03.2018 Классификация текстов, инструменты (Vowpal Wabbit, FastText), задача анализа тональности. Слайды
Семинар 4 23.03.2018 Тематическое моделирование. Слайды
Семинар 5 30.03.2018 Векторные представления слов + доклады Слайды

Задания

Дедлайн Баллы Тема Материалы
Лабораторная 1 21:00 8 марта 2018 10 баллов Языковое моделирование и распознавание языка. Ipython-ноутбук с заданием + данные.
Лабораторная 2 21:00 29 марта 2018 10 баллов Определение частей речи и

выделение именованных сущностей.

Ipython-ноутбук с заданием.
Результаты проверки
Студенты Лабораторная № 1 Лабораторная № 2 Лабораторная № 3 Лабораторная № 4 Доклад + выступление Итог
Амир Мирас 6.5
Белобородов Дмитрий 9
Бобров Евгений 7
Бобров Роман 4.5
Гарипов Тимур 8
Драпак Степан 8
Каюмов Эмиль 7.8
Коваленко Павел 6.5
Лунин Дмитрий 5.4
Николаев Владимир 4
Пиджакова Анна 4.5
Полыковский Даниил 8
Попов Артём 9
Таскынов Ануар 5
Трубицын Юрий 2.5
Ходырева Виктория 8
Шолохова Татьяна 8

Литература

Stanford: Deep learning in natural language processing. Spring 2016.

Stanford: Deep learning in natural language processing. Winter 2017.

Juravsky, Manning - Video lectures on natural language processing.

Speech and Language Processing. Dan Jurafsky and James H. Martin. 3-rd edition, draft.

Speech and Language Processing. Dan Jurafsky and James H. Martin. 2-nd edition. 2009.

Natural Language Processing with Python. Stewen Bird et. al. 2-nd edition. 2016.


Питон и библиотеки

Инструменты для работы с текстами

Личные инструменты