Математические методы анализа текстов (ВМиК МГУ) / 2018

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Семинары)
(Результаты проверки)
 
(28 промежуточных версий не показаны.)
Строка 16: Строка 16:
* [https://docs.google.com/forms/d/e/1FAIpQLScfY3ezDU9njSZ32H2R5MA-jrRxkV_pMJEnPu6XIcgO8dcxVA/viewform?usp=pp_url&entry.548855177 Здесь] вы в любой момент можете оставить анонимный отзыв или предложение.
* [https://docs.google.com/forms/d/e/1FAIpQLScfY3ezDU9njSZ32H2R5MA-jrRxkV_pMJEnPu6XIcgO8dcxVA/viewform?usp=pp_url&entry.548855177 Здесь] вы в любой момент можете оставить анонимный отзыв или предложение.
-
== Программа курса ==
+
== Экзамен ==
 +
Экзамен пройдет 13 июня в ауд. 579.
-
* Токенизация, коллокации, регулярные выражения, языковые модели
+
[https://yadi.sk/i/mCGl_M7e3Wm3rg Билеты к экзамену]
-
* Определение частей речи, скрытая марковская модель, модель максимальной энтропии, тэггер Брилла.
+
-
* Классификация текстов, tf-idf, метод ближайших центроидов, модели Бернулли и мультиномиальная; регуляризация, отбор признаков; анализ тональности.
+
-
* Тематические модели.
+
-
* Нейросети (обратное распространение ошибки, функции активации, инициализация весов, оптимизация); векторные представления слов: word2vec (CBOW, skip-gram), glove.
+
-
* Регулярные языки, transduser, типы грамматик, контекстно-свободные грамматики; синтаксические анализаторы; алгоритм Кока-Янгера-Касами, вероятностные грамматики, вероятностный алгоритм Кока-Янгера-Касами
+
-
* Детали обучения нейросетей: дропаут, батч-нормализация, рекуррентные нейронные сети; задача NER.
+
-
* RNN, LSTM, GRU; CNN
+
-
* Вопросно-ответные системы, автоматическая суммаризация, PageRank
+
-
* WordNet, проблема лексической неоднозначности, алгоритм Леска; проверка орфографии
+
== Лекции ==
== Лекции ==
-
[https://yadi.sk/i/ho51tPD23SR6dp Токенизация, коллокации, регулярные выражения.]
+
[https://yadi.sk/i/IpPdSvPF3WhqaZ Токенизация, коллокации, регулярные выражения.]
[https://yadi.sk/i/LJPzBqjh3SR6iU Языковые модели.]
[https://yadi.sk/i/LJPzBqjh3SR6iU Языковые модели.]
Строка 38: Строка 30:
[https://yadi.sk/i/tppvGyMm3T2ZDH Разметка частей речи.]
[https://yadi.sk/i/tppvGyMm3T2ZDH Разметка частей речи.]
-
 
-
[https://yadi.sk/i/wexcFA0U3UMmoM Скрытая марковская модель с дискретными выходами.]
 
[https://yadi.sk/i/6_PSjMbc3UMmpL Классификация текстов.]
[https://yadi.sk/i/6_PSjMbc3UMmpL Классификация текстов.]
 +
 +
[[Media:10-MMP-Text_mining-Topic_modeling.pdf‎ |Вероятностное тематическое моделирование, часть 1.]]
 +
 +
[[Media:11-MMP-Text_mining-Topic_modeling.pdf‎ |Вероятностное тематическое моделирование, часть 2.]]
 +
 +
[https://yadi.sk/i/d0KD1pGT3WN4PC Тематическая модель PLSA и вывод алгоритма обучения.]
[https://yadi.sk/i/nT97JtGe3UMoET Векторные представления слов.]
[https://yadi.sk/i/nT97JtGe3UMoET Векторные представления слов.]
[https://yadi.sk/i/xDsfPtB73UMmpr Оценка тональности текстов.]
[https://yadi.sk/i/xDsfPtB73UMmpr Оценка тональности текстов.]
 +
 +
[https://yadi.sk/i/EeyKP_5e3V6Bkt Редакторское расстояние.]
[https://yadi.sk/i/_yBptVvq3UMmqB Сверточные нейросети для анализа текстов.]
[https://yadi.sk/i/_yBptVvq3UMmqB Сверточные нейросети для анализа текстов.]
[https://yadi.sk/i/5geE6Z8e3UNoQm Рекуррентные нейросети.]
[https://yadi.sk/i/5geE6Z8e3UNoQm Рекуррентные нейросети.]
 +
 +
[https://yadi.sk/i/_0aK0Vos3Uoz5M Применения рекуррентных нейросетей.]
 +
 +
[https://yadi.sk/i/YpB5NDRL3WgnpJ Модели со вниманием.]
 +
 +
[https://yadi.sk/i/wok22Hrd3WgoLn Синтаксический разбор.]
 +
 +
[https://yadi.sk/i/izp1nd753Wgo5H Извлечение информации из текста.]
 +
 +
[https://yadi.sk/i/0CPzVBc73Wgobd Ответы на вопросы, автоматическая суммаризация.]
== Семинары ==
== Семинары ==
Строка 62: Строка 70:
| Семинар 1
| Семинар 1
| 9.02.2018
| 9.02.2018
-
| Правила курса, получение данных, предобработка текста, извлечение коллокаций.
+
| Правила курса, получение данных, предобработка текста, извлечение коллокаций
| [[Медиа:Mel_lain_msu_nlp_sem_1.pdf| Слайды]]
| [[Медиа:Mel_lain_msu_nlp_sem_1.pdf| Слайды]]
|
|
Строка 68: Строка 76:
| Семинар 2
| Семинар 2
| 17.02.2018
| 17.02.2018
-
| Языковые модели, статистический машинный перевод, задача выравнивания.
+
| Языковые модели, статистический машинный перевод, задача выравнивания
| [[Медиа:Mel_lain_msu_nlp_sem_2.pdf‎ | Слайды]]
| [[Медиа:Mel_lain_msu_nlp_sem_2.pdf‎ | Слайды]]
|
|
Строка 74: Строка 82:
| Семинар 3
| Семинар 3
| 12.03.2018
| 12.03.2018
-
| Классификация текстов, инструменты (Vowpal Wabbit, FastText), задача анализа тональности.
+
| Классификация текстов, инструменты (Vowpal Wabbit, FastText), задача анализа тональности
| [[Медиа:Mel_lain_msu_nlp_sem_3.pdf‎ | Слайды]]
| [[Медиа:Mel_lain_msu_nlp_sem_3.pdf‎ | Слайды]]
|
|
Строка 80: Строка 88:
| Семинар 4
| Семинар 4
| 23.03.2018
| 23.03.2018
-
| Тематическое моделирование.
+
| Тематическое моделирование
| [[Медиа:Mel_lain_msu_nlp_sem_4.pdf‎ | Слайды]]
| [[Медиа:Mel_lain_msu_nlp_sem_4.pdf‎ | Слайды]]
|
|
Строка 100: Строка 108:
| Информационный поиск
| Информационный поиск
| [[Медиа:Mel_lain_msu_nlp_sem_6.pdf‎ | Слайды]]
| [[Медиа:Mel_lain_msu_nlp_sem_6.pdf‎ | Слайды]]
-
|
+
|
 +
|-
 +
| Семинар 8
 +
| 27.04.2018
 +
| Глубинное обучение в обработке текстов
 +
| [[Медиа:Mel_lain_msu_nlp_sem_7.pdf‎ | Слайды]]
 +
|
 +
|-
 +
| Семинар 9
 +
| 4.05.2018
 +
| Доклады
 +
|
 +
|
|}
|}
Строка 158: Строка 178:
| 8.3
| 8.3
|
|
-
|
+
| 9.5
-
|
+
| 4
-
|
+
| 30.3
|-
|-
| Белобородов Дмитрий
| Белобородов Дмитрий
| 9.5
| 9.5
| 10
| 10
-
|
+
| 17
-
|
+
| 14.5
-
|5+5
+
| 5+5
-
|
+
| 61.0
|-
|-
| Бобров Евгений
| Бобров Евгений
| 7
| 7
| 6.4
| 6.4
-
|
+
| 12
-
|
+
| 5
-
|5+5
+
| 5+5
-
|
+
| 40.4
|-
|-
| Бобров Роман
| Бобров Роман
| 5
| 5
| 10.5
| 10.5
 +
| 17
|
|
|
|
-
|
+
| 32.5
-
|
+
|-
|-
| Гарипов Тимур
| Гарипов Тимур
| 9
| 9
| 10.5
| 10.5
-
|
+
| 12
-
|
+
| 14.5
-
|
+
| 5
-
|
+
| 52.0
|-
|-
| Драпак Степан
| Драпак Степан
| 8.5
| 8.5
| 11
| 11
-
|
+
| 14
-
|
+
| 14
-
|
+
| 5
-
|
+
| 52.5
|-
|-
| Каюмов Эмиль
| Каюмов Эмиль
| 9.3
| 9.3
| 9.2
| 9.2
 +
| 14
 +
| 12
|
|
-
|
+
| 44.5
-
|
+
-
|
+
|-
|-
| Коваленко Павел
| Коваленко Павел
| 8
| 8
| 10.3
| 10.3
-
|
+
| 14
-
|
+
| 14.5
-
|
+
| 5
-
|
+
| 51.8
|-
|-
| Лунин Дмитрий
| Лунин Дмитрий
| 8.4
| 8.4
| 8.8
| 8.8
 +
| 5
 +
| 6
|
|
-
|
+
| 28.2
-
|
+
-
|
+
|-
|-
| Николаев Владимир
| Николаев Владимир
| 7.4
| 7.4
| 8.4
| 8.4
-
|
+
| 12
-
|
+
| 14.5
-
|5+5
+
| 5+5
-
|
+
| 52.3
|-
|-
| Пиджакова Анна
| Пиджакова Анна
| 5.7
| 5.7
| 5.3
| 5.3
 +
| 7
 +
| 4
|
|
-
|
+
| 22.0
-
|
+
-
|
+
|-
|-
| Полыковский Даниил
| Полыковский Даниил
| 8.5
| 8.5
| 9.5
| 9.5
-
|
+
| 17
-
|
+
| 14.5
| 5+5
| 5+5
-
|
+
| 59.5
|-
|-
| Попов Артём
| Попов Артём
| 9.5
| 9.5
| 12
| 12
-
|
+
| 15
-
|
+
| 14.5
-
|5+5
+
| 5+5
-
|
+
| 61.0
|-
|-
| Таскынов Ануар
| Таскынов Ануар
| 5.5
| 5.5
| 10.9
| 10.9
-
|
+
| 16
-
|
+
| 12.5
-
|
+
| 5+5
-
|
+
| 54.9
|-
|-
| Трубицын Юрий
| Трубицын Юрий
| 3.5
| 3.5
| 1
| 1
-
|
+
| 14
 +
| 4
|
|
-
|
+
| 22.5
-
|
+
|-
|-
| Ходырева Виктория
| Ходырева Виктория
| 9
| 9
| 5.3
| 5.3
 +
| 12
 +
| 4
|
|
-
|
+
| 30.3
-
|
+
-
|
+
|-
|-
| Шолохова Татьяна
| Шолохова Татьяна
| 9
| 9
| 10.8
| 10.8
-
|
+
| 12
-
|
+
| 14.5
-
|
+
| 5
-
|
+
| 51.3
|-
|-
|}
|}

Текущая версия

Содержание

Курс посвящен методам анализа текстов на основе статистики и машинного обучения.

Курс читается магистрам 1го года кафедры «Математические методы прогнозирования» ВМК МГУ.

Обработка естественного языка (Natural Language Processing) - широкая область на стыке лингвистики и компьютерных технологий. Сегодня здесь решается огромное число задач, например, классификация текстов, определение тональности, машинный перевод, распознавание речи, обработка запросов в поиске. В ходе курса слушатели познакомятся с основными методами и применят их на практике.

Контакты

  • Лекции и семинары проходят по пятницам 12-50 - 14-25, 14-35 - 16-10 в ауд.505.
  • Лектор: Виктор Китов
  • Семинарист: Мурат Апишев
  • Почта курса (семинары, задания): nlp.msu@gmail.com.
  • Здесь вы в любой момент можете оставить анонимный отзыв или предложение.

Экзамен

Экзамен пройдет 13 июня в ауд. 579.

Билеты к экзамену

Лекции

Токенизация, коллокации, регулярные выражения.

Языковые модели.

Скрытая марковская модель для дискретных признаков.

Разметка частей речи.

Классификация текстов.

Вероятностное тематическое моделирование, часть 1.

Вероятностное тематическое моделирование, часть 2.

Тематическая модель PLSA и вывод алгоритма обучения.

Векторные представления слов.

Оценка тональности текстов.

Редакторское расстояние.

Сверточные нейросети для анализа текстов.

Рекуррентные нейросети.

Применения рекуррентных нейросетей.

Модели со вниманием.

Синтаксический разбор.

Извлечение информации из текста.

Ответы на вопросы, автоматическая суммаризация.

Семинары

Дата Тема Материалы
Семинар 1 9.02.2018 Правила курса, получение данных, предобработка текста, извлечение коллокаций Слайды
Семинар 2 17.02.2018 Языковые модели, статистический машинный перевод, задача выравнивания Слайды
Семинар 3 12.03.2018 Классификация текстов, инструменты (Vowpal Wabbit, FastText), задача анализа тональности Слайды
Семинар 4 23.03.2018 Тематическое моделирование Слайды
Семинар 5 30.03.2018 Векторные представления слов + доклады Слайды
Семинар 6 06.04.2018 Доклады
Семинар 7 20.04.2018 Информационный поиск Слайды
Семинар 8 27.04.2018 Глубинное обучение в обработке текстов Слайды
Семинар 9 4.05.2018 Доклады

Ссылка на слайды докладов

Задания

Дедлайн Баллы Тема Материалы
Лабораторная 1 21:00 8 марта 2018 10 баллов Языковое моделирование и распознавание языка. Ipython-ноутбук с заданием + данные.
Лабораторная 2 21:00 29 марта 2018 10 баллов Определение частей речи и

выделение именованных сущностей.

Ipython-ноутбук с заданием.
Лабораторная 3 21:00 15 апреля 2018 15 баллов Задача выравнивания в машинном переводе. Материалы задания.
Лабораторная 4 21:00 2 мая 2018 15 баллов Векторные представления слов, тематические модели, анализ тональности. Данные Формулировка задания.
Результаты проверки
Студенты Лабораторная № 1 Лабораторная № 2 Лабораторная № 3 Лабораторная № 4 Доклад + выступление Итог
Амир Мирас 8.5 8.3 9.5 4 30.3
Белобородов Дмитрий 9.5 10 17 14.5 5+5 61.0
Бобров Евгений 7 6.4 12 5 5+5 40.4
Бобров Роман 5 10.5 17 32.5
Гарипов Тимур 9 10.5 12 14.5 5 52.0
Драпак Степан 8.5 11 14 14 5 52.5
Каюмов Эмиль 9.3 9.2 14 12 44.5
Коваленко Павел 8 10.3 14 14.5 5 51.8
Лунин Дмитрий 8.4 8.8 5 6 28.2
Николаев Владимир 7.4 8.4 12 14.5 5+5 52.3
Пиджакова Анна 5.7 5.3 7 4 22.0
Полыковский Даниил 8.5 9.5 17 14.5 5+5 59.5
Попов Артём 9.5 12 15 14.5 5+5 61.0
Таскынов Ануар 5.5 10.9 16 12.5 5+5 54.9
Трубицын Юрий 3.5 1 14 4 22.5
Ходырева Виктория 9 5.3 12 4 30.3
Шолохова Татьяна 9 10.8 12 14.5 5 51.3

Результаты проверки

Оценка за курс

Оценка за курс определяется оценкой за экзамен (0,3,4 или 5) и результатами работы в семестре (от 0 до 60 баллов включительно). Оценивание производится по следующей схеме:

  • 50+ баллов - автомат, при условии выполнения всех 4 лаб и написании реферата (выступление обязательным не является).
  • 40-49 баллов - итоговая оценка равна оценке за экзамен плюс 1 балл
  • 30-39 баллов - итоговая оценка равна оценке за экзамен
  • 20-29 баллов - итоговая оценка равна оценке за экзамен минус 1 балл
  • 19- баллов - недопуск к экзамену (в этом случае нужно будет дополнительно решать задания до получения суммарного числа баллов >=20)

На экзамене будут вопросы по теоретическому минимуму и по основному материалу. Незнание ответов на вопросы теоретического минимума приводит к пересдаче, количество баллов за семестровую работу при этом никак не учитывается. На самой пересдаче правила аналогичны основному экзамену.

Литература

Stanford: Deep learning in natural language processing. Spring 2016.

Stanford: Deep learning in natural language processing. Winter 2017.

Juravsky, Manning - Video lectures on natural language processing.

Speech and Language Processing. Dan Jurafsky and James H. Martin. 3-rd edition, draft.

Speech and Language Processing. Dan Jurafsky and James H. Martin. 2-nd edition. 2009.

Natural Language Processing with Python. Stewen Bird et. al. 2-nd edition. 2016.


Питон и библиотеки

Инструменты для работы с текстами

Личные инструменты