Математические методы анализа текстов (ВМиК МГУ) / 2018

Материал из MachineLearning.

(Различия между версиями)

Версия 17:11, 1 апреля 2018

Содержание

1 Контакты
2 Программа курса
3 Лекции
4 Семинары
5 Задания
- 5.1 Результаты проверки
6 Литература
- 6.1 Питон и библиотеки
- 6.2 Инструменты для работы с текстами

Курс посвящен методам анализа текстов на основе статистики и машинного обучения.

Курс читается магистрам 1го года кафедры «Математические методы прогнозирования» ВМК МГУ.

Обработка естественного языка (Natural Language Processing) - широкая область на стыке лингвистики и компьютерных технологий. Сегодня здесь решается огромное число задач, например, классификация текстов, определение тональности, машинный перевод, распознавание речи, обработка запросов в поиске. В ходе курса слушатели познакомятся с основными методами и применят их на практике.

Контакты

Лекции и семинары проходят по пятницам 12-50 - 14-25, 14-35 - 16-10 в ауд.505.
Лектор: Виктор Китов
Семинарист: Мурат Апишев
Почта курса (семинары, задания): nlp.msu@gmail.com.
Здесь вы в любой момент можете оставить анонимный отзыв или предложение.

Программа курса

Токенизация, коллокации, регулярные выражения, языковые модели
Определение частей речи, скрытая марковская модель, модель максимальной энтропии, тэггер Брилла.
Классификация текстов, tf-idf, метод ближайших центроидов, модели Бернулли и мультиномиальная; регуляризация, отбор признаков; анализ тональности.
Тематические модели.
Нейросети (обратное распространение ошибки, функции активации, инициализация весов, оптимизация); векторные представления слов: word2vec (CBOW, skip-gram), glove.
Регулярные языки, transduser, типы грамматик, контекстно-свободные грамматики; синтаксические анализаторы; алгоритм Кока-Янгера-Касами, вероятностные грамматики, вероятностный алгоритм Кока-Янгера-Касами
Детали обучения нейросетей: дропаут, батч-нормализация, рекуррентные нейронные сети; задача NER.
RNN, LSTM, GRU; CNN
Вопросно-ответные системы, автоматическая суммаризация, PageRank
WordNet, проблема лексической неоднозначности, алгоритм Леска; проверка орфографии

Лекции

Токенизация, коллокации, регулярные выражения.

Языковые модели.

Скрытая марковская модель для дискретных признаков.

Разметка частей речи.

Семинары

	Дата	Тема	Материалы
Семинар 1	9.02.2018	Правила курса, получение данных, предобработка текста, извлечение коллокаций.	Слайды
Семинар 2	17.02.2018	Языковые модели, статистический машинный перевод, задача выравнивания.	Слайды
Семинар 3	12.03.2018	Классификация текстов, инструменты (Vowpal Wabbit, FastText), задача анализа тональности.	Слайды
Семинар 4	23.03.2018	Тематическое моделирование.	Слайды
Семинар 5	30.03.2018	Векторные представления слов + доклады	Слайды

Задания

	Дедлайн	Баллы	Тема	Материалы
Лабораторная 1	21:00 8 марта 2018	10 баллов	Языковое моделирование и распознавание языка.	Ipython-ноутбук с заданием + данные.
Лабораторная 2	21:00 29 марта 2018	10 баллов	Определение частей речи и выделение именованных сущностей.	Ipython-ноутбук с заданием.
Лабораторная 3	21:00 15 апреля 2018	15 баллов	Задача выравнивания в машинном переводе.	Материалы задания.

Результаты проверки

Студенты	Лабораторная № 1	Доклад + выступление
Амир Мирас	8.5
Белобородов Дмитрий	9.5
Бобров Евгений	7
Бобров Роман	5
Гарипов Тимур	9
Драпак Степан	8.5
Каюмов Эмиль	9.3
Коваленко Павел	8
Лунин Дмитрий	8.4
Николаев Владимир	7.4
Пиджакова Анна	5.7
Полыковский Даниил	8.5	5 + 5
Попов Артём	9.5
Таскынов Ануар	5.5
Трубицын Юрий	3.5
Ходырева Виктория	9
Шолохова Татьяна	9

Результаты проверки

Литература

Stanford: Deep learning in natural language processing. Spring 2016.

Stanford: Deep learning in natural language processing. Winter 2017.

Juravsky, Manning - Video lectures on natural language processing.

Speech and Language Processing. Dan Jurafsky and James H. Martin. 3-rd edition, draft.

Speech and Language Processing. Dan Jurafsky and James H. Martin. 2-nd edition. 2009.

Natural Language Processing with Python. Stewen Bird et. al. 2-nd edition. 2016.

Питон и библиотеки

Инструменты для работы с текстами

Источник — «http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B0%D1%82%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B5_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%BE%D0%B2_%28%D0%92%D0%9C%D0%B8%D0%9A_%D0%9C%D0%93%D0%A3%29_/_2018»

Категория: Учебные курсы

@@ Строка 123: / Строка 123: @@
 |-
 | Амир Мирас
-| 6.5
+| 8.5
 |
 |
@@ Строка 131: / Строка 131: @@
 |-
 | Белобородов Дмитрий
-| 9
+| 9.5
 |
 |
@@ Строка 147: / Строка 147: @@
 |-
 | Бобров Роман
-| 4.5
+| 5
 |
 |
@@ Строка 155: / Строка 155: @@
 |-
 | Гарипов Тимур
-| 8
+| 9
 |
 |
@@ Строка 163: / Строка 163: @@
 |-
 | Драпак Степан
-| 8
+| 8.5
 |
 |
@@ Строка 171: / Строка 171: @@
 |-
 | Каюмов Эмиль
-| 7.8
+| 9.3
 |
 |
@@ Строка 179: / Строка 179: @@
 |-
 | Коваленко Павел
-| 6.5
+| 8
 |
 |
@@ Строка 187: / Строка 187: @@
 |-
 | Лунин Дмитрий
-| 5.4
+| 8.4
 |
 |
@@ Строка 195: / Строка 195: @@
 |-
 | Николаев Владимир
-| 4
+| 7.4
 |
 |
@@ Строка 203: / Строка 203: @@
 |-
 | Пиджакова Анна
-| 4.5
+| 5.7
 |
 |
@@ Строка 211: / Строка 211: @@
 |-
 | Полыковский Даниил
-| 8
+| 8.5
 |
 |
@@ Строка 219: / Строка 219: @@
 |-
 | Попов Артём
-| 9
+| 9.5
 |
 |
@@ Строка 227: / Строка 227: @@
 |-
 | Таскынов Ануар
-| 5
+| 5.5
 |
 |
@@ Строка 235: / Строка 235: @@
 |-
 | Трубицын Юрий
-| 2.5
+| 3.5
 |
 |
@@ Строка 243: / Строка 243: @@
 |-
 | Ходырева Виктория
-| 8
+| 9
 |
 |
@@ Строка 251: / Строка 251: @@
 |-
 | Шолохова Татьяна
-| 8
+| 9
 |
 |
@@ Строка 259: / Строка 259: @@
 |-
 |}
+[https://docs.google.com/spreadsheets/d/16lEUvPGW-V00Rz3IuYvJ4zX3da38uslOw67r-j3ANJw/edit?usp=sharing Результаты проверки]
 == Литература ==

Математические методы анализа текстов (ВМиК МГУ) / 2018

Материал из MachineLearning.

Версия 17:11, 1 апреля 2018

Содержание

Контакты

Программа курса

Лекции

Семинары

Задания

Результаты проверки

Литература

Питон и библиотеки

Инструменты для работы с текстами

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты