Математические методы анализа текстов (курс лекций) / осень 2019

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Текущая версия (07:46, 17 октября 2019) (править) (отменить)
(Программа курса)
 
(18 промежуточных версий не показаны.)
Строка 9: Строка 9:
==Контакты==
==Контакты==
-
* Преподаватели курса: [[Участник:Vokov|Воронцов К.В.]], Апишев М.А., Попов А.С.
+
* Преподаватели курса: [[Участник:Vokov|Воронцов К.В.]], [[Участник:mapishev|Апишев М.А.]], [[Участник:Arti_lehtonen|Попов А.С.]]
* На ВМК занятия проходят в аудитории 72 по вторникам, начало в 10:30
* На ВМК занятия проходят в аудитории 72 по вторникам, начало в 10:30
-
* В ФИЦ ИУ РАН занятия проходят в аудитории ?? по средам, начало в ??
+
* В ФИЦ ИУ РАН занятия по средам, начало в 16:10
* По всем конструктивным вопросам пишите в [https://t.me/joinchat/B2UcORRlc1j_RpANlJi1Xg telegram-чат]
* По всем конструктивным вопросам пишите в [https://t.me/joinchat/B2UcORRlc1j_RpANlJi1Xg telegram-чат]
-
+
 
 +
* Репозиторий со всеми материалами: [https://github.com/mmta-team/mmta_fall_2019 ссылка]
 +
 
 +
* Короткая ссылка на страницу курса: [https://clck.ru/J5PMZ ссылка]
 +
 
==Правила сдачи курса==
==Правила сдачи курса==
Строка 27: Строка 31:
* Правила сдачи экзамена появятся позднее.
* Правила сдачи экзамена появятся позднее.
-
* Правила выставления итоговой оценки появятся позднее.
+
===Правила выставления итоговой оценки===
 +
<tex>X_e</tex> — оценка за экзамен по 10-ти балльной шкале, <tex>X_d</tex> — суммарная оценка студента за практические задания, <tex>X_{max}</tex> — максимальная оценка за практические задания (без учёта бонусов)
 +
 
 +
* Если <tex>X_d / X_{max} \geq 1</tex> — максимальная оценка автоматом
 +
* Если <tex>X_d / X_{max} < 0.125</tex> — пересдача автоматом
 +
* Иначе, оценка в 10-ти балльной шкале вычисляется как <tex> X_e + round(8 X_d / X_{max} - 4.5) </tex>
 +
* Для ВМК и МАИ: 3-4 — оценка удовлетворительно, 5-7 — оценка хорошо, 8-10 — оценка отлично
 +
* Правила выставления оценки на пересдаче будут обговариваться отдельно в конце курса
 +
 
==Программа курса==
==Программа курса==
Строка 41: Строка 53:
| 2
| 2
| Предобработка данных. Простейшие модели классификации.
| Предобработка данных. Простейшие модели классификации.
-
|
+
| [https://github.com/mmta-team/mmta_fall_2019/blob/master/02_preprocessing_and_simple_classification/preprocessing_simple_classification.pdf слайды]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
Строка 47: Строка 59:
| 3
| 3
| Векторные представления слов.
| Векторные представления слов.
-
|
+
| [https://github.com/mmta-team/mmta_fall_2019/blob/master/03_word_embeddings/word_embeddings.pdf слайды]
-
|
+
| [https://github.com/mmta-team/mmta_fall_2019/tree/master/03_word_embeddings/homework практическое задание 1]
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
| 4
| 4
-
| Задача теггинга последовательности. Графические модели для теггинга.
+
| Задача теггинга последовательности. Условные случайные поля (CRF).
-
|
+
| [[Media:mmta19crf.pdf|слайды]]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
Строка 59: Строка 71:
| 5
| 5
| Задача теггинга последовательности. Нейросетевые и комбинированные модели для теггинга.
| Задача теггинга последовательности. Нейросетевые и комбинированные модели для теггинга.
-
|
+
| [https://github.com/mmta-team/mmta_fall_2019/blob/master/05_rnn_tagging/rnn_tagging.pdf слайды]
-
|
+
| [https://github.com/mmta-team/mmta_fall_2019/tree/master/05_rnn_tagging/homework практическое задание 2]
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
| 6
| 6
| Языковое моделирование. Генерация текста на естественном языке.
| Языковое моделирование. Генерация текста на естественном языке.
-
|
+
| [https://github.com/mmta-team/mmta_fall_2019/blob/master/06_language_models/lm.pdf слайды]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
Строка 71: Строка 83:
| 7
| 7
| Модель sequence-to-sequence в машинном переводе и других приложениях.
| Модель sequence-to-sequence в машинном переводе и других приложениях.
-
|
+
| [https://github.com/mmta-team/mmta_fall_2019/blob/master/07_machine_translation/mt_attention_transformers.pdf слайды]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->

Текущая версия

Содержание

В курсе рассматриваются основные задачи и математические методы обработки естественного языка.

Курс читается:

От студентов требуются знание курса машинного обучения, основ глубинного обучения, а также языка программирования Python.

Контакты

  • На ВМК занятия проходят в аудитории 72 по вторникам, начало в 10:30
  • В ФИЦ ИУ РАН занятия по средам, начало в 16:10
  • По всем конструктивным вопросам пишите в telegram-чат
  • Репозиторий со всеми материалами: ссылка
  • Короткая ссылка на страницу курса: ссылка

Правила сдачи курса

  • В рамках курса предполагается четыре практических задания и экзамен.
  • Практические задания сдаются в систему anytask (инвайт у преподавателя). Срок выполнения каждого задания — 2 недели. За каждое задание можно получить до 10-ти баллов. За каждый день просрочки назначается штраф 1 балл. Основной язык выполнения заданий — Python 3.
  • Все практические задания выполняются самостоятельно. Любые работы, содержащие плагиат, оцениваются в 0 баллов.
  • Правила сдачи экзамена появятся позднее.

Правила выставления итоговой оценки

X_e — оценка за экзамен по 10-ти балльной шкале, X_d — суммарная оценка студента за практические задания, X_{max} — максимальная оценка за практические задания (без учёта бонусов)

  • Если X_d / X_{max} \geq 1 — максимальная оценка автоматом
  • Если X_d / X_{max} < 0.125 — пересдача автоматом
  • Иначе, оценка в 10-ти балльной шкале вычисляется как  X_e + round(8 X_d / X_{max} - 4.5)
  • Для ВМК и МАИ: 3-4 — оценка удовлетворительно, 5-7 — оценка хорошо, 8-10 — оценка отлично
  • Правила выставления оценки на пересдаче будут обговариваться отдельно в конце курса

Программа курса

Тема Материалы Д/З
1 Введение в область анализа текстов (Natural Language Processing). Обзор основных задач. слайды
2 Предобработка данных. Простейшие модели классификации. слайды
3 Векторные представления слов. слайды практическое задание 1
4 Задача теггинга последовательности. Условные случайные поля (CRF). слайды
5 Задача теггинга последовательности. Нейросетевые и комбинированные модели для теггинга. слайды практическое задание 2
6 Языковое моделирование. Генерация текста на естественном языке. слайды
7 Модель sequence-to-sequence в машинном переводе и других приложениях. слайды
8 Глубокие архитектуры представления предложений и документов.
9 Синтаксический разбор и его применение в практических задачах.
10 Задача классификации текстов.
11 Тематическое моделирование.
12 Сегментация и суммаризация текстов.
13 To be announced
14 To be announced

Страницы прошлых лет

2018 (ФУПМ МФТИ), 2018 (ВМК МГУ)

2017 (ВМК МГУ)

Дополнительные материалы

Литература

Другие курсы по NLP

Личные инструменты