Математические методы анализа текстов (курс лекций) / осень 2019

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Правила сдачи курса)
(Программа курса)
(18 промежуточных версий не показаны.)
Строка 9: Строка 9:
==Контакты==
==Контакты==
-
* Преподаватели курса: [[Участник:Vokov|Воронцов К.В.]], Апишев М.А., [[Участник:Arti_lehtonen|Попов А.С.]]
+
* Преподаватели курса: [[Участник:Vokov|Воронцов К.В.]], [[Участник:mapishev|Апишев М.А.]], [[Участник:Arti_lehtonen|Попов А.С.]]
* На ВМК занятия проходят в аудитории 72 по вторникам, начало в 10:30
* На ВМК занятия проходят в аудитории 72 по вторникам, начало в 10:30
Строка 32: Строка 32:
===Правила выставления итоговой оценки===
===Правила выставления итоговой оценки===
-
<tex>X_e</tex> — оценка за экзамен по 10-ти балльной шкале, <tex>X_d</tex> — суммарная оценка за практические задания, <tex>X_{max}</tex> — максимальная оценка за практические задания (без учёта бонусов)
+
<tex>X_e</tex> — оценка за экзамен по 10-ти балльной шкале, <tex>X_d</tex> — суммарная оценка студента за практические задания, <tex>X_{max}</tex> — максимальная оценка за практические задания (без учёта бонусов)
* Если <tex>X_d / X_{max} \geq 1</tex> — максимальная оценка автоматом
* Если <tex>X_d / X_{max} \geq 1</tex> — максимальная оценка автоматом
-
* Если <tex>X_d / X_{max} \leq 0.125</tex> — пересдача автоматом
+
* Если <tex>X_d / X_{max} < 0.125</tex> — пересдача автоматом
* Иначе, оценка в 10-ти балльной шкале вычисляется как <tex> X_e + round(8 X_d / X_{max} - 4.5) </tex>
* Иначе, оценка в 10-ти балльной шкале вычисляется как <tex> X_e + round(8 X_d / X_{max} - 4.5) </tex>
* Для ВМК и МАИ: 3-4 — оценка удовлетворительно, 5-7 — оценка хорошо, 8-10 — оценка отлично
* Для ВМК и МАИ: 3-4 — оценка удовлетворительно, 5-7 — оценка хорошо, 8-10 — оценка отлично
 +
* Правила выставления оценки на пересдаче будут обговариваться отдельно в конце курса
==Программа курса==
==Программа курса==
{|class = "standard"
{|class = "standard"
-
! № !! Тема !! Материалы !! Д/З
+
! № !! Дата !! Тема !! Материалы !! Д/З
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
| 1
| 1
 +
| 2019-09-03 / 2019-09-05
| Введение в область анализа текстов (Natural Language Processing). Обзор основных задач.
| Введение в область анализа текстов (Natural Language Processing). Обзор основных задач.
| [[media:mmta19intro.pdf|слайды]]
| [[media:mmta19intro.pdf|слайды]]
Строка 51: Строка 53:
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
| 2
| 2
 +
| 2019-09-03 / 2019-09-11
| Предобработка данных. Простейшие модели классификации.
| Предобработка данных. Простейшие модели классификации.
| [https://github.com/mmta-team/mmta_fall_2019/blob/master/02_preprocessing_and_simple_classification/preprocessing_simple_classification.pdf слайды]
| [https://github.com/mmta-team/mmta_fall_2019/blob/master/02_preprocessing_and_simple_classification/preprocessing_simple_classification.pdf слайды]
Строка 57: Строка 60:
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
| 3
| 3
 +
| 2019-09-10 / 2019-09-18
| Векторные представления слов.
| Векторные представления слов.
| [https://github.com/mmta-team/mmta_fall_2019/blob/master/03_word_embeddings/word_embeddings.pdf слайды]
| [https://github.com/mmta-team/mmta_fall_2019/blob/master/03_word_embeddings/word_embeddings.pdf слайды]
Строка 63: Строка 67:
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
| 4
| 4
-
| Задача теггинга последовательности. условные случайные поля (CRF).
+
| 2019-09-24 / 2019-09-25
 +
| Задача теггинга последовательности. Условные случайные поля (CRF).
| [[Media:mmta19crf.pdf|слайды]]
| [[Media:mmta19crf.pdf|слайды]]
|
|
Строка 69: Строка 74:
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
| 5
| 5
 +
| 2019-10-01 / 2019-10-02
| Задача теггинга последовательности. Нейросетевые и комбинированные модели для теггинга.
| Задача теггинга последовательности. Нейросетевые и комбинированные модели для теггинга.
-
|
+
| [https://github.com/mmta-team/mmta_fall_2019/blob/master/05_rnn_tagging/rnn_tagging.pdf слайды]
-
|
+
| [https://github.com/mmta-team/mmta_fall_2019/tree/master/05_rnn_tagging/homework практическое задание 2]
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
| 6
| 6
 +
| 2019-10-08 / 2019-10-09
| Языковое моделирование. Генерация текста на естественном языке.
| Языковое моделирование. Генерация текста на естественном языке.
-
|
+
| [https://github.com/mmta-team/mmta_fall_2019/blob/master/06_language_models/lm.pdf слайды]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
| 7
| 7
-
| Модель sequence-to-sequence в машинном переводе и других приложениях.
+
| 2019-10-15 / 2019-10-16
-
|
+
| Sequence-to-sequence, механизмы внимания, трансформеры. Машинный перевод.
 +
| [https://github.com/mmta-team/mmta_fall_2019/blob/master/07_machine_translation/mt_attention_transformers.pdf слайды]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
| 8
| 8
-
| Глубокие архитектуры представления предложений и документов.
+
| 2019-10-22 / 2019-10-23
-
|
+
| Глубокие архитектуры представления предложений и документов. Перенос обучения.
-
|
+
| [https://github.com/mmta-team/mmta_fall_2019/blob/master/08_transfer_learning/transfer_learning.pdf слайды]
 +
| [https://github.com/mmta-team/mmta_fall_2019/blob/master/08_transfer_learning/homework/lab_bert.ipynb практическое задание 3]
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
| 9
| 9
-
| Синтаксический разбор и его применение в практических задачах.
+
| 2019-11-05 / 2019-11-06
-
|
+
| Задача классификации текстов.
 +
| [https://github.com/mmta-team/mmta_fall_2019/blob/master/09_industrial_classification/industrial_classification.pdf слайды]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
| 10
| 10
-
| Задача классификации текстов.
+
| 2019-11-05 / 2019-11-13
 +
| Тематическое моделирование.
|
|
|
|
Строка 105: Строка 116:
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
| 11
| 11
-
| Тематическое моделирование.
+
| 2019-11-12 / ???
 +
| Синтаксический разбор и его применение в практических задачах.
|
|
|
|
Строка 111: Строка 123:
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
| 12
| 12
 +
| 2019-11-19 / 2019-11-20
| Сегментация и суммаризация текстов.
| Сегментация и суммаризация текстов.
|
|
Строка 117: Строка 130:
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
| 13
| 13
-
| To be announced
+
|
 +
| Вопросно-ответные системы.
|
|
|
|
Строка 123: Строка 137:
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
| 14
| 14
 +
|
| To be announced
| To be announced
|
|

Версия 13:36, 10 ноября 2019

Содержание

В курсе рассматриваются основные задачи и математические методы обработки естественного языка.

Курс читается:

От студентов требуются знание курса машинного обучения, основ глубинного обучения, а также языка программирования Python.

Контакты

  • На ВМК занятия проходят в аудитории 72 по вторникам, начало в 10:30
  • В ФИЦ ИУ РАН занятия по средам, начало в 16:10
  • По всем конструктивным вопросам пишите в telegram-чат
  • Репозиторий со всеми материалами: ссылка
  • Короткая ссылка на страницу курса: ссылка

Правила сдачи курса

  • В рамках курса предполагается четыре практических задания и экзамен.
  • Практические задания сдаются в систему anytask (инвайт у преподавателя). Срок выполнения каждого задания — 2 недели. За каждое задание можно получить до 10-ти баллов. За каждый день просрочки назначается штраф 1 балл. Основной язык выполнения заданий — Python 3.
  • Все практические задания выполняются самостоятельно. Любые работы, содержащие плагиат, оцениваются в 0 баллов.
  • Правила сдачи экзамена появятся позднее.

Правила выставления итоговой оценки

X_e — оценка за экзамен по 10-ти балльной шкале, X_d — суммарная оценка студента за практические задания, X_{max} — максимальная оценка за практические задания (без учёта бонусов)

  • Если X_d / X_{max} \geq 1 — максимальная оценка автоматом
  • Если X_d / X_{max} < 0.125 — пересдача автоматом
  • Иначе, оценка в 10-ти балльной шкале вычисляется как  X_e + round(8 X_d / X_{max} - 4.5)
  • Для ВМК и МАИ: 3-4 — оценка удовлетворительно, 5-7 — оценка хорошо, 8-10 — оценка отлично
  • Правила выставления оценки на пересдаче будут обговариваться отдельно в конце курса

Программа курса

Дата Тема Материалы Д/З
1 2019-09-03 / 2019-09-05 Введение в область анализа текстов (Natural Language Processing). Обзор основных задач. слайды
2 2019-09-03 / 2019-09-11 Предобработка данных. Простейшие модели классификации. слайды
3 2019-09-10 / 2019-09-18 Векторные представления слов. слайды практическое задание 1
4 2019-09-24 / 2019-09-25 Задача теггинга последовательности. Условные случайные поля (CRF). слайды
5 2019-10-01 / 2019-10-02 Задача теггинга последовательности. Нейросетевые и комбинированные модели для теггинга. слайды практическое задание 2
6 2019-10-08 / 2019-10-09 Языковое моделирование. Генерация текста на естественном языке. слайды
7 2019-10-15 / 2019-10-16 Sequence-to-sequence, механизмы внимания, трансформеры. Машинный перевод. слайды
8 2019-10-22 / 2019-10-23 Глубокие архитектуры представления предложений и документов. Перенос обучения. слайды практическое задание 3
9 2019-11-05 / 2019-11-06 Задача классификации текстов. слайды
10 2019-11-05 / 2019-11-13 Тематическое моделирование.
11 2019-11-12 / ??? Синтаксический разбор и его применение в практических задачах.
12 2019-11-19 / 2019-11-20 Сегментация и суммаризация текстов.
13 Вопросно-ответные системы.
14 To be announced

Страницы прошлых лет

2018 (ФУПМ МФТИ), 2018 (ВМК МГУ)

2017 (ВМК МГУ)

Дополнительные материалы

Литература

Другие курсы по NLP

Личные инструменты