Математические методы анализа текстов (МФТИ) / 2021

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Правила сдачи курса)
(Программа курса)
 
(3 промежуточные версии не показаны)
Строка 47: Строка 47:
===Правила сдачи экзамена===
===Правила сдачи экзамена===
 +
 +
Экзаменационная программа: [https://github.com/mmta-team/mmta_2021_fall/blob/main/mipt/exam_program.pdf ссылка]
Экзамен проходит онлайн. Каждому студенту высылается два вопроса из списка для подготовки. Студент готовится к ответу, пользуясь любыми материалами.
Экзамен проходит онлайн. Каждому студенту высылается два вопроса из списка для подготовки. Студент готовится к ответу, пользуясь любыми материалами.
Строка 63: Строка 65:
Предобработка, выделение признаков и классификация .
Предобработка, выделение признаков и классификация .
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/mipt/slides/01_intro.pdf слайды]
|
|
Строка 71: Строка 73:
| 15.09
| 15.09
| Векторные представления слов
| Векторные представления слов
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/mipt/slides/02_word_embeddings.pdf слайды]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
Строка 80: Строка 82:
Pytorch при работе с представлениями слов.
Pytorch при работе с представлениями слов.
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/mipt/slides/03_word_embeddings_seminar.pdf слайды]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
Строка 89: Строка 91:
Модель Linear-CRF, её упрощения и обобщения.
Модель Linear-CRF, её упрощения и обобщения.
-
| [[Media:mmta21-tagging-crf.pdf|презентация]]
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/mipt/slides/04_tagging_crf.pdf слайды]
-
[https://youtu.be/IX3XFMMW7l0?t=645 видео]
 
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
Строка 101: Строка 102:
Применение LSTM для разметки последовательности.
Применение LSTM для разметки последовательности.
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/mipt/slides/05_tagging_rnn.pdf слайды]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
Строка 120: Строка 121:
Архитектура transformer.
Архитектура transformer.
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/mipt/slides/07_machine_translation_transformers_old.pdf слайды (прошлый год)]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
Строка 132: Строка 133:
Задача генерации естественного языка.
Задача генерации естественного языка.
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/mipt/slides/08_language_modeling.pdf слайды]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
Строка 143: Строка 144:
Модель BERT и её модификации.
Модель BERT и её модификации.
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/mipt/slides/09_bert.pdf слайды]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
Строка 152: Строка 153:
Дизайн индустриальной ML-системы.
Дизайн индустриальной ML-системы.
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/mipt/slides/10_classification.pdf слайды]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
Строка 160: Строка 161:
| Различные приложения DL в NLP.
| Различные приложения DL в NLP.
 +
Рекомендательные системы.
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/mipt/slides/11_ir_recsys.pdf слайды]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
-
| 12
+
| 13
| 01.12
| 01.12
-
| Тематическое моделирование и его приложения.
+
| Автоматическая суммаризация текстов.
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/mipt/slides/12_summarization.pdf слайды]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
-
| 13
+
| 14
| 08.12
| 08.12
-
| TBA
+
| Диалоговые и вопросно-ответные системы.
-
 
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/mipt/slides/13_dialog_qa_slides.pdf слайды]
-
|
+
-
|
+
-
<!-- Конец занятия -->
+
-
|- <!-- Новое занятие -->
+
-
| 14
+
-
| 15.12
+
-
| TBA
+
-
|
+
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->

Текущая версия

В курсе рассматриваются основные задачи и математические методы обработки естественного языка.

Курс читается:

От студентов требуются знание курса машинного обучения, основ глубинного обучения, а также языка программирования Python.

Содержание

Объявления

Нет

Контакты

  • В этом семестре занятия будут проводиться онлайн в zoom
  • По всем конструктивным вопросам пишите в telegram-чат
  • Репозиторий со всеми материалами: ссылка
  • Видеозаписи лекций 2021 года: ссылка
  • Короткая ссылка на страницу курса: ссылка
  • Родственный курс на ВМК МГУ: ссылка

Правила сдачи курса

Правила выставления итоговой оценки

В рамках курса предполагается четыре практических задания и экзамен. Практические задания сдаются в систему anytask (инвайт у преподавателя). Срок выполнения каждого задания — 2 недели. За каждое задание можно получить до 10-ти баллов. За каждый день просрочки назначается штраф 1 балл. Основной язык выполнения заданий — Python 3.

Студенты, набравшие за практические задания больше 40 баллов, получают автоматом максимальную оценку. Для остальных итоговая оценка по 10-ти балльной шкале вычисляется по следующей формуле:

round(0.7 \times D / 4 + 0.3 \times E) \times \mathbb{I}[E >= 3] , где

D — оценка за дз, E — оценка за экзамен, round — математическое округление.

Есть дополнительные условия для получения каждой из оценок:

  • удовлетворительно (3, 4) — 2 сданных задания на положительную оценку
  • хорошо (5, 6, 7) — 3 сданных задания на положительную оценку
  • отлично (8, 9, 10) — 4 сданных задания на положительную оценку

Если после сдачи экзамена студенту не хватает баллов на положительную оценку, он отправляется на "пересдачу". Студент должен досдать домашние задания, которые он не сдавал в течение семестра, чтобы набрать баллы для получения минимальной удовлетворительной оценки. Домашние задания проверяются без учёта штрафа.

Правила сдачи экзамена

Экзаменационная программа: ссылка

Экзамен проходит онлайн. Каждому студенту высылается два вопроса из списка для подготовки. Студент готовится к ответу, пользуясь любыми материалами. В назначенное время студент приглашается в индивидуальную зум-конференцию с преподавателем. Ориентировочное время ответа 40-60 минут.

Программа курса

Дата Тема Материалы Д/З
1 08.09 Организация курса, правила игры.

Введение в обработку текстов (Natural Language Processing).

Предобработка, выделение признаков и классификация .

слайды
2 15.09 Векторные представления слов слайды
3 22.09 Библиотека pytorch.

Pytorch при работе с представлениями слов.

слайды
4 29.09 Задача разметки последовательностей (tagging). Примеры задач.

Модель Linear-CRF, её упрощения и обобщения.

слайды
5 06.10

Модели рекуррентных нейронных сетей: RNN, LSTM.

Применение LSTM для разметки последовательности.

слайды
6 13.10

Pytorch для работы с последовательностями.

7 20.10 Машинный перевод. Подход Sequence-to-sequence.

Механизм внимания в подходе sequence-to-sequence.

Архитектура transformer.

слайды (прошлый год)
8 27.10 Задача языкового моделирования.

Статистические и нейросетевые языковые модели.

Задача генерации естественного языка.

слайды
9 10.11 Контекстуальные векторные представления слов.

Transfer learning в NLP.

Модель BERT и её модификации.

слайды
10 17.11 Задача классификации текстов.

Дизайн индустриальной ML-системы.

слайды
11 24.11 Различные приложения DL в NLP.

Рекомендательные системы.

слайды
13 01.12 Автоматическая суммаризация текстов. слайды
14 08.12 Диалоговые и вопросно-ответные системы. слайды

Страницы прошлых лет

Дополнительные материалы

Литература

Другие курсы по NLP

Личные инструменты