Математические методы анализа текстов (ВМК МГУ) / 2021

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Контакты)
Текущая версия (08:37, 30 декабря 2021) (править) (отменить)
(Правила выставления итоговой оценки)
 
(4 промежуточные версии не показаны)
Строка 45: Строка 45:
Если после сдачи экзамена студенту не хватает баллов на положительную оценку, он отправляется на "пересдачу". Студент должен досдать домашние задания, которые он не сдавал в течение семестра, чтобы набрать баллы для получения минимальной удовлетворительной оценки. Домашние задания проверяются без учёта штрафа.
Если после сдачи экзамена студенту не хватает баллов на положительную оценку, он отправляется на "пересдачу". Студент должен досдать домашние задания, которые он не сдавал в течение семестра, чтобы набрать баллы для получения минимальной удовлетворительной оценки. Домашние задания проверяются без учёта штрафа.
 +
 +
Программа экзамена: [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/exam_program.pdf ссылка]
==Программа курса==
==Программа курса==
Строка 58: Строка 60:
Предобработка, выделение признаков и классификация .
Предобработка, выделение признаков и классификация .
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/01_intro.pdf слайды]
|
|
Строка 69: Строка 71:
Построение представлений для слов не из словаря.
Построение представлений для слов не из словаря.
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/02_word_embeddings.pdf слайды]
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/tree/main/cmc/tasks/01_word_embeddings дз]
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
Строка 80: Строка 82:
RNN, LSTM. Transformer.
RNN, LSTM. Transformer.
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/03_tagging.pdf слайды]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
Строка 90: Строка 92:
Комбинирование нейросетей и CRF.
Комбинирование нейросетей и CRF.
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/04_structured_prediction.pdf слайды]
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/tree/main/cmc/tasks/02_ner дз]
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
Строка 100: Строка 102:
Семейство моделей GPT.
Семейство моделей GPT.
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/05_language_modeling.pdf слайды]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
Строка 106: Строка 108:
| 6
| 6
| 12.10
| 12.10
-
| Машинный перевод.
+
| Контекстуальные векторные представления слов.
-
Подход Sequence-to-sequence.
+
Transfer learning в NLP.
-
Эвристики при авторегрессионной генерации.
+
Модель BERT и её модификации.
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/06_bert.pdf слайды]
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/tree/main/cmc/tasks/03_bert дз]
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
| 7
| 7
| 19.10
| 19.10
-
| Контекстуальные векторные представления слов.
+
| Машинный перевод.
-
Transfer learning в NLP.
+
Подход Sequence-to-sequence.
-
Модель BERT и её модификации.
+
Эвристики при авторегрессионной генерации.
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/07_sequence_to_sequence.pdf слайды]
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/tree/main/cmc/tasks/04_generation дз]
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
| 8
| 8
-
| 26.10
 
-
| Тематическое моделирование и его приложения.
 
-
 
-
Тематический поиск.
 
-
|
 
-
|
 
-
<!-- Конец занятия -->
 
-
|- <!-- Новое занятие -->
 
-
| 9
 
| 02.11
| 02.11
| Диалоговые и вопросно-ответные системы.
| Диалоговые и вопросно-ответные системы.
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/08_dialog_qa_slides.pdf слайды]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
-
| 10
+
| 9
| 09.11
| 09.11
| Синтаксический разбор и его применение в практических задачах.
| Синтаксический разбор и его применение в практических задачах.
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/09_syntax_parsing_1.pdf слайды(1)]
 +
[https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/09_syntax_parsing_2.pdf слайды(2)]
 +
 
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
-
| 11
+
| 10
| 16.11
| 16.11
| Задача классификации текстов.
| Задача классификации текстов.
Дизайн индустриальной ML-системы.
Дизайн индустриальной ML-системы.
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/10_classification.pdf слайды]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
-
| 12
+
| 11
-
| 23.11
+
| 30.11
| Различные приложения DL в NLP.
| Различные приложения DL в NLP.
Информационный поиск.
Информационный поиск.
Рекомендательные системы.
Рекомендательные системы.
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/11_ir_recsys.pdf слайды]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
-
| 13
+
| 12
-
| 30.11
+
| 07.12
| Автоматическая суммаризация текстов.
| Автоматическая суммаризация текстов.
Строка 172: Строка 167:
Abstractive суммаризация.
Abstractive суммаризация.
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/12_summarization.pdf слайды]
-
|
+
-
<!-- Конец занятия -->
+
-
|- <!-- Новое занятие -->
+
-
| 14
+
-
| 07.12
+
-
| TBA
+
-
|
+
-
|
+
-
<!-- Конец занятия -->
+
-
|- <!-- Новое занятие -->
+
-
| 15
+
-
| 14.12
+
-
| TBA
+
-
|
+
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->

Текущая версия

В курсе рассматриваются основные задачи и математические методы обработки естественного языка.

Курс читается:

От студентов требуются знание курса машинного обучения, основ глубинного обучения, а также языка программирования Python.

Содержание

Объявления

Нет

Контакты

  • В этом семестре занятия будут проводиться в аудитории TBA
  • По всем конструктивным вопросам пишите в telegram-чат
  • Репозиторий со всеми материалами: ссылка
  • Видеозаписи лекций 2020 года: ссылка
  • Короткая ссылка на страницу курса: ссылка
  • Родственный курс на ФПМИ МФТИ: ссылка

Правила сдачи курса

Правила выставления итоговой оценки

В рамках курса предполагается четыре практических задания и экзамен. Практические задания сдаются в систему anytask (инвайт у преподавателя). Срок выполнения каждого задания — 2 недели. За каждое задание можно получить до 10-ти баллов. За каждый день просрочки назначается штраф 1 балл. Основной язык выполнения заданий — Python 3.

Студенты, набравшие за практические задания строго больше 40 баллов, получают автоматом максимальную оценку. Для остальных итоговая оценка по 10-ти балльной шкале вычисляется по следующей формуле:

round(0.7 \times D / 4 + 0.3 \times E) \times \mathbb{I}[E >= 3] , где

D — оценка за дз, E — оценка за экзамен в 10-ти балльной шкале, round — математическое округление.

Есть дополнительные условия для получения каждой из оценок:

  • удовлетворительно (3, 4) — 2 сданных задания на положительную оценку
  • хорошо (5, 6, 7) — 3 сданных задания на положительную оценку
  • отлично (8, 9, 10) — 4 сданных задания на положительную оценку

Если после сдачи экзамена студенту не хватает баллов на положительную оценку, он отправляется на "пересдачу". Студент должен досдать домашние задания, которые он не сдавал в течение семестра, чтобы набрать баллы для получения минимальной удовлетворительной оценки. Домашние задания проверяются без учёта штрафа.

Программа экзамена: ссылка

Программа курса

Дата Тема Материалы Д/З
1 07.09 Организация курса, правила игры.

Введение в обработку текстов (Natural Language Processing).

Предобработка, выделение признаков и классификация .

слайды
2 14.09 Векторные представления слов.

Count-based и prediction-based методы.

Построение представлений для слов не из словаря.

слайды дз
3 21.09 Задача разметки последовательностей (tagging).

Нейросетевые архитектуры для её решения.

RNN, LSTM. Transformer.

слайды
4 28.09 Структурированное обучение для задачи разметки.

Модель Linear-CRF, её упрощения и обобщения.

Комбинирование нейросетей и CRF.

слайды дз
5 05.10 Задача языкового моделирования.

Статистические и нейросетевые языковые модели.

Семейство моделей GPT.

слайды
6 12.10 Контекстуальные векторные представления слов.

Transfer learning в NLP.

Модель BERT и её модификации.

слайды дз
7 19.10 Машинный перевод.

Подход Sequence-to-sequence.

Эвристики при авторегрессионной генерации.

слайды дз
8 02.11 Диалоговые и вопросно-ответные системы. слайды
9 09.11 Синтаксический разбор и его применение в практических задачах. слайды(1)

слайды(2)

10 16.11 Задача классификации текстов.

Дизайн индустриальной ML-системы.

слайды
11 30.11 Различные приложения DL в NLP.

Информационный поиск.

Рекомендательные системы.

слайды
12 07.12 Автоматическая суммаризация текстов.

Extractive суммаризация.

Abstractive суммаризация.

слайды

Страницы прошлых лет

Дополнительные материалы

Литература

Другие курсы по NLP

Личные инструменты