Математические методы анализа текстов (курс лекций) / осень 2020

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Лекции)
(38 промежуточных версий не показаны.)
Строка 8: Строка 8:
==Объявления==
==Объявления==
-
Ближайшая лекция состоится 2 сентября в 16:10 по ссылке:
 
-
https://zoom.us/j/96336748440?pwd=MWlaT0F0SGs0aWhQVnZ1aXVNRGUvZz09
 
 +
Нет
==Контакты==
==Контакты==
Строка 20: Строка 19:
* Репозиторий со всеми материалами: [https://github.com/mmta-team/mmta_fall_2020 ссылка]
* Репозиторий со всеми материалами: [https://github.com/mmta-team/mmta_fall_2020 ссылка]
 +
 +
* Видеозаписи лекций: [https://www.youtube.com/playlist?list=PLVF5PzSHILHRQO45w7fEqmy7t9xWUGfB- ссылка]
* Короткая ссылка на страницу курса: https://clck.ru/QcKga
* Короткая ссылка на страницу курса: https://clck.ru/QcKga
 +
 +
* Постоянная ссылка для просмотра лекций в Zoom: [https://zoom.us/j/98996232770?pwd=b2hwaHJuMGhqL2kvTmZyMW1sVGgvZz09 ссылка]
==Правила сдачи курса==
==Правила сдачи курса==
-
* В курсе будет 4 практических задания по 10 баллов без учёта бонусов.
+
* В курсе будет 5 практических задания по 10 баллов без учёта бонусов.
* В конце курса — устный экзамен, оцениваемый по 10-ти балльной шкале.
* В конце курса — устный экзамен, оцениваемый по 10-ти балльной шкале.
* По всем заданиям мягкий дедлайн, за 1 день штрафа назначается штраф 1 балл.
* По всем заданиям мягкий дедлайн, за 1 день штрафа назначается штраф 1 балл.
Строка 31: Строка 34:
===Правила выставления итоговой оценки===
===Правила выставления итоговой оценки===
-
Студенты, набравшие за практические задания больше 40 баллов, получают автоматом максимальную оценку.
+
Студенты, набравшие за практические задания больше 50 баллов, получают автоматом максимальную оценку.
Для остальных итоговая оценка по 10-ти балльной шкале вычисляется по следующей формуле:
Для остальных итоговая оценка по 10-ти балльной шкале вычисляется по следующей формуле:
-
<tex>round(0.7 \times D / 4 + 0.3 \times E) \times \mathbb{I}[E >= 3] </tex>, где
+
<tex>round(0.7 \times D / 5 + 0.3 \times E) \times \mathbb{I}[E >= 3] </tex>, где
<tex>D</tex> — оценка за дз, <tex>E</tex> — оценка за экзамен, <tex>round</tex> — математическое округление.
<tex>D</tex> — оценка за дз, <tex>E</tex> — оценка за экзамен, <tex>round</tex> — математическое округление.
Есть дополнительные условия для получения каждой из оценок:
Есть дополнительные условия для получения каждой из оценок:
-
* удовлетворительно (3, 4) — 1 сданное задание на положительную оценку
+
* удовлетворительно (3, 4) — 2 сданных задания на положительную оценку
-
* хорошо (5, 6, 7) — 2 сданных задания на положительную оценку
+
* хорошо (5, 6, 7) — 3 сданных задания на положительную оценку
-
* отлично (8, 9, 10) — 3 сданных задания на положительную оценку
+
* отлично (8, 9, 10) — 4 сданных задания на положительную оценку
===Правила сдачи экзамена ===
===Правила сдачи экзамена ===
Строка 48: Строка 51:
==Программа курса==
==Программа курса==
 +
 +
=== Лекции ===
 +
{|class = "standard"
{|class = "standard"
-
! № !! Дата !! Тема !! Материалы !! Д/З
+
! № !! Дата !! Тема !! Материалы !! Видео !! Д/З
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
-
| лекция 1
+
| 1
-
| 02.09 16:10
+
| 02.09
-
| Введение в область анализа текстов (Natural Language Processing).
+
| Организация курса, правила игры.
-
Обзор основных задач.
+
Введение в обработку текстов (Natural Language Processing).
 +
 
 +
Предобработка, выделение признаков и классификация .
 +
|
 +
[https://github.com/mmta-team/mmta_fall_2020/blob/master/01_intro_and_preprocessing/rules.pdf презентация (организация)]
 +
 
 +
[https://github.com/mmta-team/mmta_fall_2020/blob/master/01_intro_and_preprocessing/intro.pdf презентация (введение)]
 +
 
 +
|
 +
[https://www.youtube.com/watch?v=UryaczBaJbQ&list=PLVF5PzSHILHRQO45w7fEqmy7t9xWUGfB-&index=2&t=0s видео (организация)]
 +
 
 +
[https://www.youtube.com/watch?v=eb1GXoMQyC4&list=PLVF5PzSHILHRQO45w7fEqmy7t9xWUGfB-&index=2 видео (введение)]
-
Предобработка данных. Линейные модели классификации.
 
-
|
 
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
-
| лекция 2
+
| 2
-
| ???
+
| 09.09
| Векторные представления слов
| Векторные представления слов
-
|
+
| [https://github.com/mmta-team/mmta_fall_2020/blob/master/02_word_embeddings/word_embeddings.pdf презентация]
-
|
+
| [https://www.youtube.com/watch?v=9ny2v6-KT84&list=PLVF5PzSHILHRQO45w7fEqmy7t9xWUGfB-&index=4&t=0s видео]
 +
| [https://github.com/mmta-team/mmta_fall_2020/tree/master/tasks/01_word_embeddings задание по эмбеддингам]
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
-
| семинар
+
| 3
-
| ???
+
| 15.09
-
| Библиотека pytorch.
+
| Задача разметки последовательностей (tagging). Примеры задач.
-
|
+
-
|
+
-
<!-- Конец занятия -->
+
-
|- <!-- Новое занятие -->
+
-
| лекция 3
+
-
| ???
+
-
| Задача теггинга. Задачи POS тегирования и NER.
+
-
Модели HMM, Linear CRF.
+
Модель Linear-CRF, её упрощения и обобщения.
-
|
+
| [https://github.com/mmta-team/mmta_fall_2020/blob/master/03_tagging_crf/tagging_crf.pdf презентация]
 +
| [https://www.youtube.com/watch?v=B72No9_jSm4&feature=youtu.be видео]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
-
| лекция 4
+
| 4
-
| ???
+
| 23.09
-
| Задача языкового моделирования. Статистические подходы её решения.
+
|
 +
Модели рекуррентных нейронных сетей: RNN, LSTM.
-
Архитектуры RNN, LSTM.
+
Применение LSTM для разметки последовательности.
-
 
+
| [https://github.com/mmta-team/mmta_fall_2020/blob/master/04_tagging_rnn/tagging_rnn.pdf слайды]
-
Применение RNN для языкового моделирования и теггинга.
+
| [https://www.youtube.com/watch?v=KlJ-lSDAkeA&list=PLVF5PzSHILHRQO45w7fEqmy7t9xWUGfB-&index=6 видео]
-
|
+
| [https://github.com/mmta-team/mmta_fall_2020/tree/master/tasks/02_tagging задание по разметке]
-
|
+
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
-
| лекция 5
+
| 5
-
| ???
+
| 30.09
| Машинный перевод. Подход Sequence-to-sequence.
| Машинный перевод. Подход Sequence-to-sequence.
Строка 104: Строка 114:
Архитектура transformer.
Архитектура transformer.
-
|
+
| [https://github.com/mmta-team/mmta_fall_2020/blob/master/05_machine_translation_transformers/machine_translation_transformers.pdf слайды]
 +
| [https://www.youtube.com/watch?v=aTCxhBNEdk0&feature=youtu.be видео]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
-
| лекция 6
+
| 6
-
| ???
+
| 13.10
-
| Задача генерации естественного языка.
+
| Задача языкового моделирования.
 +
 
 +
Статистические и нейросетевые языковые модели.
-
Нейросетевые языковые модели. Модель GPT и её модификации.
+
Задача генерации естественного языка.
-
|
+
 
 +
| [https://github.com/mmta-team/mmta_fall_2020/blob/master/06_language_modeling/lm_slides.pdf слайды]
 +
| [https://www.youtube.com/watch?v=ME0nfTyT0cw&list=PLVF5PzSHILHRQO45w7fEqmy7t9xWUGfB-&index=9 видео]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
-
| лекция 7
+
| 7
-
| ???
+
| 20.10
-
| Transfer learning в NLP, контекстные векторные представления слов.
+
| Контекстуальные векторные представления слов.
 +
 
 +
Transfer learning в NLP.
Модель BERT и её модификации.
Модель BERT и её модификации.
-
|
+
| [https://github.com/mmta-team/mmta_fall_2020/blob/master/07_transfer_learning/slides_transfer_learning.pdf слайды]
-
|
+
| [https://www.youtube.com/watch?v=_WBbB4RVe60&list=PLVF5PzSHILHRQO45w7fEqmy7t9xWUGfB-&index=10 видео]
 +
| [https://github.com/mmta-team/mmta_fall_2020/tree/master/tasks/03_transfer_learning задание по берту]
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
-
| лекция 8
+
| 8
-
| ???
+
| 28.10
| Задача классификации текстов.
| Задача классификации текстов.
Дизайн индустриальной ML-системы.
Дизайн индустриальной ML-системы.
-
|
+
| [https://github.com/mmta-team/mmta_fall_2020/blob/master/08_classification/classification_slides.pdf слайды]
 +
| [https://www.youtube.com/watch?v=MlnvQ3v-0cw видео]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
-
| лекция 9
+
| 9
-
| ???
+
| 03.11
-
| Тематическое моделирование и тематический поиск.
+
| Тематическое моделирование и его приложения.
 +
| [https://github.com/mmta-team/mmta_fall_2020/blob/master/09_topic_modeling/tm_slides.pdf слайды]
 +
| [https://www.youtube.com/watch?v=-qvYF6oUxsI&feature=youtu.be видео]
 +
| [https://github.com/mmta-team/mmta_fall_2020/tree/master/tasks/04_topic_modeling задание по тем. моделированию]
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 10
 +
| 11.11
|
|
 +
Диалоговые и вопросно-ответные системы.
 +
 +
|
 +
| [https://www.youtube.com/watch?v=ILsna6L71DU&list=PLVF5PzSHILHRQO45w7fEqmy7t9xWUGfB-&index=13 видео]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
-
| лекция 10
+
| 11
-
| ???
+
| 17.11
| Синтаксический разбор и его применение в практических задачах.
| Синтаксический разбор и его применение в практических задачах.
|
|
 +
| [https://www.youtube.com/watch?v=qvLkJ_CDJZE&list=PLVF5PzSHILHRQO45w7fEqmy7t9xWUGfB-&index=14 видео]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
-
| лекция 11
+
| 12
| ???
| ???
| Информационный поиск.
| Информационный поиск.
NLP в рекомендательных системах.
NLP в рекомендательных системах.
-
 
|
|
 +
|
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
-
| лекция 12
+
| 13
| ???
| ???
-
| Диалоговые и вопросно-ответные системы.
+
| ?Суммаризация текстов.
|
|
 +
|
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
-
| лекция 13
+
| 14
| ???
| ???
| TBA
| TBA
|
|
 +
|
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
 +
 +
 +
|}
 +
 +
=== Семинары ===
 +
 +
{|class = "standard"
 +
! № !! Дата !! Тема !! Материалы !! Видео !! Д/З
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
-
| лекция 14
+
| 1
-
| ???
+
| 16.09
-
| TBA
+
| Введение в нейросети. Библиотека pytorch.
 +
| [https://github.com/mmta-team/mmta_fall_2020/blob/master/seminars/01_nn_pytorch/nn_notes.pdf записи (нейросети)]
-
|
+
[https://github.com/mmta-team/mmta_fall_2020/blob/master/seminars/01_nn_pytorch/pytorch_bases.ipynb ноутбук (pytorch)]
 +
 
 +
[https://github.com/mmta-team/mmta_fall_2020/blob/master/seminars/01_nn_pytorch/food_cbow.ipynb ноутбук (cbow на pytorch)]
 +
 
 +
| [https://www.youtube.com/watch?v=5LXdNkoL45U&list=PLVF5PzSHILHRQO45w7fEqmy7t9xWUGfB-&index=6 видео]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 2
 +
| 06.10
 +
| Разбор первого практического задания.
 +
 +
| [https://github.com/mmta-team/mmta_fall_2020/blob/master/seminars/02_first_task_analysis/first_task_tips_and_tricks.pdf слайды]
 +
| [https://youtu.be/sTxF3mnTvWY видео]
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 3
 +
| 21.10
 +
| Разбор второго практического задания.
 +
 +
| [https://github.com/mmta-team/mmta_fall_2020/blob/master/tasks/02_tagging/tagging_postprocessing_notes.pdf конспект]
 +
[https://github.com/mmta-team/mmta_fall_2020/blob/master/seminars/03_second_task_analysis/notes_crf.pdf записи]
 +
| [https://www.youtube.com/watch?v=uVb48NzMKic&list=PLVF5PzSHILHRQO45w7fEqmy7t9xWUGfB-&index=11 видео]
 +
|
 +
<!-- Конец занятия -->
 +

Версия 12:50, 18 ноября 2020

В курсе рассматриваются основные задачи и математические методы обработки естественного языка.

Курс читается:

От студентов требуются знание курса машинного обучения, основ глубинного обучения, а также языка программирования Python.

Содержание

Объявления

Нет

Контакты

  • В этом семестре занятия будут проводиться онлайн в TBA
  • По всем конструктивным вопросам пишите в telegram-чат
  • Репозиторий со всеми материалами: ссылка
  • Постоянная ссылка для просмотра лекций в Zoom: ссылка

Правила сдачи курса

  • В курсе будет 5 практических задания по 10 баллов без учёта бонусов.
  • В конце курса — устный экзамен, оцениваемый по 10-ти балльной шкале.
  • По всем заданиям мягкий дедлайн, за 1 день штрафа назначается штраф 1 балл.
  • За любой найденный плагиат задание обнуляется у всех студентов с найденным плагиатом. При повторном обнаружении плагиата могут следовать более жёсткие санкции. Плагиатом считается явное заимствование кода у другого студента или из открытых источников без указания источника.

Правила выставления итоговой оценки

Студенты, набравшие за практические задания больше 50 баллов, получают автоматом максимальную оценку. Для остальных итоговая оценка по 10-ти балльной шкале вычисляется по следующей формуле:

round(0.7 \times D / 5 + 0.3 \times E) \times \mathbb{I}[E >= 3] , где

D — оценка за дз, E — оценка за экзамен, round — математическое округление.

Есть дополнительные условия для получения каждой из оценок:

  • удовлетворительно (3, 4) — 2 сданных задания на положительную оценку
  • хорошо (5, 6, 7) — 3 сданных задания на положительную оценку
  • отлично (8, 9, 10) — 4 сданных задания на положительную оценку

Правила сдачи экзамена

TBA

Программа курса

Лекции

Дата Тема Материалы Видео Д/З
1 02.09 Организация курса, правила игры.

Введение в обработку текстов (Natural Language Processing).

Предобработка, выделение признаков и классификация .

презентация (организация)

презентация (введение)

видео (организация)

видео (введение)

2 09.09 Векторные представления слов презентация видео задание по эмбеддингам
3 15.09 Задача разметки последовательностей (tagging). Примеры задач.

Модель Linear-CRF, её упрощения и обобщения.

презентация видео
4 23.09

Модели рекуррентных нейронных сетей: RNN, LSTM.

Применение LSTM для разметки последовательности.

слайды видео задание по разметке
5 30.09 Машинный перевод. Подход Sequence-to-sequence.

Механизм внимания в подходе sequence-to-sequence.

Архитектура transformer.

слайды видео
6 13.10 Задача языкового моделирования.

Статистические и нейросетевые языковые модели.

Задача генерации естественного языка.

слайды видео
7 20.10 Контекстуальные векторные представления слов.

Transfer learning в NLP.

Модель BERT и её модификации.

слайды видео задание по берту
8 28.10 Задача классификации текстов.

Дизайн индустриальной ML-системы.

слайды видео
9 03.11 Тематическое моделирование и его приложения. слайды видео задание по тем. моделированию
10 11.11

Диалоговые и вопросно-ответные системы.

видео
11 17.11 Синтаксический разбор и его применение в практических задачах. видео
12  ??? Информационный поиск.

NLP в рекомендательных системах.

13  ???  ?Суммаризация текстов.
14  ??? TBA


Семинары

Дата Тема Материалы Видео Д/З
1 16.09 Введение в нейросети. Библиотека pytorch. записи (нейросети)

ноутбук (pytorch)

ноутбук (cbow на pytorch)

видео
2 06.10 Разбор первого практического задания. слайды видео
3 21.10 Разбор второго практического задания. конспект

записи

видео


Страницы прошлых лет

2019

2018 (ФУПМ МФТИ), 2018 (ВМК МГУ)

2017 (ВМК МГУ)

Дополнительные материалы

Литература

Другие курсы по NLP

Личные инструменты