Математические методы анализа текстов (курс лекций) / осень 2019

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Программа курса)
(22 промежуточные версии не показаны)
Строка 9: Строка 9:
==Контакты==
==Контакты==
-
* Преподаватели курса: Воронцов К.В., Апишев М.А., Попов А.С.
+
* Преподаватели курса: [[Участник:Vokov|Воронцов К.В.]], [[Участник:mapishev|Апишев М.А.]], [[Участник:Arti_lehtonen|Попов А.С.]]
* На ВМК занятия проходят в аудитории 72 по вторникам, начало в 10:30
* На ВМК занятия проходят в аудитории 72 по вторникам, начало в 10:30
-
* На ВЦ занятия проходят в аудитории ?? по средам, начало в ??
+
* В ФИЦ ИУ РАН занятия по средам, начало в 16:10
 +
 
 +
* По всем конструктивным вопросам пишите в [https://t.me/joinchat/B2UcORRlc1j_RpANlJi1Xg telegram-чат]
 +
 
 +
* Репозиторий со всеми материалами: [https://github.com/mmta-team/mmta_fall_2019 ссылка]
 +
 
 +
* Короткая ссылка на страницу курса: [https://clck.ru/J5PMZ ссылка]
-
* По всем конструктивным вопросам пишите в telegram-чат ??
 
-
 
==Правила сдачи курса==
==Правила сдачи курса==
-
В рамках курса предполагается четыре практических задания и экзамен. Все практические задания выполняются на языке Python 3. Правила выставления оценки будут объявлены позже.
+
* В рамках курса предполагается четыре практических задания и экзамен.
-
Все практические задания выполняются самостоятельно. Любые работы, содержащие плагиат, оцениваются в 0 баллов.
+
* Практические задания сдаются в систему anytask (инвайт у преподавателя). Срок выполнения каждого задания — 2 недели. За каждое задание можно получить до 10-ти баллов. За каждый день просрочки назначается штраф 1 балл. Основной язык выполнения заданий — Python 3.
 +
 +
* Все практические задания выполняются самостоятельно. Любые работы, содержащие плагиат, оцениваются в 0 баллов.
 +
 
 +
* Правила сдачи экзамена появятся позднее.
 +
 
 +
===Правила выставления итоговой оценки===
 +
<tex>X_e</tex> — оценка за экзамен по 10-ти балльной шкале, <tex>X_d</tex> — суммарная оценка студента за практические задания, <tex>X_{max}</tex> — максимальная оценка за практические задания (без учёта бонусов)
 +
 
 +
* Если <tex>X_d / X_{max} \geq 1</tex> — максимальная оценка автоматом
 +
* Если <tex>X_d / X_{max} < 0.125</tex> — пересдача автоматом
 +
* Иначе, оценка в 10-ти балльной шкале вычисляется как <tex> X_e + round(8 X_d / X_{max} - 4.5) </tex>
 +
* Для ВМК и МАИ: 3-4 — оценка удовлетворительно, 5-7 — оценка хорошо, 8-10 — оценка отлично
 +
* Правила выставления оценки на пересдаче будут обговариваться отдельно в конце курса
==Программа курса==
==Программа курса==
-
==Экзамен==
+
{|class = "standard"
-
Правила сдачи экзамена появятся позднее.
+
! № !! Тема !! Материалы !! Д/З
 +
|- <!-- Новое занятие -->
 +
| 1
 +
| Введение в область анализа текстов (Natural Language Processing). Обзор основных задач.
 +
| [[media:mmta19intro.pdf|слайды]]
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 2
 +
| Предобработка данных. Простейшие модели классификации.
 +
| [https://github.com/mmta-team/mmta_fall_2019/blob/master/02_preprocessing_and_simple_classification/preprocessing_simple_classification.pdf слайды]
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 3
 +
| Векторные представления слов.
 +
| [https://github.com/mmta-team/mmta_fall_2019/blob/master/03_word_embeddings/word_embeddings.pdf слайды]
 +
| [https://github.com/mmta-team/mmta_fall_2019/tree/master/03_word_embeddings/homework практическое задание 1]
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 4
 +
| Задача теггинга последовательности. Условные случайные поля (CRF).
 +
| [[Media:mmta19crf.pdf|слайды]]
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 5
 +
| Задача теггинга последовательности. Нейросетевые и комбинированные модели для теггинга.
 +
| [https://github.com/mmta-team/mmta_fall_2019/blob/master/05_rnn_tagging/rnn_tagging.pdf слайды]
 +
| [https://github.com/mmta-team/mmta_fall_2019/tree/master/05_rnn_tagging/homework практическое задание 2]
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 6
 +
| Языковое моделирование. Генерация текста на естественном языке.
 +
| [https://github.com/mmta-team/mmta_fall_2019/blob/master/06_language_models/lm.pdf слайды]
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 7
 +
| Модель sequence-to-sequence в машинном переводе и других приложениях.
 +
| [https://github.com/mmta-team/mmta_fall_2019/blob/master/07_machine_translation/mt_attention_transformers.pdf слайды]
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 8
 +
| Глубокие архитектуры представления предложений и документов.
 +
|
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 9
 +
| Синтаксический разбор и его применение в практических задачах.
 +
|
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 10
 +
| Задача классификации текстов.
 +
|
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 11
 +
| Тематическое моделирование.
 +
|
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 12
 +
| Сегментация и суммаризация текстов.
 +
|
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 13
 +
| To be announced
 +
|
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 14
 +
| To be announced
 +
|
 +
|
 +
<!-- Конец занятия -->
 +
 
 +
|}
==Страницы прошлых лет==
==Страницы прошлых лет==

Версия 07:46, 17 октября 2019

Содержание

В курсе рассматриваются основные задачи и математические методы обработки естественного языка.

Курс читается:

От студентов требуются знание курса машинного обучения, основ глубинного обучения, а также языка программирования Python.

Контакты

  • На ВМК занятия проходят в аудитории 72 по вторникам, начало в 10:30
  • В ФИЦ ИУ РАН занятия по средам, начало в 16:10
  • По всем конструктивным вопросам пишите в telegram-чат
  • Репозиторий со всеми материалами: ссылка
  • Короткая ссылка на страницу курса: ссылка

Правила сдачи курса

  • В рамках курса предполагается четыре практических задания и экзамен.
  • Практические задания сдаются в систему anytask (инвайт у преподавателя). Срок выполнения каждого задания — 2 недели. За каждое задание можно получить до 10-ти баллов. За каждый день просрочки назначается штраф 1 балл. Основной язык выполнения заданий — Python 3.
  • Все практические задания выполняются самостоятельно. Любые работы, содержащие плагиат, оцениваются в 0 баллов.
  • Правила сдачи экзамена появятся позднее.

Правила выставления итоговой оценки

X_e — оценка за экзамен по 10-ти балльной шкале, X_d — суммарная оценка студента за практические задания, X_{max} — максимальная оценка за практические задания (без учёта бонусов)

  • Если X_d / X_{max} \geq 1 — максимальная оценка автоматом
  • Если X_d / X_{max} < 0.125 — пересдача автоматом
  • Иначе, оценка в 10-ти балльной шкале вычисляется как  X_e + round(8 X_d / X_{max} - 4.5)
  • Для ВМК и МАИ: 3-4 — оценка удовлетворительно, 5-7 — оценка хорошо, 8-10 — оценка отлично
  • Правила выставления оценки на пересдаче будут обговариваться отдельно в конце курса

Программа курса

Тема Материалы Д/З
1 Введение в область анализа текстов (Natural Language Processing). Обзор основных задач. слайды
2 Предобработка данных. Простейшие модели классификации. слайды
3 Векторные представления слов. слайды практическое задание 1
4 Задача теггинга последовательности. Условные случайные поля (CRF). слайды
5 Задача теггинга последовательности. Нейросетевые и комбинированные модели для теггинга. слайды практическое задание 2
6 Языковое моделирование. Генерация текста на естественном языке. слайды
7 Модель sequence-to-sequence в машинном переводе и других приложениях. слайды
8 Глубокие архитектуры представления предложений и документов.
9 Синтаксический разбор и его применение в практических задачах.
10 Задача классификации текстов.
11 Тематическое моделирование.
12 Сегментация и суммаризация текстов.
13 To be announced
14 To be announced

Страницы прошлых лет

2018 (ФУПМ МФТИ), 2018 (ВМК МГУ)

2017 (ВМК МГУ)

Дополнительные материалы

Литература

Другие курсы по NLP

Личные инструменты