Математические методы анализа текстов (курс лекций) / осень 2019

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Новая: {{TOCright}} В курсе рассматриваются основные задачи и математические методы обработки естественного язы...)
(Программа курса)
(23 промежуточные версии не показаны)
Строка 7: Строка 7:
От студентов требуются знание курса машинного обучения, основ глубинного обучения, а также языка программирования Python.
От студентов требуются знание курса машинного обучения, основ глубинного обучения, а также языка программирования Python.
 +
 +
==Контакты==
 +
* Преподаватели курса: [[Участник:Vokov|Воронцов К.В.]], [[Участник:mapishev|Апишев М.А.]], [[Участник:Arti_lehtonen|Попов А.С.]]
 +
 +
* На ВМК занятия проходят в аудитории 72 по вторникам, начало в 10:30
 +
 +
* В ФИЦ ИУ РАН занятия по средам, начало в 16:10
 +
 +
* По всем конструктивным вопросам пишите в [https://t.me/joinchat/B2UcORRlc1j_RpANlJi1Xg telegram-чат]
 +
 +
* Репозиторий со всеми материалами: [https://github.com/mmta-team/mmta_fall_2019 ссылка]
 +
 +
* Короткая ссылка на страницу курса: [https://clck.ru/J5PMZ ссылка]
 +
 +
==Правила сдачи курса==
 +
 +
* В рамках курса предполагается четыре практических задания и экзамен.
 +
 +
* Практические задания сдаются в систему anytask (инвайт у преподавателя). Срок выполнения каждого задания — 2 недели. За каждое задание можно получить до 10-ти баллов. За каждый день просрочки назначается штраф 1 балл. Основной язык выполнения заданий — Python 3.
 +
 +
* Все практические задания выполняются самостоятельно. Любые работы, содержащие плагиат, оцениваются в 0 баллов.
 +
 +
* Правила сдачи экзамена появятся позднее.
 +
 +
===Правила выставления итоговой оценки===
 +
<tex>X_e</tex> — оценка за экзамен по 10-ти балльной шкале, <tex>X_d</tex> — суммарная оценка студента за практические задания, <tex>X_{max}</tex> — максимальная оценка за практические задания (без учёта бонусов)
 +
 +
* Если <tex>X_d / X_{max} \geq 1</tex> — максимальная оценка автоматом
 +
* Если <tex>X_d / X_{max} < 0.125</tex> — пересдача автоматом
 +
* Иначе, оценка в 10-ти балльной шкале вычисляется как <tex> X_e + round(8 X_d / X_{max} - 4.5) </tex>
 +
* Для ВМК и МАИ: 3-4 — оценка удовлетворительно, 5-7 — оценка хорошо, 8-10 — оценка отлично
 +
* Правила выставления оценки на пересдаче будут обговариваться отдельно в конце курса
 +
 +
==Программа курса==
 +
 +
{|class = "standard"
 +
! № !! Тема !! Материалы !! Д/З
 +
|- <!-- Новое занятие -->
 +
| 1
 +
| Введение в область анализа текстов (Natural Language Processing). Обзор основных задач.
 +
| [[media:mmta19intro.pdf|слайды]]
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 2
 +
| Предобработка данных. Простейшие модели классификации.
 +
| [https://github.com/mmta-team/mmta_fall_2019/blob/master/02_preprocessing_and_simple_classification/preprocessing_simple_classification.pdf слайды]
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 3
 +
| Векторные представления слов.
 +
| [https://github.com/mmta-team/mmta_fall_2019/blob/master/03_word_embeddings/word_embeddings.pdf слайды]
 +
| [https://github.com/mmta-team/mmta_fall_2019/tree/master/03_word_embeddings/homework практическое задание 1]
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 4
 +
| Задача теггинга последовательности. Условные случайные поля (CRF).
 +
| [[Media:mmta19crf.pdf|слайды]]
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 5
 +
| Задача теггинга последовательности. Нейросетевые и комбинированные модели для теггинга.
 +
| [https://github.com/mmta-team/mmta_fall_2019/blob/master/05_rnn_tagging/rnn_tagging.pdf слайды]
 +
| [https://github.com/mmta-team/mmta_fall_2019/tree/master/05_rnn_tagging/homework практическое задание 2]
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 6
 +
| Языковое моделирование. Генерация текста на естественном языке.
 +
| [https://github.com/mmta-team/mmta_fall_2019/blob/master/06_language_models/lm.pdf слайды]
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 7
 +
| Модель sequence-to-sequence в машинном переводе и других приложениях.
 +
| [https://github.com/mmta-team/mmta_fall_2019/blob/master/07_machine_translation/mt_attention_transformers.pdf слайды]
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 8
 +
| Глубокие архитектуры представления предложений и документов.
 +
|
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 9
 +
| Синтаксический разбор и его применение в практических задачах.
 +
|
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 10
 +
| Задача классификации текстов.
 +
|
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 11
 +
| Тематическое моделирование.
 +
|
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 12
 +
| Сегментация и суммаризация текстов.
 +
|
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 13
 +
| To be announced
 +
|
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 14
 +
| To be announced
 +
|
 +
|
 +
<!-- Конец занятия -->
 +
 +
|}
 +
 +
==Страницы прошлых лет==
 +
[[Математические методы анализа текстов (курс лекций, К.В.Воронцов, А.А.Потапенко) | 2018 (ФУПМ МФТИ)]], [[Математические методы анализа текстов (ВМиК МГУ) / 2018 | 2018 (ВМК МГУ)]]
 +
 +
[[Математические методы анализа текстов (ВМиК МГУ) / 2017 | 2017 (ВМК МГУ)]]
 +
 +
==Дополнительные материалы==
 +
 +
'''Литература'''
 +
 +
* ''Dan Jurafsky and James H. Martin'' [https://web.stanford.edu/~jurafsky/slp3/ Speech and Language Processing] (3rd ed. draft)
 +
* ''Stewen Bird'' et. al. [http://www.nltk.org/book/ Natural Language Processing with Python]. 2-nd edition. 2016.
 +
* ''Большакова Е.И., Воронцов К.В., Ефремова Н.Э., Клышинский Э.С., Лукашевич Н.В., Сапин А.С.'' [[media:bolshakova17hse-summer-school.pdf|Автоматическая обработка текстов на естественном языке и анализ данных]]. НИУ ВШЭ, 2017.
 +
* LxMLS summer school [http://lxmls.it.pt/2018/LxMLS_guide_2018.pdf Practical guide on NLP in Python]
 +
 +
'''Другие курсы по NLP'''
 +
 +
* [https://web.stanford.edu/class/cs224n/ CS224N: Natural Language Processing with Deep Learning]
 +
* [https://github.com/yandexdataschool/nlp_course YSDA Natural Language Processing course]
 +
* [http://web.stanford.edu/class/cs224u/ CS224U: Natural Language Understanding]
 +
* [https://www.coursera.org/learn/language-processing Natural Language Processing (coursera, HSE)]
 +
 +
 +
[[Категория:Учебные курсы]]

Версия 07:46, 17 октября 2019

Содержание

В курсе рассматриваются основные задачи и математические методы обработки естественного языка.

Курс читается:

От студентов требуются знание курса машинного обучения, основ глубинного обучения, а также языка программирования Python.

Контакты

  • На ВМК занятия проходят в аудитории 72 по вторникам, начало в 10:30
  • В ФИЦ ИУ РАН занятия по средам, начало в 16:10
  • По всем конструктивным вопросам пишите в telegram-чат
  • Репозиторий со всеми материалами: ссылка
  • Короткая ссылка на страницу курса: ссылка

Правила сдачи курса

  • В рамках курса предполагается четыре практических задания и экзамен.
  • Практические задания сдаются в систему anytask (инвайт у преподавателя). Срок выполнения каждого задания — 2 недели. За каждое задание можно получить до 10-ти баллов. За каждый день просрочки назначается штраф 1 балл. Основной язык выполнения заданий — Python 3.
  • Все практические задания выполняются самостоятельно. Любые работы, содержащие плагиат, оцениваются в 0 баллов.
  • Правила сдачи экзамена появятся позднее.

Правила выставления итоговой оценки

X_e — оценка за экзамен по 10-ти балльной шкале, X_d — суммарная оценка студента за практические задания, X_{max} — максимальная оценка за практические задания (без учёта бонусов)

  • Если X_d / X_{max} \geq 1 — максимальная оценка автоматом
  • Если X_d / X_{max} < 0.125 — пересдача автоматом
  • Иначе, оценка в 10-ти балльной шкале вычисляется как  X_e + round(8 X_d / X_{max} - 4.5)
  • Для ВМК и МАИ: 3-4 — оценка удовлетворительно, 5-7 — оценка хорошо, 8-10 — оценка отлично
  • Правила выставления оценки на пересдаче будут обговариваться отдельно в конце курса

Программа курса

Тема Материалы Д/З
1 Введение в область анализа текстов (Natural Language Processing). Обзор основных задач. слайды
2 Предобработка данных. Простейшие модели классификации. слайды
3 Векторные представления слов. слайды практическое задание 1
4 Задача теггинга последовательности. Условные случайные поля (CRF). слайды
5 Задача теггинга последовательности. Нейросетевые и комбинированные модели для теггинга. слайды практическое задание 2
6 Языковое моделирование. Генерация текста на естественном языке. слайды
7 Модель sequence-to-sequence в машинном переводе и других приложениях. слайды
8 Глубокие архитектуры представления предложений и документов.
9 Синтаксический разбор и его применение в практических задачах.
10 Задача классификации текстов.
11 Тематическое моделирование.
12 Сегментация и суммаризация текстов.
13 To be announced
14 To be announced

Страницы прошлых лет

2018 (ФУПМ МФТИ), 2018 (ВМК МГУ)

2017 (ВМК МГУ)

Дополнительные материалы

Литература

Другие курсы по NLP

Личные инструменты