Математические методы анализа текстов (курс лекций) / осень 2019

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Новая: {{TOCright}} В курсе рассматриваются основные задачи и математические методы обработки естественного язы...)
Текущая версия (08:48, 25 февраля 2020) (править) (отменить)
 
(42 промежуточные версии не показаны)
Строка 7: Строка 7:
От студентов требуются знание курса машинного обучения, основ глубинного обучения, а также языка программирования Python.
От студентов требуются знание курса машинного обучения, основ глубинного обучения, а также языка программирования Python.
 +
 +
==Контакты==
 +
* Преподаватели курса: [[Участник:Vokov|Воронцов К.В.]], [[Участник:mapishev|Апишев М.А.]], [[Участник:Arti_lehtonen|Попов А.С.]]
 +
 +
* На ВМК занятия проходят в аудитории 72 по вторникам, начало в 10:30
 +
 +
* В ФИЦ ИУ РАН занятия по средам, начало в 16:10
 +
 +
* По всем конструктивным вопросам пишите в [https://t.me/joinchat/B2UcORRlc1j_RpANlJi1Xg telegram-чат]
 +
 +
* Репозиторий со всеми материалами: [https://github.com/mmta-team/mmta_fall_2019 ссылка]
 +
 +
* Короткая ссылка на страницу курса: [https://clck.ru/J5PMZ ссылка]
 +
 +
==Правила сдачи курса==
 +
 +
* В рамках курса предполагается четыре практических задания и экзамен.
 +
 +
* Практические задания сдаются в систему anytask (инвайт у преподавателя). Срок выполнения каждого задания — 2 недели. За каждое задание можно получить до 10-ти баллов. За каждый день просрочки назначается штраф 1 балл. Основной язык выполнения заданий — Python 3.
 +
 +
* Все практические задания выполняются самостоятельно. Любые работы, содержащие плагиат, оцениваются в 0 баллов.
 +
 +
===Правила выставления итоговой оценки===
 +
<tex>X_e</tex> — оценка за экзамен по 10-ти балльной шкале, <tex>X_d</tex> — суммарная оценка студента за практические задания, <tex>X_{max}</tex> — максимальная оценка за практические задания (без учёта бонусов, это 30 баллов)
 +
 +
* Если <tex>X_d / X_{max} \geq 1</tex> — максимальная оценка автоматом
 +
* Если <tex>X_d / X_{max} < 0.125</tex> — пересдача автоматом
 +
* Иначе, оценка в 10-ти балльной шкале вычисляется как <tex> X_e + round(8 X_d / X_{max} - 4.5) </tex>
 +
* Для ВМК и МАИ: 3-4 — оценка удовлетворительно, 5-7 — оценка хорошо, 8-10 — оценка отлично
 +
* Правила выставления оценки на пересдаче будут обговариваться отдельно в конце курса
 +
 +
===Правила сдачи экзамена ===
 +
 +
Программу экзамена можно найти [https://github.com/mmta-team/mmta_fall_2019/blob/master/exam_program.pdf здесь]
 +
 +
На экзамене при подготовке билета разрешается пользоваться любыми материалами. При непосредственном ответе ничем пользоваться нельзя. В билете содержится два вопроса из программы курса. Незнание ответа на любой вопрос из теоретического минимума влечёт за собой неудовлетворительную оценку.
 +
 +
==Программа курса==
 +
 +
{|class = "standard"
 +
! № !! МГУ !! МФТИ !! Тема !! Материалы !! Д/З
 +
|- <!-- Новое занятие -->
 +
| 1
 +
| 2019-09-03
 +
| 2019-09-05
 +
| Введение в область анализа текстов (Natural Language Processing). Обзор основных задач.
 +
| [[media:mmta19intro.pdf|слайды]]
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 2
 +
| 2019-09-03
 +
| 2019-09-11
 +
| Предобработка данных. Простейшие модели классификации.
 +
| [https://github.com/mmta-team/mmta_fall_2019/blob/master/02_preprocessing_and_simple_classification/preprocessing_simple_classification.pdf слайды]
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 3
 +
| 2019-09-10
 +
| 2019-09-18
 +
| Векторные представления слов.
 +
| [https://github.com/mmta-team/mmta_fall_2019/blob/master/03_word_embeddings/word_embeddings.pdf слайды]
 +
| [https://github.com/mmta-team/mmta_fall_2019/tree/master/03_word_embeddings/homework практическое задание 1]
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 4
 +
| 2019-09-24
 +
| 2019-09-25
 +
| Задача теггинга последовательности. Условные случайные поля (CRF).
 +
| [[Media:mmta19crf.pdf|слайды]]
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 5
 +
| 2019-10-01
 +
| 2019-10-02
 +
| Задача теггинга последовательности. Нейросетевые и комбинированные модели для теггинга.
 +
| [https://github.com/mmta-team/mmta_fall_2019/blob/master/05_rnn_tagging/rnn_tagging.pdf слайды]
 +
| [https://github.com/mmta-team/mmta_fall_2019/tree/master/05_rnn_tagging/homework практическое задание 2]
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 6
 +
| 2019-10-08
 +
| 2019-10-09
 +
| Языковое моделирование. Генерация текста на естественном языке.
 +
| [https://github.com/mmta-team/mmta_fall_2019/blob/master/06_language_models/lm.pdf слайды]
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 7
 +
| 2019-10-15
 +
| 2019-10-16
 +
| Sequence-to-sequence, механизмы внимания, трансформеры. Машинный перевод.
 +
| [https://github.com/mmta-team/mmta_fall_2019/blob/master/07_machine_translation/mt_attention_transformers.pdf слайды]
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 8
 +
| 2019-10-22
 +
| 2019-10-23
 +
| Глубокие архитектуры представления предложений и документов. Перенос обучения.
 +
| [https://github.com/mmta-team/mmta_fall_2019/blob/master/08_transfer_learning/transfer_learning.pdf слайды]
 +
| [https://github.com/mmta-team/mmta_fall_2019/blob/master/08_transfer_learning/homework/lab_bert.ipynb практическое задание 3]
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 9
 +
| 2019-11-05
 +
| 2019-11-06
 +
| Задача классификации текстов.
 +
| [https://github.com/mmta-team/mmta_fall_2019/blob/master/09_industrial_classification/industrial_classification.pdf слайды]
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 10
 +
| 2019-11-05
 +
| 2019-11-13
 +
| Тематическое моделирование.
 +
| [[media:mmta19tm.pdf|слайды]]
 +
| [https://github.com/mmta-team/mmta_fall_2019/tree/master/10_topic_modeling/homework практическое задание 4]
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 11
 +
| 2019-11-12
 +
| 2019-11-27
 +
| Синтаксический разбор и его применение в практических задачах.
 +
| [https://github.com/mmta-team/mmta_fall_2019/blob/master/11_syntax/syntax.pdf слайды]
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 12
 +
| 2019-12-10
 +
| 2019-11-20
 +
| Сегментация и суммаризация текстов.
 +
| [[media:mmta19segm-summ.pdf|слайды]]
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 13
 +
| 2019-12-03
 +
| 2019-12-04
 +
| Вопросно-ответные системы.
 +
| [https://github.com/mmta-team/mmta_fall_2019/blob/master/13_chatbots_question_answering/chatbots_question_answering.pdf слайды]
 +
|
 +
<!-- Конец занятия -->
 +
|}
 +
 +
==Финальные оценки==
 +
Финальные оценки можно увидеть в [https://docs.google.com/spreadsheets/d/1BKAinR8NBqBi8xnyMQ4JRHpGLNUf00O88hNtDl_V5Z8/edit?usp=sharing таблице]
 +
 +
==Страницы прошлых лет==
 +
[[Математические методы анализа текстов (курс лекций, К.В.Воронцов, А.А.Потапенко) | 2018 (ФУПМ МФТИ)]], [[Математические методы анализа текстов (ВМиК МГУ) / 2018 | 2018 (ВМК МГУ)]]
 +
 +
[[Математические методы анализа текстов (ВМиК МГУ) / 2017 | 2017 (ВМК МГУ)]]
 +
 +
==Дополнительные материалы==
 +
 +
'''Литература'''
 +
 +
* ''Dan Jurafsky and James H. Martin'' [https://web.stanford.edu/~jurafsky/slp3/ Speech and Language Processing] (3rd ed. draft)
 +
* ''Stewen Bird'' et. al. [http://www.nltk.org/book/ Natural Language Processing with Python]. 2-nd edition. 2016.
 +
* ''Большакова Е.И., Воронцов К.В., Ефремова Н.Э., Клышинский Э.С., Лукашевич Н.В., Сапин А.С.'' [[media:bolshakova17hse-summer-school.pdf|Автоматическая обработка текстов на естественном языке и анализ данных]]. НИУ ВШЭ, 2017.
 +
* LxMLS summer school [http://lxmls.it.pt/2018/LxMLS_guide_2018.pdf Practical guide on NLP in Python]
 +
 +
'''Другие курсы по NLP'''
 +
 +
* [https://web.stanford.edu/class/cs224n/ CS224N: Natural Language Processing with Deep Learning]
 +
* [https://github.com/yandexdataschool/nlp_course YSDA Natural Language Processing course]
 +
* [http://web.stanford.edu/class/cs224u/ CS224U: Natural Language Understanding]
 +
* [https://www.coursera.org/learn/language-processing Natural Language Processing (coursera, HSE)]
 +
 +
 +
[[Категория:Учебные курсы]]

Текущая версия

Содержание

В курсе рассматриваются основные задачи и математические методы обработки естественного языка.

Курс читается:

От студентов требуются знание курса машинного обучения, основ глубинного обучения, а также языка программирования Python.

Контакты

  • На ВМК занятия проходят в аудитории 72 по вторникам, начало в 10:30
  • В ФИЦ ИУ РАН занятия по средам, начало в 16:10
  • По всем конструктивным вопросам пишите в telegram-чат
  • Репозиторий со всеми материалами: ссылка
  • Короткая ссылка на страницу курса: ссылка

Правила сдачи курса

  • В рамках курса предполагается четыре практических задания и экзамен.
  • Практические задания сдаются в систему anytask (инвайт у преподавателя). Срок выполнения каждого задания — 2 недели. За каждое задание можно получить до 10-ти баллов. За каждый день просрочки назначается штраф 1 балл. Основной язык выполнения заданий — Python 3.
  • Все практические задания выполняются самостоятельно. Любые работы, содержащие плагиат, оцениваются в 0 баллов.

Правила выставления итоговой оценки

X_e — оценка за экзамен по 10-ти балльной шкале, X_d — суммарная оценка студента за практические задания, X_{max} — максимальная оценка за практические задания (без учёта бонусов, это 30 баллов)

  • Если X_d / X_{max} \geq 1 — максимальная оценка автоматом
  • Если X_d / X_{max} < 0.125 — пересдача автоматом
  • Иначе, оценка в 10-ти балльной шкале вычисляется как  X_e + round(8 X_d / X_{max} - 4.5)
  • Для ВМК и МАИ: 3-4 — оценка удовлетворительно, 5-7 — оценка хорошо, 8-10 — оценка отлично
  • Правила выставления оценки на пересдаче будут обговариваться отдельно в конце курса

Правила сдачи экзамена

Программу экзамена можно найти здесь

На экзамене при подготовке билета разрешается пользоваться любыми материалами. При непосредственном ответе ничем пользоваться нельзя. В билете содержится два вопроса из программы курса. Незнание ответа на любой вопрос из теоретического минимума влечёт за собой неудовлетворительную оценку.

Программа курса

МГУ МФТИ Тема Материалы Д/З
1 2019-09-03 2019-09-05 Введение в область анализа текстов (Natural Language Processing). Обзор основных задач. слайды
2 2019-09-03 2019-09-11 Предобработка данных. Простейшие модели классификации. слайды
3 2019-09-10 2019-09-18 Векторные представления слов. слайды практическое задание 1
4 2019-09-24 2019-09-25 Задача теггинга последовательности. Условные случайные поля (CRF). слайды
5 2019-10-01 2019-10-02 Задача теггинга последовательности. Нейросетевые и комбинированные модели для теггинга. слайды практическое задание 2
6 2019-10-08 2019-10-09 Языковое моделирование. Генерация текста на естественном языке. слайды
7 2019-10-15 2019-10-16 Sequence-to-sequence, механизмы внимания, трансформеры. Машинный перевод. слайды
8 2019-10-22 2019-10-23 Глубокие архитектуры представления предложений и документов. Перенос обучения. слайды практическое задание 3
9 2019-11-05 2019-11-06 Задача классификации текстов. слайды
10 2019-11-05 2019-11-13 Тематическое моделирование. слайды практическое задание 4
11 2019-11-12 2019-11-27 Синтаксический разбор и его применение в практических задачах. слайды
12 2019-12-10 2019-11-20 Сегментация и суммаризация текстов. слайды
13 2019-12-03 2019-12-04 Вопросно-ответные системы. слайды

Финальные оценки

Финальные оценки можно увидеть в таблице

Страницы прошлых лет

2018 (ФУПМ МФТИ), 2018 (ВМК МГУ)

2017 (ВМК МГУ)

Дополнительные материалы

Литература

Другие курсы по NLP

Личные инструменты