Математические методы анализа текстов (курс лекций) / осень 2019

Материал из MachineLearning.

(Различия между версиями)

Перейти к: навигация, поиск

Версия 14:46, 10 октября 2019

Содержание

1 Контакты
2 Правила сдачи курса
- 2.1 Правила выставления итоговой оценки
3 Программа курса
4 Страницы прошлых лет
5 Дополнительные материалы

В курсе рассматриваются основные задачи и математические методы обработки естественного языка.

Курс читается:

студентам кафедры «Математические методы прогнозирования» ВМК МГУ с 2016 года
студентам кафедры «Интеллектуальные системы» ФУПМ МФТИ с 2018 года

От студентов требуются знание курса машинного обучения, основ глубинного обучения, а также языка программирования Python.

Контакты

Преподаватели курса: Воронцов К.В., Апишев М.А., Попов А.С.

На ВМК занятия проходят в аудитории 72 по вторникам, начало в 10:30

В ФИЦ ИУ РАН занятия по средам, начало в 16:10

По всем конструктивным вопросам пишите в telegram-чат

Репозиторий со всеми материалами: ссылка

Короткая ссылка на страницу курса: ссылка

Правила сдачи курса

В рамках курса предполагается четыре практических задания и экзамен.

Практические задания сдаются в систему anytask (инвайт у преподавателя). Срок выполнения каждого задания — 2 недели. За каждое задание можно получить до 10-ти баллов. За каждый день просрочки назначается штраф 1 балл. Основной язык выполнения заданий — Python 3.

Все практические задания выполняются самостоятельно. Любые работы, содержащие плагиат, оцениваются в 0 баллов.

Правила сдачи экзамена появятся позднее.

Правила выставления итоговой оценки

$X_e$ — оценка за экзамен по 10-ти балльной шкале, $X_d$ — суммарная оценка студента за практические задания, $X_{max}$ — максимальная оценка за практические задания (без учёта бонусов)

Если $X_d / X_{max} \geq 1$ — максимальная оценка автоматом
Если $X_d / X_{max} < 0.125$ — пересдача автоматом
Иначе, оценка в 10-ти балльной шкале вычисляется как $X_e + round(8 X_d / X_{max} - 4.5)$
Для ВМК и МАИ: 3-4 — оценка удовлетворительно, 5-7 — оценка хорошо, 8-10 — оценка отлично
Правила выставления оценки на пересдаче будут обговариваться отдельно в конце курса

Программа курса

№	Тема	Материалы	Д/З
1	Введение в область анализа текстов (Natural Language Processing). Обзор основных задач.	слайды
2	Предобработка данных. Простейшие модели классификации.	слайды
3	Векторные представления слов.	слайды	практическое задание 1
4	Задача теггинга последовательности. Условные случайные поля (CRF).	слайды
5	Задача теггинга последовательности. Нейросетевые и комбинированные модели для теггинга.	слайды	практическое задание 2
6	Языковое моделирование. Генерация текста на естественном языке.	слайды
7	Модель sequence-to-sequence в машинном переводе и других приложениях.
8	Глубокие архитектуры представления предложений и документов.
9	Синтаксический разбор и его применение в практических задачах.
10	Задача классификации текстов.
11	Тематическое моделирование.
12	Сегментация и суммаризация текстов.
13	To be announced
14	To be announced

Страницы прошлых лет

2018 (ФУПМ МФТИ), 2018 (ВМК МГУ)

2017 (ВМК МГУ)

Дополнительные материалы

Литература

Dan Jurafsky and James H. Martin Speech and Language Processing (3rd ed. draft)
Stewen Bird et. al. Natural Language Processing with Python. 2-nd edition. 2016.
Большакова Е.И., Воронцов К.В., Ефремова Н.Э., Клышинский Э.С., Лукашевич Н.В., Сапин А.С. Автоматическая обработка текстов на естественном языке и анализ данных. НИУ ВШЭ, 2017.
LxMLS summer school Practical guide on NLP in Python

Другие курсы по NLP

Источник — «http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B0%D1%82%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B5_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%BE%D0%B2_%28%D0%BA%D1%83%D1%80%D1%81_%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B9%29_/_%D0%BE%D1%81%D0%B5%D0%BD%D1%8C_2019»

Категория: Учебные курсы

@@ Строка 7: / Строка 7: @@
 От студентов требуются знание курса машинного обучения, основ глубинного обучения, а также языка программирования Python.
+==Контакты==
+* Преподаватели курса: [[Участник:Vokov|Воронцов К.В.]], [[Участник:mapishev|Апишев М.А.]], [[Участник:Arti_lehtonen|Попов А.С.]]
+* На ВМК занятия проходят в аудитории 72 по вторникам, начало в 10:30
+* В ФИЦ ИУ РАН занятия по средам, начало в 16:10
+* По всем конструктивным вопросам пишите в  [https://t.me/joinchat/B2UcORRlc1j_RpANlJi1Xg telegram-чат]
+* Репозиторий со всеми материалами: [https://github.com/mmta-team/mmta_fall_2019 ссылка]
+* Короткая ссылка на страницу курса: [https://clck.ru/J5PMZ ссылка]
+==Правила сдачи курса==
+* В рамках курса предполагается четыре практических задания и экзамен.
+* Практические задания сдаются в систему anytask (инвайт у преподавателя). Срок выполнения каждого задания — 2 недели. За каждое задание можно получить до 10-ти баллов. За каждый день просрочки назначается штраф 1 балл. Основной язык выполнения заданий — Python 3.
+* Все практические задания выполняются самостоятельно. Любые работы, содержащие плагиат, оцениваются в 0 баллов.
+* Правила сдачи экзамена появятся позднее.
+===Правила выставления итоговой оценки===
+<tex>X_e</tex> — оценка за экзамен по 10-ти балльной шкале, <tex>X_d</tex> — суммарная оценка студента за практические задания, <tex>X_{max}</tex> — максимальная оценка за практические задания (без учёта бонусов)
+* Если <tex>X_d / X_{max} \geq 1</tex> — максимальная оценка автоматом
+* Если <tex>X_d / X_{max} < 0.125</tex> — пересдача автоматом
+* Иначе, оценка в 10-ти балльной шкале вычисляется как <tex> X_e + round(8 X_d / X_{max} - 4.5) </tex>
+* Для ВМК и МАИ: 3-4 — оценка удовлетворительно, 5-7 — оценка хорошо, 8-10 — оценка отлично
+* Правила выставления оценки на пересдаче будут обговариваться отдельно в конце курса
+==Программа курса==
+{|class = "standard"
+! № !! Тема !! Материалы !! Д/З
+|- <!-- Новое занятие -->
+| 1
+| Введение в область анализа текстов (Natural Language Processing). Обзор основных задач.
+| [[media:mmta19intro.pdf|слайды]]
+|
+<!-- Конец занятия -->
+|- <!-- Новое занятие -->
+| 2
+| Предобработка данных. Простейшие модели классификации.
+| [https://github.com/mmta-team/mmta_fall_2019/blob/master/02_preprocessing_and_simple_classification/preprocessing_simple_classification.pdf слайды]
+|
+<!-- Конец занятия -->
+|- <!-- Новое занятие -->
+| 3
+| Векторные представления слов.
+| [https://github.com/mmta-team/mmta_fall_2019/blob/master/03_word_embeddings/word_embeddings.pdf слайды]
+| [https://github.com/mmta-team/mmta_fall_2019/tree/master/03_word_embeddings/homework практическое задание 1]
+<!-- Конец занятия -->
+|- <!-- Новое занятие -->
+| 4
+| Задача теггинга последовательности. Условные случайные поля (CRF).
+| [[Media:mmta19crf.pdf|слайды]]
+|
+<!-- Конец занятия -->
+|- <!-- Новое занятие -->
+| 5
+| Задача теггинга последовательности. Нейросетевые и комбинированные модели для теггинга.
+| [https://github.com/mmta-team/mmta_fall_2019/blob/master/05_rnn_tagging/rnn_tagging.pdf слайды]
+| [https://github.com/mmta-team/mmta_fall_2019/tree/master/05_rnn_tagging/homework практическое задание 2]
+<!-- Конец занятия -->
+|- <!-- Новое занятие -->
+| 6
+| Языковое моделирование. Генерация текста на естественном языке.
+| [https://github.com/mmta-team/mmta_fall_2019/blob/master/06_language_models/lm.pdf слайды]
+|
+<!-- Конец занятия -->
+|- <!-- Новое занятие -->
+| 7
+| Модель sequence-to-sequence в машинном переводе и других приложениях.
+|
+|
+<!-- Конец занятия -->
+|- <!-- Новое занятие -->
+| 8
+| Глубокие архитектуры представления предложений и документов.
+|
+|
+<!-- Конец занятия -->
+|- <!-- Новое занятие -->
+| 9
+| Синтаксический разбор и его применение в практических задачах.
+|
+|
+<!-- Конец занятия -->
+|- <!-- Новое занятие -->
+| 10
+| Задача классификации текстов.
+|
+|
+<!-- Конец занятия -->
+|- <!-- Новое занятие -->
+| 11
+| Тематическое моделирование.
+|
+|
+<!-- Конец занятия -->
+|- <!-- Новое занятие -->
+| 12
+| Сегментация и суммаризация текстов.
+|
+|
+<!-- Конец занятия -->
+|- <!-- Новое занятие -->
+| 13
+| To be announced
+|
+|
+<!-- Конец занятия -->
+|- <!-- Новое занятие -->
+| 14
+| To be announced
+|
+|
+<!-- Конец занятия -->
+|}
+==Страницы прошлых лет==
+[[Математические методы анализа текстов (курс лекций, К.В.Воронцов, А.А.Потапенко) | 2018 (ФУПМ МФТИ)]], [[Математические методы анализа текстов (ВМиК МГУ) / 2018 | 2018 (ВМК МГУ)]]
+[[Математические методы анализа текстов (ВМиК МГУ) / 2017 | 2017 (ВМК МГУ)]]
+==Дополнительные материалы==
+'''Литература'''
+* ''Dan Jurafsky and James H. Martin'' [https://web.stanford.edu/~jurafsky/slp3/ Speech and Language Processing] (3rd ed. draft)
+* ''Stewen Bird'' et. al. [http://www.nltk.org/book/ Natural Language Processing with Python].  2-nd edition. 2016.
+* ''Большакова Е.И., Воронцов К.В., Ефремова Н.Э., Клышинский Э.С., Лукашевич Н.В., Сапин А.С.'' [[media:bolshakova17hse-summer-school.pdf|Автоматическая обработка текстов на естественном языке и анализ данных]]. НИУ ВШЭ, 2017.
+* LxMLS summer school [http://lxmls.it.pt/2018/LxMLS_guide_2018.pdf Practical guide on NLP in Python]
+'''Другие курсы по NLP'''
+* [https://web.stanford.edu/class/cs224n/ CS224N: Natural Language Processing with Deep Learning]
+* [https://github.com/yandexdataschool/nlp_course YSDA Natural Language Processing course]
+* [http://web.stanford.edu/class/cs224u/ CS224U: Natural Language Understanding]
+* [https://www.coursera.org/learn/language-processing Natural Language Processing (coursera, HSE)]
+[[Категория:Учебные курсы]]

Математические методы анализа текстов (курс лекций) / осень 2019

Материал из MachineLearning.

Версия 14:46, 10 октября 2019

Содержание

Контакты

Правила сдачи курса

Правила выставления итоговой оценки

Программа курса

Страницы прошлых лет

Дополнительные материалы

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты