Математические методы анализа текстов (ВМиК МГУ) / 2017

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Домашние задания)
(Экзамен)
 
(92 промежуточные версии не показаны)
Строка 7: Строка 7:
Обработка естественного языка (Natural Language Processing) - широкая область на стыке лингвистики и компьютерных технологий. Сегодня здесь решается огромное число задач, например, классификация текстов, определение тональности, машинный перевод, распознавание речи, обработка запросов в поиске. В ходе курса слушатели познакомятся с основными методами и применят их на практике.
Обработка естественного языка (Natural Language Processing) - широкая область на стыке лингвистики и компьютерных технологий. Сегодня здесь решается огромное число задач, например, классификация текстов, определение тональности, машинный перевод, распознавание речи, обработка запросов в поиске. В ходе курса слушатели познакомятся с основными методами и применят их на практике.
-
 
==== Контакты ====
==== Контакты ====
* Лекции проходят по пятницам в 16.20 в ауд. 609. Семинары проходят по понедельникам в 12.15 в ауд. 882.
* Лекции проходят по пятницам в 16.20 в ауд. 609. Семинары проходят по понедельникам в 12.15 в ауд. 882.
-
* Лектор: Виктор Китов
+
* Лектор: [[Участник:Victor Kitov|Виктор Китов]]
* Семинаристы: Анна Потапенко, [[Участник:Mapishev|Мурат Апишев]]
* Семинаристы: Анна Потапенко, [[Участник:Mapishev|Мурат Апишев]]
-
* Почта курса: nlp.hse@gmail.com.
+
* Почта курса: '''nlp.msu@gmail.com'''.
* [https://goo.gl/forms/D7u2xNqHsYSZU4D52 Здесь] вы в любой момент можете оставить анонимный отзыв или предложение.
* [https://goo.gl/forms/D7u2xNqHsYSZU4D52 Здесь] вы в любой момент можете оставить анонимный отзыв или предложение.
-
 
==== Правила игры ====
==== Правила игры ====
-
* Оценка за курс: 70% домашние работы + 30% экзамен. Точные критерии будут опубликованы позднее.
+
* Оценка за курс: за семестровую работу можно получить до 70 баллов (без учёта призовых баллов конкурса), на экзамене - 30 баллов (10 за тройку, 20 за четвёрку и 30 за пятёрку). Итоговая оценку за курс определяется следующей шкалой: 40+ баллов = 3, 60+ баллов = 4, 80+ баллов = 5. Автоматом ставится только оценка 5.
* Виды активностей:
* Виды активностей:
** Практические работы (ориентировочно 4 задания)
** Практические работы (ориентировочно 4 задания)
Строка 26: Строка 24:
* Практические задания выполняются на языке Python с использованием внешних библиотеки. Помимо кода ожидается отчет c подробными выводами. Задания, присланные позже дедлайнов, не принимаются. При обнаружении плагиата все участники получают 0 баллов.
* Практические задания выполняются на языке Python с использованием внешних библиотеки. Помимо кода ожидается отчет c подробными выводами. Задания, присланные позже дедлайнов, не принимаются. При обнаружении плагиата все участники получают 0 баллов.
* Выбрать статью для разбора можно самому (и написать об этом на почту курса!) или взять одну из [https://docs.google.com/spreadsheets/d/1oAonG1gCWCpLVOucsKfKyVsh9CHJ1Ewvwimtyt23DN0/edit?usp=sharing списка] (будет пополняться).
* Выбрать статью для разбора можно самому (и написать об этом на почту курса!) или взять одну из [https://docs.google.com/spreadsheets/d/1oAonG1gCWCpLVOucsKfKyVsh9CHJ1Ewvwimtyt23DN0/edit?usp=sharing списка] (будет пополняться).
 +
 +
== Экзамен ==
 +
 +
[https://yadi.sk/i/RSITrA0u3JrShG Билеты]
 +
 +
[[Media:Kitov-ML-eng-18-EM_algorithm.pdf‎ | +лекция по EM-алгоритму]]
 +
 +
Выставление оценок по общим баллам:
 +
 +
40+ тройка
 +
 +
55+ четверка
 +
 +
70+ пятерка
== Программа курса ==
== Программа курса ==
Строка 39: Строка 51:
** Модель языка, N-граммы, сглаживание, концепция шумного канала
** Модель языка, N-граммы, сглаживание, концепция шумного канала
** Применение в задачах исправления опечаток и машинного перевода
** Применение в задачах исправления опечаток и машинного перевода
-
* Тематические модели, дистрибутивная семантика, векторные представления слов.
 
* Глубокие нейронные сети в анализе текстов.
* Глубокие нейронные сети в анализе текстов.
 +
* Тематические модели, дистрибутивная семантика, векторные представления слов.
* Онтологии, тезаурусы, выделение семантических связей. Работа с википедией.
* Онтологии, тезаурусы, выделение семантических связей. Работа с википедией.
* Определение тональности текстов.
* Определение тональности текстов.
-
 
-
 
===== Домашние задания =====
===== Домашние задания =====
-
Внимание: выложено первое практическое задание по курсу: [https://drive.google.com/open?id=0B2cCJQ2_aOwjaWZSOFpkRE5tbnM Ipython-ноутбук с заданием].
+
'''Внимание:''' необходимо выбрать статью для разбора и написать об этом на почту курса!
-
Вам предстоит решить задачи определения частей речи и выделения именованных сущностей с помощью HMM и CRF моделей. Дедлайн -- 9:00 утра 13 марта. Работы присылать на почту курса с темой вида "Лабораторная 1 - Имя Фамилия".
+
{| class="wikitable"
 +
|-
 +
!
 +
! Дедлайн
 +
! Баллы
 +
! Тема
 +
! Материалы
 +
! Дополнительно
 +
|-
 +
| Лабораторная 1
 +
| 13.03.2017 (9.00 MSK)
 +
| 10 баллов
 +
| Определение частей речи и
 +
выделение именованных сущностей.
 +
| [https://drive.google.com/open?id=0B2cCJQ2_aOwjaWZSOFpkRE5tbnM Ipython-ноутбук с заданием].
 +
| Английский датасет для NER
 +
можно взять из CoNLL любого года.
 +
|-
 +
| Лабораторная 2
 +
| 27.03.2017 (9.00 MSK)
 +
| 10 баллов
 +
| Языковое моделирование и распознавание языка.
 +
| [https://drive.google.com/open?id=0B2cCJQ2_aOwjSE9xX2E4TWdTQlU Задание и данные].
 +
|
 +
|-
 +
| Лабораторная 3
 +
| 10.04.2017 (9.00 MSK)
 +
| 10 баллов + 5 бонусных
 +
| Задача выравнивания в машинном переводе.
 +
| [https://drive.google.com/open?id=0B2cCJQ2_aOwjYWcxc1BOVXh0bEU Задание и данные].
 +
| Задание творческое, читайте заметки и экспериментируйте!
 +
|-
 +
| Конкурс
 +
| 03.04.2017 для бейзлайна, 24.04.2017 финальный (9.00 MSK)
 +
| 5 за преодоление бейзлайна + 20-25-30 за призовые места.
 +
| Предсказание тегов для документов.
 +
| [https://kaggle.com/join/1_cmc_msu_nlp_2017 Конкурс]
 +
| Смотрите материалы семинара от 20 марта.
 +
|-
 +
| Лабораторная 4
 +
| 08.05.2017 (9.00 MSK)
 +
| 10 баллов + 5 бонусных
 +
| Тематическое моделирование и сентимент-анализ.
 +
| [https://drive.google.com/file/d/0ByA8hDs8nxhCMi1rSGpONHl4dW8/view?usp=sharing Задание] [https://drive.google.com/file/d/0B9G5sfFTlfxrTWJIaU9TRV9YeTA/view?usp=sharing Данные]
 +
|
 +
|-
 +
| Разбор статьи
 +
| Материалы должны отправлены за день до семинара с разбором, но не позднее 10.05.2017 (9.00 MSK)
 +
| 10 за реферат + 5 за выступление (по желанию)
 +
| Современные подходы в задачах NLP.
 +
| [https://docs.google.com/spreadsheets/d/1oAonG1gCWCpLVOucsKfKyVsh9CHJ1Ewvwimtyt23DN0/edit?usp=sharing Распределение].
 +
| Реферат на 3-5 страниц, по которому понятно, что вы разобрались в методе и результатах. Выступление со слайдами на 10-15 минут, полезное для аудитории.
 +
 
 +
|}
===== Лекции =====
===== Лекции =====
Строка 73: Строка 136:
| Морфологический анализ. Скрытая марковская модель.
| Морфологический анализ. Скрытая марковская модель.
| [[Media:02-MMP-Text_mining-POS_tagging.pdf‎|Презентация 1]]
| [[Media:02-MMP-Text_mining-POS_tagging.pdf‎|Презентация 1]]
-
[[Media:03-MMP-Text_mining-HMM_1.pdf‎|Презентация 2]]
+
[[Media:03-MMP-Text_mining-HMM.pdf‎|Презентация 2]] {{важно|— обновление 07.06.2017}}
| [https://web.stanford.edu/~jurafsky/slp3/10.pdf Глава книги]
| [https://web.stanford.edu/~jurafsky/slp3/10.pdf Глава книги]
 +
|-
 +
| Лекция 3
 +
| 03.03.2017
 +
| Морфологический анализ. MEMM модель.
 +
| [[Media:04-MMP-Text_mining-POS_tagging_2.pdf‎ |Презентация]] {{важно|— обновление 07.06.2017}}
 +
| [https://web.stanford.edu/~jurafsky/slp3/10.pdf Глава книги]
 +
|-
 +
| Лекция 4
 +
| 10.03.2017
 +
| Классификация текстов и отбор признаков.
 +
| [[Media:05-MMP-Text mining-Text classification.pdf‎ |Презентация]] {{важно|— обновление 07.06.2017}}
 +
|
 +
|-
 +
| Лекция 5
 +
| 17.03.2017
 +
| Снижение размерности.
 +
| [[Media:06-MMP-Text mining-Dimensionality_reduction_in_text_mining.pdf‎ |Презентация]]
 +
|
 +
|-
 +
|
 +
|
 +
| Расстояние Левенштейна.
 +
| [[Media:07-MMP-Text mining-Minimum_edit_distance.pdf‎ |Презентация]]
 +
| [https://web.stanford.edu/~jurafsky/slp3/2.pdf Глава книги]
 +
|-
 +
|
 +
|
 +
| Синтаксический разбор.
 +
| [[Media:08-MMP-Text mining-Syntax_parsing.pdf‎ |Презентация]]
 +
| [https://web.stanford.edu/~jurafsky/slp3/12.pdf Глава книги]
 +
|-
 +
| Лекция 6
 +
| 24.03.2017
 +
| Исправление опечаток, N-граммы.
 +
| [[Media:09-MMP-Text_mining-Spell_checking.pdf‎ |Презентация]]
 +
| [https://web.stanford.edu/~jurafsky/slp3/5.pdf Глава книги]
 +
[https://web.stanford.edu/~jurafsky/slp3/4.pdf Глава книги]
 +
|-
 +
| Лекция 7
 +
| 31.03.2017
 +
| Вероятностное тематическое моделирование, часть 1.
 +
| [[Media:10-MMP-Text_mining-Topic_modeling.pdf‎ |Презентация]]
 +
|
 +
|-
 +
| Лекция 8
 +
| 07.04.2017
 +
| Вероятностное тематическое моделирование, часть 2.
 +
| [[Media:11-MMP-Text_mining-Topic_modeling.pdf‎ |Презентация]]
 +
|
 +
|-
 +
| Лекция 9
 +
| 14.04.2017
 +
| Работа со смыслами слов.
 +
| [[Media:12-MMP-Text_mining-Word_senses_computing.pdf‎ |Презентация]]
 +
| [https://web.stanford.edu/~jurafsky/slp3/17.pdf Глава книги]
 +
|-
 +
| Лекция 10
 +
| 21.04.2017
 +
| Кластеризация.
 +
| [[Media:13-MMP-Text_mining-Clustering.pdf‎ |Презентация]]
 +
| [http://www.kyb.mpg.de/fileadmin/user_upload/files/publications/attachments/luxburg06_TR_v2_4139%5b1%5d.pdf Статья]
 +
|-
 +
| Лекция 11
 +
| 28.04.2017
 +
| Анализ субъективности.
 +
| [[Media:14-MMP-Text_mining-Subjectivity_analysis.pdf‎ |Презентация]]
 +
| [https://web.stanford.edu/~jurafsky/slp3/18.pdf Глава книги]
 +
|-
 +
| Лекция 12
 +
| 05.05.2017
 +
| Моделирование упорядоченных классов.
 +
| [[Media:15-MMP-Text_mining-Sequence_labelling._Ordered_outcomes_classification.pdf‎ |Презентация]]
 +
|
 +
|-
 +
|
 +
|
 +
| Нелинейное снижение размерности.
 +
| [[Media:16-MMP-Text_mining-Nonlinear_dimensionality_reduction.pdf‎ |Презентация]]
 +
|
 +
|-
 +
| Лекция 13
 +
| 12.05.2017
 +
| Извлечение информации.
 +
| [[Media:17-MMP-Text_mining-Information_extraction.pdf‎ |Презентация]]
 +
| [https://web.stanford.edu/~jurafsky/slp3/21.pdf Глава книги]
 +
|-
 +
|
 +
|
 +
| Оценка качества кластеризации.
 +
| [[Media:18-MMP-Text_mining-Clustering_evaluation.pdf‎ |Презентация]]
 +
|
 +
|-
 +
|
 +
|
 +
| Отбор признаков для кластеризации.
 +
| [[Media:19-MMP-Text_mining-Feature selection_for_clustering.pdf‎ |Презентация]]
 +
|
 +
|-
 +
| Лекция 14
 +
| 19.05.2017
 +
| Методы автоматических ответов на вопросы.
 +
| [[Media:20-MMP-Text_mining-Question_answering.pdf‎ |Презентация]]
 +
|
 +
|-
|}
|}
Строка 89: Строка 256:
| Семинар 1
| Семинар 1
| 13.02.2017
| 13.02.2017
-
| Правила курса, предобработка и векторизация текстов,
+
| Правила курса, предобработка и векторизация текстов, применение.
-
применение в задаче классификации.
+
| [[Медиа:Seminar_1.pdf| Презентация]]
| [[Медиа:Seminar_1.pdf| Презентация]]
[https://drive.google.com/open?id=0B2cCJQ2_aOwjSDl2WUsxclNVYmM Ipython ноутбук]
[https://drive.google.com/open?id=0B2cCJQ2_aOwjSDl2WUsxclNVYmM Ipython ноутбук]
Строка 97: Строка 263:
| Семинар 2
| Семинар 2
| 20.02.2017
| 20.02.2017
-
| Методы работы с последовательностями и прикладные задачи.
+
| Модели для разметки последовательностей, прикладные задачи.
| [[Медиа:NLP_MSU_Seminar_2.pdf‎ | Презентация]]
| [[Медиа:NLP_MSU_Seminar_2.pdf‎ | Презентация]]
| [http://homepages.inf.ed.ac.uk/csutton/publications/crftut-fnt.pdf Хороший обзор]
| [http://homepages.inf.ed.ac.uk/csutton/publications/crftut-fnt.pdf Хороший обзор]
[http://www.nltk.org/api/nltk.tag.html NLTK POS-taggers]
[http://www.nltk.org/api/nltk.tag.html NLTK POS-taggers]
 +
|-
 +
| Семинар 3
 +
| 06.03.2017
 +
| Языковое моделирование и машинный перевод.
 +
| [https://drive.google.com/open?id=0B2cCJQ2_aOwjb0oxS2tHN01leVE Материалы семинара]
 +
|
 +
|-
 +
| Семинар 4
 +
| 13.03.2017
 +
| Орг-вопросы, EM-алгоритм, задача выравнивания в машинном переводе.
 +
| [https://drive.google.com/open?id=0B2cCJQ2_aOwjWlRVbVZ0RXVTaUU Материалы семинара]
 +
|
 +
|-
 +
| Семинар 5
 +
| 20.03.2017
 +
| Выдача конкурса: Vowpal Wabbit, Hashing Trick, Bleding/Stacking. NLP-ресурсы.
 +
| [https://ld86.github.io/msu-slides/#/ Слайды]
 +
| [https://github.com/ld86/msu-slides/blob/gh-pages/msu.ipynb Ноутбук]
 +
|-
 +
| Семинар 6
 +
| 27.03.2017
 +
| Введение в глубокие нейронные сети, RNN, LSTM, GRU.
 +
| [https://drive.google.com/file/d/0B7TWwiIrcJstTVh0SEFUSFpLVDg/view?usp=sharing Слайды]
 +
|
 +
|-
 +
| Семинар 7
 +
| 03.04.2017
 +
| Neural Conversational Models.
 +
| [https://www.dropbox.com/s/fiaj79rht92hpjb/03_04_chatbots.pdf?dl=0 Слайды]
 +
|
 +
|-
 +
| Семинар 8
 +
| 10.04.2017
 +
| Векторные представления слов и документов, доклады.
 +
| [[Медиа:Word2Vec.pdf‎ | Презентация]]
 +
|
 +
|-
 +
| Семинар 9
 +
| 17.04.2017
 +
| Доклады.
 +
|
 +
|
 +
|-
 +
| Семинар 10
 +
| 24.04.2017
 +
| Тематическое моделирование. Анализ тональности текстов.
 +
| [[Медиа:VMK_NLP_TM.pdf‎ | Презентация]]
 +
|
|}
|}
 +
===== Текущие результаты =====
 +
 +
{| class="wikitable"
 +
|-
 +
! Студенты
 +
! Лабораторная №1
 +
! Лабораторная №2
 +
! Лабораторная №3
 +
! Лабораторная №4
 +
! Конкурс
 +
! Реферат
 +
! Итог
 +
|-
 +
| Амелин Владислав
 +
| 2.8
 +
| 6.0
 +
| 7.0
 +
| 7.0 (+2.0)
 +
| 5.0 (+25.0)
 +
| 7.0
 +
| 62
 +
|-
 +
| Андрейцев Антон
 +
| 8.2
 +
| 3.2
 +
| 1.0
 +
| 8.2 (-1.0)
 +
| 5.0
 +
| 10.0
 +
| 35
 +
|-
 +
| Викулин Всеволод
 +
| 10.0
 +
| 10.0
 +
| 9.0
 +
| 10.0 (+2.0)
 +
| 5.0
 +
| 10.0 (+5.0)
 +
| 61
 +
|-
 +
| Гетоева Аида
 +
| 0.0
 +
| 5.0
 +
| 7.0
 +
| 9.0
 +
| 0.0
 +
| 10.0
 +
| 31
 +
|-
 +
| Журавлёв Вадим
 +
| 10.0
 +
| 10.0
 +
| 9.0
 +
| 10 (+2.0)
 +
| 5.0
 +
| 9.0
 +
| 55
 +
|-
 +
| Иванов Олег
 +
| 10.0
 +
| 10.0
 +
| 10.0 (+2.0)
 +
| 8.5 (+1.0)
 +
| 5.0
 +
| 10.0 (+3.0)
 +
| 60
 +
|-
 +
| Камалов Руслан
 +
| 10.0
 +
| 10.0
 +
| 7.0
 +
| 0.0
 +
| 5.0
 +
| 9.0
 +
| 41
 +
|-
 +
| Оспанов Аят
 +
| 10.0
 +
| 10.0
 +
| 8.0
 +
| 10.0 (+4.0)
 +
| 5.0
 +
| 10.0
 +
| 57
 +
|-
 +
| Попов Николай
 +
| 10.0
 +
| 10.0
 +
| 8.0
 +
| 0.0
 +
| 5.0
 +
| 0.0
 +
| 33
 +
|-
 +
| Романов Никита
 +
| 10.0
 +
| 10.0
 +
| 10.0
 +
| 0.0
 +
| 5.0 (+20.0)
 +
| 10.0
 +
| 65
 +
|-
 +
| Рысьмятова Анастасия
 +
| 10.0
 +
| 10.0
 +
| 10.0 (+4.0)
 +
| 0.0
 +
| 5.0 (+30.0)
 +
| 10.0 (+5.0)
 +
| 84 (А)
 +
|-
 +
| Садекова Таснима
 +
| 2.5
 +
| 8.6
 +
| 9.0
 +
| 6.2
 +
| 5.0
 +
| 10.0 (+5.0)
 +
| 46
 +
|-
 +
| Стёпина Александра
 +
| 3.1
 +
| 6.8
 +
| 9.0
 +
| 10.0
 +
| 5.0
 +
| 9.0 (+4.0)
 +
| 47
 +
|-
 +
| Тлеубаев Адиль
 +
| 4.0
 +
| 10.0
 +
| 6.0
 +
| 10.0 (+1.0)
 +
| 5.0
 +
| 8.0 (+1.0)
 +
| 45
 +
|-
 +
| Чиркова Надежда
 +
| 10.0
 +
| 10.0
 +
| 10.0
 +
| 10.0 (+5.0)
 +
| 5.0
 +
| 10.0 (+5.0)
 +
| 65
 +
|-
 +
| Шаповалов Никита
 +
| 10.0
 +
| 10.0
 +
| 0.0
 +
| 6.5 (+3.0)
 +
| 5.0
 +
| 10.0 (+2.0)
 +
| 47
 +
|-
 +
|}
== Материалы по курсу ==
== Материалы по курсу ==

Текущая версия

Содержание

Курс посвящен методам анализа текстов на основе статистики и машинного обучения.

Курс читается магистрам 1го года кафедры «Математические методы прогнозирования» ВМК МГУ, а также всем желающим.

Обработка естественного языка (Natural Language Processing) - широкая область на стыке лингвистики и компьютерных технологий. Сегодня здесь решается огромное число задач, например, классификация текстов, определение тональности, машинный перевод, распознавание речи, обработка запросов в поиске. В ходе курса слушатели познакомятся с основными методами и применят их на практике.

Контакты

  • Лекции проходят по пятницам в 16.20 в ауд. 609. Семинары проходят по понедельникам в 12.15 в ауд. 882.
  • Лектор: Виктор Китов
  • Семинаристы: Анна Потапенко, Мурат Апишев
  • Почта курса: nlp.msu@gmail.com.
  • Здесь вы в любой момент можете оставить анонимный отзыв или предложение.

Правила игры

  • Оценка за курс: за семестровую работу можно получить до 70 баллов (без учёта призовых баллов конкурса), на экзамене - 30 баллов (10 за тройку, 20 за четвёрку и 30 за пятёрку). Итоговая оценку за курс определяется следующей шкалой: 40+ баллов = 3, 60+ баллов = 4, 80+ баллов = 5. Автоматом ставится только оценка 5.
  • Виды активностей:
    • Практические работы (ориентировочно 4 задания)
    • Конкурс на Kaggle в рамках группы
    • Разбор научной статьи в области NLP (выступление или реферат)
  • Практические задания выполняются на языке Python с использованием внешних библиотеки. Помимо кода ожидается отчет c подробными выводами. Задания, присланные позже дедлайнов, не принимаются. При обнаружении плагиата все участники получают 0 баллов.
  • Выбрать статью для разбора можно самому (и написать об этом на почту курса!) или взять одну из списка (будет пополняться).

Экзамен

Билеты

+лекция по EM-алгоритму

Выставление оценок по общим баллам:

40+ тройка

55+ четверка

70+ пятерка

Программа курса

  • Предварительная обработка текста
    • Токенизация, лемматизация, выделение коллокаций, регулярные выражения
  • Модели для работы с последовательностями
    • Скрытая марковская модель, модели максимальной энтропии и условные случайные поля
    • Применение в задачах определения частей речи, выделения именованных сущностей, снятия омонимии.
  • Синтаксический анализ
  • Классификация текстов
  • Вероятностные модели
    • Модель языка, N-граммы, сглаживание, концепция шумного канала
    • Применение в задачах исправления опечаток и машинного перевода
  • Глубокие нейронные сети в анализе текстов.
  • Тематические модели, дистрибутивная семантика, векторные представления слов.
  • Онтологии, тезаурусы, выделение семантических связей. Работа с википедией.
  • Определение тональности текстов.
Домашние задания

Внимание: необходимо выбрать статью для разбора и написать об этом на почту курса!

Дедлайн Баллы Тема Материалы Дополнительно
Лабораторная 1 13.03.2017 (9.00 MSK) 10 баллов Определение частей речи и

выделение именованных сущностей.

Ipython-ноутбук с заданием. Английский датасет для NER

можно взять из CoNLL любого года.

Лабораторная 2 27.03.2017 (9.00 MSK) 10 баллов Языковое моделирование и распознавание языка. Задание и данные.
Лабораторная 3 10.04.2017 (9.00 MSK) 10 баллов + 5 бонусных Задача выравнивания в машинном переводе. Задание и данные. Задание творческое, читайте заметки и экспериментируйте!
Конкурс 03.04.2017 для бейзлайна, 24.04.2017 финальный (9.00 MSK) 5 за преодоление бейзлайна + 20-25-30 за призовые места. Предсказание тегов для документов. Конкурс Смотрите материалы семинара от 20 марта.
Лабораторная 4 08.05.2017 (9.00 MSK) 10 баллов + 5 бонусных Тематическое моделирование и сентимент-анализ. Задание Данные
Разбор статьи Материалы должны отправлены за день до семинара с разбором, но не позднее 10.05.2017 (9.00 MSK) 10 за реферат + 5 за выступление (по желанию) Современные подходы в задачах NLP. Распределение. Реферат на 3-5 страниц, по которому понятно, что вы разобрались в методе и результатах. Выступление со слайдами на 10-15 минут, полезное для аудитории.
Лекции
Дата Тема Материалы Дополнительно
Лекция 1 10.02.2017 Токенизация. Коллокации. Регулярные выражения. Презентация Глава книги
Лекция 2 17.02.2017 Морфологический анализ. Скрытая марковская модель. Презентация 1

Презентация 2 — обновление 07.06.2017

Глава книги
Лекция 3 03.03.2017 Морфологический анализ. MEMM модель. Презентация — обновление 07.06.2017 Глава книги
Лекция 4 10.03.2017 Классификация текстов и отбор признаков. Презентация — обновление 07.06.2017
Лекция 5 17.03.2017 Снижение размерности. Презентация
Расстояние Левенштейна. Презентация Глава книги
Синтаксический разбор. Презентация Глава книги
Лекция 6 24.03.2017 Исправление опечаток, N-граммы. Презентация Глава книги

Глава книги

Лекция 7 31.03.2017 Вероятностное тематическое моделирование, часть 1. Презентация
Лекция 8 07.04.2017 Вероятностное тематическое моделирование, часть 2. Презентация
Лекция 9 14.04.2017 Работа со смыслами слов. Презентация Глава книги
Лекция 10 21.04.2017 Кластеризация. Презентация Статья
Лекция 11 28.04.2017 Анализ субъективности. Презентация Глава книги
Лекция 12 05.05.2017 Моделирование упорядоченных классов. Презентация
Нелинейное снижение размерности. Презентация
Лекция 13 12.05.2017 Извлечение информации. Презентация Глава книги
Оценка качества кластеризации. Презентация
Отбор признаков для кластеризации. Презентация
Лекция 14 19.05.2017 Методы автоматических ответов на вопросы. Презентация
Семинары
Дата Тема Материалы Дополнительно
Семинар 1 13.02.2017 Правила курса, предобработка и векторизация текстов, применение. Презентация

Ipython ноутбук

Семинар 2 20.02.2017 Модели для разметки последовательностей, прикладные задачи. Презентация Хороший обзор

NLTK POS-taggers

Семинар 3 06.03.2017 Языковое моделирование и машинный перевод. Материалы семинара
Семинар 4 13.03.2017 Орг-вопросы, EM-алгоритм, задача выравнивания в машинном переводе. Материалы семинара
Семинар 5 20.03.2017 Выдача конкурса: Vowpal Wabbit, Hashing Trick, Bleding/Stacking. NLP-ресурсы. Слайды Ноутбук
Семинар 6 27.03.2017 Введение в глубокие нейронные сети, RNN, LSTM, GRU. Слайды
Семинар 7 03.04.2017 Neural Conversational Models. Слайды
Семинар 8 10.04.2017 Векторные представления слов и документов, доклады. Презентация
Семинар 9 17.04.2017 Доклады.
Семинар 10 24.04.2017 Тематическое моделирование. Анализ тональности текстов. Презентация
Текущие результаты
Студенты Лабораторная №1 Лабораторная №2 Лабораторная №3 Лабораторная №4 Конкурс Реферат Итог
Амелин Владислав 2.8 6.0 7.0 7.0 (+2.0) 5.0 (+25.0) 7.0 62
Андрейцев Антон 8.2 3.2 1.0 8.2 (-1.0) 5.0 10.0 35
Викулин Всеволод 10.0 10.0 9.0 10.0 (+2.0) 5.0 10.0 (+5.0) 61
Гетоева Аида 0.0 5.0 7.0 9.0 0.0 10.0 31
Журавлёв Вадим 10.0 10.0 9.0 10 (+2.0) 5.0 9.0 55
Иванов Олег 10.0 10.0 10.0 (+2.0) 8.5 (+1.0) 5.0 10.0 (+3.0) 60
Камалов Руслан 10.0 10.0 7.0 0.0 5.0 9.0 41
Оспанов Аят 10.0 10.0 8.0 10.0 (+4.0) 5.0 10.0 57
Попов Николай 10.0 10.0 8.0 0.0 5.0 0.0 33
Романов Никита 10.0 10.0 10.0 0.0 5.0 (+20.0) 10.0 65
Рысьмятова Анастасия 10.0 10.0 10.0 (+4.0) 0.0 5.0 (+30.0) 10.0 (+5.0) 84 (А)
Садекова Таснима 2.5 8.6 9.0 6.2 5.0 10.0 (+5.0) 46
Стёпина Александра 3.1 6.8 9.0 10.0 5.0 9.0 (+4.0) 47
Тлеубаев Адиль 4.0 10.0 6.0 10.0 (+1.0) 5.0 8.0 (+1.0) 45
Чиркова Надежда 10.0 10.0 10.0 10.0 (+5.0) 5.0 10.0 (+5.0) 65
Шаповалов Никита 10.0 10.0 0.0 6.5 (+3.0) 5.0 10.0 (+2.0) 47

Материалы по курсу

Литература

Speech and Language Processing. Dan Jurafsky and James H. Martin. 2-nd edition. 2009.

Natural Language Processing with Python. Stewen Bird et. al. 2-nd edition. 2016.

Juravsky, Manning - Video lectures on natural language processing.

Питон и библиотеки

Инструменты для работы с текстами

Личные инструменты