Математические методы анализа текстов (ВМиК МГУ) / 2017

Материал из MachineLearning.

(Различия между версиями)

Версия 14:12, 25 февраля 2017

Содержание

1 Контакты
2 Правила игры
3 Программа курса
4 Материалы по курсу

Курс посвящен методам анализа текстов на основе статистики и машинного обучения.

Курс читается магистрам 1го года кафедры «Математические методы прогнозирования» ВМК МГУ, а также всем желающим.

Обработка естественного языка (Natural Language Processing) - широкая область на стыке лингвистики и компьютерных технологий. Сегодня здесь решается огромное число задач, например, классификация текстов, определение тональности, машинный перевод, распознавание речи, обработка запросов в поиске. В ходе курса слушатели познакомятся с основными методами и применят их на практике.

Контакты

Лекции проходят по пятницам в 16.20 в ауд. 609. Семинары проходят по понедельникам в 12.15 в ауд. 882.
Лектор: Виктор Китов
Семинаристы: Анна Потапенко, Мурат Апишев
Почта курса: nlp.hse@gmail.com.
Здесь вы в любой момент можете оставить анонимный отзыв или предложение.

Правила игры

Оценка за курс: 70% домашние работы + 30% экзамен. Точные критерии будут опубликованы позднее.
Виды активностей:
- Практические работы (ориентировочно 4 задания)
- Конкурс на Kaggle в рамках группы
- Разбор научной статьи в области NLP (выступление или реферат)
Практические задания выполняются на языке Python с использованием внешних библиотеки. Помимо кода ожидается отчет c подробными выводами. Задания, присланные позже дедлайнов, не принимаются. При обнаружении плагиата все участники получают 0 баллов.
Выбрать статью для разбора можно самому (и написать об этом на почту курса!) или взять одну из списка (будет пополняться).

Программа курса

Предварительная обработка текста
- Токенизация, лемматизация, выделение коллокаций, регулярные выражения
Модели для работы с последовательностями
- Скрытая марковская модель, модели максимальной энтропии и условные случайные поля
- Применение в задачах определения частей речи, выделения именованных сущностей, снятия омонимии.
Синтаксический анализ
Классификация текстов
Вероятностные модели
- Модель языка, N-граммы, сглаживание, концепция шумного канала
- Применение в задачах исправления опечаток и машинного перевода
Тематические модели, дистрибутивная семантика, векторные представления слов.
Глубокие нейронные сети в анализе текстов.
Онтологии, тезаурусы, выделение семантических связей. Работа с википедией.
Определение тональности текстов.

Лекции

	Дата	Тема	Материалы	Дополнительно
Лекция 1	10.02.2017	Токенизация. Коллокации. Регулярные выражения.	Презентация	Глава книги
Лекция 2	17.02.2017	Морфологический анализ. Скрытая марковская модель.	Презентация 1 Презентация 2	Глава книги

Семинары

	Дата	Тема	Материалы	Дополнительно
Семинар 1	13.02.2017	Правила курса, предобработка и векторизация текстов, применение в задаче классификации.	Презентация Ipython ноутбук
Семинар 2	20.02.2017	Методы работы с последовательностями и прикладные задачи.	Презентация	Хороший обзор NLTK POS-taggers

Домашние задания

Выложено первое практическое задание по курсу: Ipython-ноутбук с заданием.

Вам предстоит решить задачи определения частей речи и выделения именованных сущностей с помощью HMM и CRF моделей. Дедлайн -- 9:00 утра 13 марта. Работы присылать на почту курса с темой вида "Лабораторная 1 - Имя Фамилия".

Материалы по курсу

Литература

Speech and Language Processing. Dan Jurafsky and James H. Martin. 2-nd edition. 2009.

Natural Language Processing with Python. Stewen Bird et. al. 2-nd edition. 2016.

Juravsky, Manning - Video lectures on natural language processing.

Питон и библиотеки

Инструменты для работы с текстами

Источник — «http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B0%D1%82%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B5_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%BE%D0%B2_%28%D0%92%D0%9C%D0%B8%D0%9A_%D0%9C%D0%93%D0%A3%29_/_2017»

Категория: Учебные курсы

@@ Строка 99: / Строка 99: @@
 Выложено первое практическое задание по курсу: [https://drive.google.com/open?id=0B2cCJQ2_aOwjaWZSOFpkRE5tbnM Ipython-ноутбук с заданием].
-Вам предстоит решить задачи определения частей речи и выделения именованных сущностей с помощью HMM и CRF моделей.  Дедлайн -- 9:00 утра в понедельник 13 марта.  Работы присылать на почту курса с темой вида "Лабораторная 1 - Имя Фамилия".
+Вам предстоит решить задачи определения частей речи и выделения именованных сущностей с помощью HMM и CRF моделей.  Дедлайн -- 9:00 утра 13 марта.  Работы присылать на почту курса с темой вида "Лабораторная 1 - Имя Фамилия".
 == Материалы по курсу ==