Математические методы анализа текстов (ВМиК МГУ) / 2017

Материал из MachineLearning.

Перейти к: навигация, поиск

Содержание

Курс посвящен методам анализа текстов на основе статистики и машинного обучения.

Курс читается магистрам 1го года кафедры «Математические методы прогнозирования» ВМК МГУ, а также всем желающим.

Обработка естественного языка (Natural Language Processing) - широкая область на стыке лингвистики и компьютерных технологий. Сегодня здесь решается огромное число задач, например, классификация текстов, определение тональности, машинный перевод, распознавание речи, обработка запросов в поиске. В ходе курса слушатели познакомятся с основными методами и применят их на практике.

Контакты

  • Лекции проходят по пятницам в 16.20 в ауд. 609. Семинары проходят по понедельникам в 12.15 в ауд. 882.
  • Лектор: Виктор Китов
  • Семинаристы: Анна Потапенко, Мурат Апишев
  • Почта курса: nlp.msu@gmail.com.
  • Здесь вы в любой момент можете оставить анонимный отзыв или предложение.

Правила игры

  • Оценка за курс: 70% домашние работы + 30% экзамен. Точные критерии будут опубликованы позднее.
  • Виды активностей:
    • Практические работы (ориентировочно 4 задания)
    • Конкурс на Kaggle в рамках группы
    • Разбор научной статьи в области NLP (выступление или реферат)
  • Практические задания выполняются на языке Python с использованием внешних библиотеки. Помимо кода ожидается отчет c подробными выводами. Задания, присланные позже дедлайнов, не принимаются. При обнаружении плагиата все участники получают 0 баллов.
  • Выбрать статью для разбора можно самому (и написать об этом на почту курса!) или взять одну из списка (будет пополняться).

Программа курса

  • Предварительная обработка текста
    • Токенизация, лемматизация, выделение коллокаций, регулярные выражения
  • Модели для работы с последовательностями
    • Скрытая марковская модель, модели максимальной энтропии и условные случайные поля
    • Применение в задачах определения частей речи, выделения именованных сущностей, снятия омонимии.
  • Синтаксический анализ
  • Классификация текстов
  • Вероятностные модели
    • Модель языка, N-граммы, сглаживание, концепция шумного канала
    • Применение в задачах исправления опечаток и машинного перевода
  • Глубокие нейронные сети в анализе текстов.
  • Тематические модели, дистрибутивная семантика, векторные представления слов.
  • Онтологии, тезаурусы, выделение семантических связей. Работа с википедией.
  • Определение тональности текстов.


Домашние задания

Внимание: необходимо выбрать статью для разбора и написать об этом на почту курса!

Дедлайн Баллы Тема Материалы Дополнительно
Лабораторная 1 13.03.2017 (9.00 MSK) 10 баллов Определение частей речи и

выделение именованных сущностей.

Ipython-ноутбук с заданием. Английский датасет для NER

можно взять из CoNLL любого года.

Лабораторная 2 27.03.2017 (9.00 MSK) 10 баллов Языковое моделирование и распознавание языка. Задание и данные.
Лабораторная 3 10.04.2017 (9.00 MSK) 10 баллов + 5 бонусных Задача выравнивания в машинном переводе. Задание и данные. Задание творческое, читайте заметки и экспериментируйте!
Конкурс 03.04.2017 для бейзлайна, 24.04.2017 финальный (9.00 MSK) 5 за преодоление бейзлайна + 20-25-30 за призовые места. Предсказание тегов для документов. Конкурс Смотрите материалы семинара от 20 марта.
Лабораторная 4 08.05.2017 (9.00 MSK) 10 баллов + 5 бонусных Тематическое моделирование и сентимент-анализ.
Разбор статьи Материалы должны отправлены за день до семинара с разбором, но не позднее 10.05.2017 (9.00 MSK) 10 за реферат + 5 за выступление (по желанию) Современные подходы в задачах NLP. Распределение. Реферат на 3-5 страниц, по которому понятно, что вы разобрались в методе и результатах. Выступление со слайдами на 10-15 минут, полезное для аудитории.
Лекции
Дата Тема Материалы Дополнительно
Лекция 1 10.02.2017 Токенизация. Коллокации. Регулярные выражения. Презентация Глава книги
Лекция 2 17.02.2017 Морфологический анализ. Скрытая марковская модель. Презентация 1

Презентация 2

Глава книги
Лекция 3 03.03.2017 Морфологический анализ. MEMM модель. Презентация Глава книги
Лекция 4 10.03.2017 Классификация текстов и отбор признаков. Презентация
Лекция 5 17.03.2017 Снижение размерности. Презентация
Расстояние Левенштейна. Презентация Глава книги
Синтаксический разбор. Презентация Глава книги
Лекция 6 24.03.2017 Исправление опечаток, N-граммы. Презентация Глава книги

Глава книги

Лекция 7 31.03.2017 Вероятностное тематическое моделирование, часть 1. Презентация
Лекция 8 7.04.2017 Вероятностное тематическое моделирование, часть 2. Презентация
Семинары
Дата Тема Материалы Дополнительно
Семинар 1 13.02.2017 Правила курса, предобработка и векторизация текстов, применение. Презентация

Ipython ноутбук

Семинар 2 20.02.2017 Модели для разметки последовательностей, прикладные задачи. Презентация Хороший обзор

NLTK POS-taggers

Семинар 3 06.03.2017 Языковое моделирование и машинный перевод. Материалы семинара
Семинар 4 13.03.2017 Орг-вопросы, EM-алгоритм, задача выравнивания в машинном переводе. Материалы семинара
Семинар 5 20.03.2017 Выдача конкурса: Vowpal Wabbit, Hashing Trick, Bleding/Stacking. NLP-ресурсы. Слайды Ноутбук
Семинар 6 27.03.2017 Введение в глубокие нейронные сети, RNN, LSTM, GRU.
Семинар 7 03.04.2017 Conversational Neural Networks.
Семинар 8 10.04.2017 Векторные представления слов и документов, доклады.
Семинар 9 17.04.2017 Архитектуры глубоких сетей в NLP, доклады.
Семинар 10 24.04.2017 Тематическое моделирование.

Материалы по курсу

Литература

Speech and Language Processing. Dan Jurafsky and James H. Martin. 2-nd edition. 2009.

Natural Language Processing with Python. Stewen Bird et. al. 2-nd edition. 2016.

Juravsky, Manning - Video lectures on natural language processing.

Питон и библиотеки

Инструменты для работы с текстами

Личные инструменты