Математические методы анализа текстов (курс лекций, К.В.Воронцов, А.А.Потапенко)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Результаты лабораторных)
(Результаты лабораторных)
Строка 90: Строка 90:
Обучение с подкреплением в NLP, алгоритм REINFORCE. Его применение для улучшения анализа тональности текстов с помощью синтаксических деревьев разбора.
Обучение с подкреплением в NLP, алгоритм REINFORCE. Его применение для улучшения анализа тональности текстов с помощью синтаксических деревьев разбора.
-
= Результаты лабораторных =
 
-
{| class="wikitable"
 
-
|-
 
-
! Студенты
 
-
! Лабораторная № 1
 
-
!
 
-
! Итог
 
-
|-
 
-
| Астахов Антон
 
-
|
 
-
|
 
-
|
 
-
|-
 
-
| Бухонов Сергей
 
-
|
 
-
|
 
-
|
 
-
|-
 
-
| Гаврилов Юрий
 
-
|
 
-
|
 
-
|
 
-
|-
 
-
| Гадаев Тамаз
 
-
|
 
-
|
 
-
|
 
-
|-
 
-
| Грабовой Андрей
 
-
|
 
-
|
 
-
|
 
-
|-
 
-
| Дементьева Дарина
 
-
|
 
-
|
 
-
|
 
-
|-
 
-
| Кислинский Вадим
 
-
|
 
-
|
 
-
|
 
-
|-
 
-
| Козлинский Евгений
 
-
|
 
-
|
 
-
|
 
-
|-
 
-
| Лялин Владислав
 
-
|
 
-
|
 
-
|
 
-
|-
 
-
| Малиновский Григорий
 
-
|
 
-
|
 
-
|
 
-
|-
 
-
| Нураланов Жакшылык
 
-
|
 
-
|
 
-
|
 
-
|-
 
-
| Остроухов Петр
 
-
|
 
-
|
 
-
|
 
-
|-
 
-
| Плетнев Никита
 
-
|
 
-
|
 
-
|
 
-
|-
 
-
| Плюснин Павел
 
-
|
 
-
|
 
-
|
 
-
|-
 
-
| Рогозина Анна
 
-
|
 
-
|
 
-
|
 
-
|-
 
-
| Сафин Камиль
 
-
|
 
-
|
 
-
|
 
-
|-
 
-
| Терехов Олег
 
-
|
 
-
|
 
-
|
 
-
|-
 
-
| Чуйкова Екатерина
 
-
|
 
-
|
 
-
|
 
-
|-
 
-
| Шишкина Вера
 
-
|
 
-
|
 
-
|
 
-
|-
 
-
| Шульгин Егор
 
-
|
 
-
|
 
-
|
 
-
|-
 
-
|}
 
= См. также =
= См. также =

Версия 11:08, 20 октября 2018

Содержание

Математические методы анализа текстов. В курсе рассматриваются основные задачи и математические методы обработки естественного языка. Курс читается студентам кафедры «Интеллектуальные системы» ФУПМ МФТИ с 2018 года.

От студентов требуются знания курсов линейной алгебры, математического анализа, теории вероятностей, математической статистики, методов оптимизации, машинного обучения и нейронных сетей, языка программирования Python.

Краткая ссылка на эту страницу: http://bit.ly/2LFhfCA.

Преподаватели и контакты

Лекторы: Воронцов К.В., Потапенко А.А.

Семинаристы: Апишев Мурат, Попов Артем

Ассистенты: Дербаносов Роман, Шаталов Николай

Чат в телеграме: https://t.me/mmta_2018

Практические задания

Все задания сдаются в систему Anytask. Инвайт: Cbwc4tF.

Задание 1 (до 10 октября): Определение частей речи с помощью скрытой марковской модели.

Задание 2 (до 24 октября): Распознавание именованных сущностей на твиттере с помощью модели biLSTM.

Задание 3: Обучение векторных представлений для ранжирования постов StackOverflow.

Задание 4: Мультиязычная тематическая модель в BigARTM.

Задание 5: TBD.

Программа курса

Занятие 1. (Воронцов К.В.) Введение в область анализа текстов (Natural Language Processing). Обзор задач, пирамида NLP, структура курса.

Занятие 2. (Потапенко А.) Задача языкового моделирования: генерация текста, исправление опечаток. Частотные языковые модели и способы сглаживания. Нейросетевые языковые модели.

Занятие 3. (Попов А.) Рекуррентные нейронные сети для задач языкового моделирования и разметки последовательностей. Гибридная модель biLSTM-CRF.

Занятие 4. (Потапенко А.) Задачи разметки последовательностей: распознавание частей речи, выделение именованных сущностей. Скрытые марковские модели: алгоритм Витерби для декодирования и алгоритм Баума-Велша для обучения модели.

Занятие 5. (Апишев М.) Инструментарий работы с данными в Python. Предобработка текстов. Регулярные выражения (re), лемматизация (mystem, pymorphy), выделение коллокаций.

Занятие 6. (Апишев М.) Выбор признакового пространства для задач классификации; библиотеки sklearn, gensim, Vowpal Wabbit. Задачи анализа тональности. Нейросетевые архитектуры для задач классификации коротких текстов.

Занятие 7. (Апишев М.) Поисковое ранжирование. Признаки, метрики, подводные камни.

Занятие 8. (Потапенко А.) Векторные представления слов, предложений и документов. Дистрибутивная гипотеза и методы матричного разложения. Модели Word2vec, GloVe, FastText, StarSpace.

Занятие 9. (Воронцов К.В.) Тематическое моделирование: модели PLSA и LDA, два способа вывода EM-алгоритма, регуляризация и модальности, примеры регуляризаторов. Проект BigARTM.

Занятие 10. (Воронцов К.В.) Виды тематических моделей: иерархические, темпоральные, n-граммные, дистрибутивные, сегментирующие, гиперграфовые. Пример приложения: разведочный информационный поиск.

Занятие 11. (Потапенко А.) Задачи преобразования последовательностей: машинный перевод, суммаризация. Encoder-decoder архитектура, механизм внимания. Способы работы с большим словарем.

Занятие 12. (Дербаносов Р.) Вопросно-ответные и диалоговые системы. Традиционный подход (IBM Watson) и нейросетевой подход (Google.Assistant, Яндекс.Алиса). Обработка диалогов в колл-центрах.

Занятие 13. (Попов А.) Синтаксический анализ текстов: деревья зависимости и деревья составляющих. Инструменты SyntaxNet и UDPipe. Прикладные примеры.

Занятие 14. (Потапенко А.) Обучение с подкреплением в NLP, алгоритм REINFORCE. Его применение для улучшения анализа тональности текстов с помощью синтаксических деревьев разбора.


См. также

Материалы

Литература

  1. Dan Jurafsky and James H. Martin Speech and Language Processing (3rd ed. draft)
  2. Stewen Bird et. al. Natural Language Processing with Python. 2-nd edition. 2016.
  3. Большакова Е.И., Воронцов К.В., Ефремова Н.Э., Клышинский Э.С., Лукашевич Н.В., Сапин А.С. Автоматическая обработка текстов на естественном языке и анализ данных. НИУ ВШЭ, 2017.
  4. LxMLS summer school Practical guide on NLP in Python

Инструменты для работы с текстами

Личные инструменты