Математические методы анализа текстов (ВМиК МГУ) / 2017

Материал из MachineLearning.

(Различия между версиями)

Версия 19:57, 16 февраля 2017

Содержание

1 Контакты
2 Примерное содержание курса
3 Материалы лекций
- 3.1 Токенизация. Коллокации. Регулярные выражения.
4 Материалы

Курс посвящен методам анализа текстов на основе статистики и машинного обучения.

Курс читается магистрам 1го года кафедры «Математические методы прогнозирования» ВМК МГУ, а также всем желающим.

Обработка естественного языка (Natural Language Processing) - широкая область на стыке лингвистики и компьютерных технологий. Сегодня здесь решается огромное число задач, например, классификация текстов, определение тональности, машинный перевод, распознавание речи, обработка запросов в поиске. В ходе курса слушатели познакомятся с основными методами и применят их на практике.

Контакты

Лекции проходят по пятницам в 16.20 в ауд. 609. Семинары проходят по понедельникам в 12.15 в ауд. 882.
Лектор: Виктор Китов
Семинаристы: Анна Потапенко, Мурат Апишев
Почта курса: nlp.hse@gmail.com. По всем вопросам туда.
Здесь вы в любой момент можете оставить анонимный отзыв или предложение.

Примерное содержание курса

Предварительная обработка текста
- Токенизация, лемматизация, выделение коллокаций, регулярные выражения
Модели для работы с последовательностями
- Скрытая марковская модель, модели максимальной энтропии и условные случайные поля (HMM, MEMM, CRF)
- Применение в задачах определения частей речи, выделения именованных сущностей, снятия омонимии.
Синтаксический анализ
Классификация текстов
Вероятностные модели
- Модель языка, N-граммы, сглаживание, концепция шумного канала
- Применение в задачах исправления опечаток и машинном переводе
Тематические модели, дистрибутивная семантика, векторные представления слов.
Глубокие нейронные сети в анализе текстов.
Онтологии, тезаурусы, выделение семантических связей. Работа с википедией.
Определение тональности текстов.

Материалы лекций

Токенизация. Коллокации. Регулярные выражения.

Скачать презентацию

Дополнительная информация

Материалы

Учебники

Speech and Language Processing. Dan Jurafsky and James H. Martin. 2-nd edition. 2009.

Natural Language Processing with Python. Stewen Bird et. al. 2-nd edition. 2016.

Juravsky, Manning - Video lectures on natural language processing.

Питон и необходимые библиотеки

Библиотеки по работе с текстами

Источник — «http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B0%D1%82%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B5_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%BE%D0%B2_%28%D0%92%D0%9C%D0%B8%D0%9A_%D0%9C%D0%93%D0%A3%29_/_2017»

Категория: Учебные курсы

@@ Строка 22: / Строка 22: @@
 * Предварительная обработка текста
-** Токенизация, лемматизация, выделение коллокаций, регулярные выражения, полезные библиотеки.
+** Токенизация, лемматизация, выделение коллокаций, регулярные выражения
 * Модели для работы с последовательностями
 ** Скрытая марковская модель, модели максимальной энтропии и условные случайные поля (HMM, MEMM, CRF)
@@ Строка 29: / Строка 29: @@
 * Классификация текстов
 * Вероятностные модели
-** Модель языка, N-граммы, сглаживание
+** Модель языка, N-граммы, сглаживание, концепция шумного канала
-** Концепция шумного канала
 ** Применение в задачах исправления опечаток и машинном переводе
 * Тематические модели, дистрибутивная семантика, векторные представления слов.
@@ Строка 36: / Строка 35: @@
 * Онтологии, тезаурусы, выделение семантических связей. Работа с википедией.
 * Определение тональности текстов.
 ==Материалы лекций==