Математические методы анализа текстов (ВМиК МГУ) / 2017

Материал из MachineLearning.

(Различия между версиями)

Перейти к: навигация, поиск

Версия 16:42, 12 февраля 2017

Содержание

1 Примерная программа курса (лекции)
2 Материалы лекций
- 2.1 Токенизация. Коллокации. Регулярные выражения.
3 Материалы

Курс посвящен методам автоматической обработки текстов, используя методы статистики и машинного обучения.

Курс читается магистрам 1го года кафедры «Математические методы прогнозирования» ВМиК МГУ, а также всем желающим.

Примерная программа курса (лекции)

Токенизация. Коллокации. Регулярные выражения.
Скрытые марковские модели.
Определение частей речи.
Оценка скрытых марковских моделей.
N-граммы.
Классификация текстов.
Синтаксический анализ.
Модель языка, шумный канал, задача исправления опечаток.
Тематические модели.
Онтологии, тезаурусы, выделение семантических связей.
Работа с википедией.
Определение тональности текстов.

Материалы лекций

Токенизация. Коллокации. Регулярные выражения.

Скачать презентацию

Дополнительная информация

Материалы

Учебники

Speech and Language Processing. Dan Jurafsky and James H. Martin. 2-nd edition. 2009.

Natural Language Processing with Python. Stewen Bird et. al. 2-nd edition. 2016.

Juravsky, Manning - Video lectures on natural language processing.

Питон и необходимые библиотеки

Библиотеки по работе с текстами

Источник — «http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B0%D1%82%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B5_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%BE%D0%B2_%28%D0%92%D0%9C%D0%B8%D0%9A_%D0%9C%D0%93%D0%A3%29_/_2017»

Категория: Учебные курсы

Просмотры

Личные инструменты

Представиться системе

Поиск

Инструменты