Математические методы анализа текстов (ВМиК МГУ) / 2017

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Введение.)
(Программа курса)
Строка 8: Строка 8:
-
=Программа курса=
+
==Примерная программа курса (лекции)==
 +
 
 +
* Токенизация. Коллокации. Регулярные выражения.
 +
* Скрытые марковские модели.
 +
* Определение частей речи.
 +
* Оценка скрытых марковских моделей.
 +
* N-граммы.
 +
* Классификация текстов.
 +
* Синтаксический анализ.
 +
* Модель языка, шумный канал, задача исправления опечаток.
 +
* Тематические модели.
 +
* Онтологии, тезаурусы, выделение семантических связей.
 +
* Работа с википедией.
 +
* Определение тональности текстов.
 +
 
==Лекции==
==Лекции==

Версия 16:42, 12 февраля 2017

Содержание

Курс посвящен методам автоматической обработки текстов, используя методы статистики и машинного обучения.

Курс читается магистрам 1го года кафедры «Математические методы прогнозирования» ВМиК МГУ, а также всем желающим.


Примерная программа курса (лекции)

  • Токенизация. Коллокации. Регулярные выражения.
  • Скрытые марковские модели.
  • Определение частей речи.
  • Оценка скрытых марковских моделей.
  • N-граммы.
  • Классификация текстов.
  • Синтаксический анализ.
  • Модель языка, шумный канал, задача исправления опечаток.
  • Тематические модели.
  • Онтологии, тезаурусы, выделение семантических связей.
  • Работа с википедией.
  • Определение тональности текстов.


Лекции

Токенизация. Коллокации. Регулярные выражения.

Скачать презентацию

Дополнительная информация

Материалы

Учебники

Speech and Language Processing. Dan Jurafsky and James H. Martin. 2-nd edition. 2009.

Natural Language Processing with Python. Stewen Bird et. al. 2-nd edition. 2016.

Juravsky, Manning - Video lectures on natural language processing.

Питон и необходимые библиотеки


Библиотеки по работе с текстами

Личные инструменты