Математические методы анализа текстов (ВМиК МГУ) / 2017

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Лекции)
Строка 2: Строка 2:
{{TOCright}}
{{TOCright}}
-
Курс посвящен методам автоматической обработки текстов, используя методы статистики и машинного обучения.
+
Курс посвящен методам анализа текстов на основе статистики и машинного обучения. Курс читается магистрам 1го года кафедры «Математические методы прогнозирования» ВМК МГУ, а также всем желающим.
-
Курс читается магистрам 1го года кафедры «Математические методы прогнозирования» ВМиК МГУ, а также всем желающим.
+
Обработка естественного языка (Natural Language Processing) - широкая область на стыке лингвистики и компьютерных технологий. Сегодня здесь решается огромное число задач, например: классификация текстов, сентимент-анализ, машинный перевод, распознавание речи, обработка запросов в поиске. В ходе курса слушатели познакомятся с основными методами и применят их на практике.
 +
==== Контакты ====
-
==Примерная программа курса (лекции)==
+
* Лекции проходят по пятницам в 16.20 в ауд. 609. Семинары проходят по понедельникам в 12.15 в ауд. 882.
 +
* Лектор: Виктор Китов
 +
* Семинаристы: Анна Потапенко, Мурат Апишев
 +
* Почта курса: nlp.hse@gmail.com
 +
 
 +
 
 +
 
 +
=== Примерная программа курса ===
* Токенизация. Коллокации. Регулярные выражения.
* Токенизация. Коллокации. Регулярные выражения.

Версия 19:25, 16 февраля 2017

Содержание

Курс посвящен методам анализа текстов на основе статистики и машинного обучения. Курс читается магистрам 1го года кафедры «Математические методы прогнозирования» ВМК МГУ, а также всем желающим.

Обработка естественного языка (Natural Language Processing) - широкая область на стыке лингвистики и компьютерных технологий. Сегодня здесь решается огромное число задач, например: классификация текстов, сентимент-анализ, машинный перевод, распознавание речи, обработка запросов в поиске. В ходе курса слушатели познакомятся с основными методами и применят их на практике.


Контакты

  • Лекции проходят по пятницам в 16.20 в ауд. 609. Семинары проходят по понедельникам в 12.15 в ауд. 882.
  • Лектор: Виктор Китов
  • Семинаристы: Анна Потапенко, Мурат Апишев
  • Почта курса: nlp.hse@gmail.com


Примерная программа курса

  • Токенизация. Коллокации. Регулярные выражения.
  • Скрытые марковские модели.
  • Определение частей речи.
  • Оценка скрытых марковских моделей.
  • N-граммы.
  • Классификация текстов.
  • Синтаксический анализ.
  • Модель языка, шумный канал, задача исправления опечаток.
  • Тематические модели.
  • Онтологии, тезаурусы, выделение семантических связей.
  • Работа с википедией.
  • Определение тональности текстов.


Материалы лекций

Токенизация. Коллокации. Регулярные выражения.

Скачать презентацию

Дополнительная информация

Материалы

Учебники

Speech and Language Processing. Dan Jurafsky and James H. Martin. 2-nd edition. 2009.

Natural Language Processing with Python. Stewen Bird et. al. 2-nd edition. 2016.

Juravsky, Manning - Video lectures on natural language processing.

Питон и необходимые библиотеки


Библиотеки по работе с текстами

Личные инструменты