Математические методы анализа текстов (ВМиК МГУ) / 2017

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Строка 2: Строка 2:
{{TOCright}}
{{TOCright}}
-
Курс посвящен методам анализа текстов на основе статистики и машинного обучения. Курс читается магистрам 1го года кафедры «Математические методы прогнозирования» ВМК МГУ, а также всем желающим.
+
Курс посвящен методам анализа текстов на основе статистики и машинного обучения.
-
Обработка естественного языка (Natural Language Processing) - широкая область на стыке лингвистики и компьютерных технологий. Сегодня здесь решается огромное число задач, например: классификация текстов, сентимент-анализ, машинный перевод, распознавание речи, обработка запросов в поиске. В ходе курса слушатели познакомятся с основными методами и применят их на практике.
+
Курс читается магистрам 1го года кафедры «Математические методы прогнозирования» ВМК МГУ, а также всем желающим.
 +
 
 +
Обработка естественного языка (Natural Language Processing) - широкая область на стыке лингвистики и компьютерных технологий. Сегодня здесь решается огромное число задач, например, классификация текстов, определение тональности, машинный перевод, распознавание речи, обработка запросов в поиске. В ходе курса слушатели познакомятся с основными методами и применят их на практике.
Строка 12: Строка 14:
* Лектор: Виктор Китов
* Лектор: Виктор Китов
* Семинаристы: Анна Потапенко, Мурат Апишев
* Семинаристы: Анна Потапенко, Мурат Апишев
-
* Почта курса: nlp.hse@gmail.com
+
* Почта курса: nlp.hse@gmail.com. По всем вопросам туда.
 +
* [https://goo.gl/forms/D7u2xNqHsYSZU4D52 Здесь] вы в любой момент можете оставить анонимный отзыв или предложение.
-
=== Примерная программа курса ===
+
====Примерное содержание курса ====
-
* Токенизация. Коллокации. Регулярные выражения.
+
* Предварительная обработка текста
-
* Скрытые марковские модели.
+
** Токенизация, лемматизация, выделение коллокаций, регулярные выражения, полезные библиотеки.
-
* Определение частей речи.
+
* Модели для работы с последовательностями
-
* Оценка скрытых марковских моделей.
+
** Скрытая марковская модель, модели максимальной энтропии и условные случайные поля (HMM, MEMM, CRF)
-
* N-граммы.
+
** Применение в задачах определения частей речи, выделения именованных сущностей, снятия омонимии.
-
* Классификация текстов.
+
* Синтаксический анализ
-
* Синтаксический анализ.
+
* Классификация текстов
-
* Модель языка, шумный канал, задача исправления опечаток.
+
* Вероятностные модели
-
* Тематические модели.
+
** Модель языка, N-граммы, сглаживание
-
* Онтологии, тезаурусы, выделение семантических связей.
+
** Концепция шумного канала
-
* Работа с википедией.
+
** Применение в задачах исправления опечаток и машинном переводе
 +
* Тематические модели, дистрибутивная семантика, векторные представления слов.
 +
* Глубокие нейронные сети в анализе текстов.
 +
* Онтологии, тезаурусы, выделение семантических связей. Работа с википедией.
* Определение тональности текстов.
* Определение тональности текстов.

Версия 19:56, 16 февраля 2017

Содержание

Курс посвящен методам анализа текстов на основе статистики и машинного обучения.

Курс читается магистрам 1го года кафедры «Математические методы прогнозирования» ВМК МГУ, а также всем желающим.

Обработка естественного языка (Natural Language Processing) - широкая область на стыке лингвистики и компьютерных технологий. Сегодня здесь решается огромное число задач, например, классификация текстов, определение тональности, машинный перевод, распознавание речи, обработка запросов в поиске. В ходе курса слушатели познакомятся с основными методами и применят их на практике.


Контакты

  • Лекции проходят по пятницам в 16.20 в ауд. 609. Семинары проходят по понедельникам в 12.15 в ауд. 882.
  • Лектор: Виктор Китов
  • Семинаристы: Анна Потапенко, Мурат Апишев
  • Почта курса: nlp.hse@gmail.com. По всем вопросам туда.
  • Здесь вы в любой момент можете оставить анонимный отзыв или предложение.


Примерное содержание курса

  • Предварительная обработка текста
    • Токенизация, лемматизация, выделение коллокаций, регулярные выражения, полезные библиотеки.
  • Модели для работы с последовательностями
    • Скрытая марковская модель, модели максимальной энтропии и условные случайные поля (HMM, MEMM, CRF)
    • Применение в задачах определения частей речи, выделения именованных сущностей, снятия омонимии.
  • Синтаксический анализ
  • Классификация текстов
  • Вероятностные модели
    • Модель языка, N-граммы, сглаживание
    • Концепция шумного канала
    • Применение в задачах исправления опечаток и машинном переводе
  • Тематические модели, дистрибутивная семантика, векторные представления слов.
  • Глубокие нейронные сети в анализе текстов.
  • Онтологии, тезаурусы, выделение семантических связей. Работа с википедией.
  • Определение тональности текстов.


Материалы лекций

Токенизация. Коллокации. Регулярные выражения.

Скачать презентацию

Дополнительная информация

Материалы

Учебники

Speech and Language Processing. Dan Jurafsky and James H. Martin. 2-nd edition. 2009.

Natural Language Processing with Python. Stewen Bird et. al. 2-nd edition. 2016.

Juravsky, Manning - Video lectures on natural language processing.

Питон и необходимые библиотеки


Библиотеки по работе с текстами

Личные инструменты