Математические методы анализа текстов (ВМиК МГУ) / 2017

Материал из MachineLearning.

(Различия между версиями)

Версия 19:56, 16 февраля 2017

Содержание

1 Контакты
2 Примерное содержание курса
3 Материалы лекций
- 3.1 Токенизация. Коллокации. Регулярные выражения.
4 Материалы

Курс посвящен методам анализа текстов на основе статистики и машинного обучения.

Курс читается магистрам 1го года кафедры «Математические методы прогнозирования» ВМК МГУ, а также всем желающим.

Обработка естественного языка (Natural Language Processing) - широкая область на стыке лингвистики и компьютерных технологий. Сегодня здесь решается огромное число задач, например, классификация текстов, определение тональности, машинный перевод, распознавание речи, обработка запросов в поиске. В ходе курса слушатели познакомятся с основными методами и применят их на практике.

Контакты

Лекции проходят по пятницам в 16.20 в ауд. 609. Семинары проходят по понедельникам в 12.15 в ауд. 882.
Лектор: Виктор Китов
Семинаристы: Анна Потапенко, Мурат Апишев
Почта курса: nlp.hse@gmail.com. По всем вопросам туда.
Здесь вы в любой момент можете оставить анонимный отзыв или предложение.

Примерное содержание курса

Предварительная обработка текста
- Токенизация, лемматизация, выделение коллокаций, регулярные выражения, полезные библиотеки.
Модели для работы с последовательностями
- Скрытая марковская модель, модели максимальной энтропии и условные случайные поля (HMM, MEMM, CRF)
- Применение в задачах определения частей речи, выделения именованных сущностей, снятия омонимии.
Синтаксический анализ
Классификация текстов
Вероятностные модели
- Модель языка, N-граммы, сглаживание
- Концепция шумного канала
- Применение в задачах исправления опечаток и машинном переводе
Тематические модели, дистрибутивная семантика, векторные представления слов.
Глубокие нейронные сети в анализе текстов.
Онтологии, тезаурусы, выделение семантических связей. Работа с википедией.
Определение тональности текстов.

Материалы лекций

Токенизация. Коллокации. Регулярные выражения.

Скачать презентацию

Дополнительная информация

Материалы

Учебники

Speech and Language Processing. Dan Jurafsky and James H. Martin. 2-nd edition. 2009.

Natural Language Processing with Python. Stewen Bird et. al. 2-nd edition. 2016.

Juravsky, Manning - Video lectures on natural language processing.

Питон и необходимые библиотеки

Библиотеки по работе с текстами

Источник — «http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B0%D1%82%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B5_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%BE%D0%B2_%28%D0%92%D0%9C%D0%B8%D0%9A_%D0%9C%D0%93%D0%A3%29_/_2017»

Категория: Учебные курсы

@@ Строка 2: / Строка 2: @@
 {{TOCright}}
-Курс посвящен методам анализа текстов на основе статистики и машинного обучения.  Курс читается магистрам 1го года кафедры «Математические методы прогнозирования» ВМК МГУ, а также всем желающим.
+Курс посвящен методам анализа текстов на основе статистики и машинного обучения.
-Обработка естественного языка (Natural Language Processing) - широкая область на стыке лингвистики и компьютерных технологий. Сегодня здесь решается огромное число задач, например: классификация текстов, сентимент-анализ, машинный перевод, распознавание речи, обработка запросов в поиске. В ходе курса слушатели познакомятся с основными методами и применят их на практике.
+Курс читается магистрам 1го года кафедры «Математические методы прогнозирования» ВМК МГУ, а также всем желающим.
+Обработка естественного языка (Natural Language Processing) - широкая область на стыке лингвистики и компьютерных технологий. Сегодня здесь решается огромное число задач, например, классификация текстов, определение тональности, машинный перевод, распознавание речи, обработка запросов в поиске. В ходе курса слушатели познакомятся с основными методами и применят их на практике.
@@ Строка 12: / Строка 14: @@
 * Лектор: Виктор Китов
 * Семинаристы: Анна Потапенко, Мурат Апишев
-* Почта курса: nlp.hse@gmail.com
+* Почта курса: nlp.hse@gmail.com. По всем вопросам туда.
+* [https://goo.gl/forms/D7u2xNqHsYSZU4D52 Здесь] вы в любой момент можете оставить анонимный отзыв или предложение.
-=== Примерная программа курса ===
+====Примерное содержание курса ====
-* Токенизация. Коллокации. Регулярные выражения.
+* Предварительная обработка текста
-* Скрытые марковские модели.
+** Токенизация, лемматизация, выделение коллокаций, регулярные выражения, полезные библиотеки.
-* Определение частей речи.
+* Модели для работы с последовательностями
-* Оценка скрытых марковских моделей.
+** Скрытая марковская модель, модели максимальной энтропии и условные случайные поля (HMM, MEMM, CRF)
-* N-граммы.
+** Применение в задачах определения частей речи, выделения именованных сущностей, снятия омонимии.
-* Классификация текстов.
+* Синтаксический анализ
-* Синтаксический анализ.
+* Классификация текстов
-* Модель языка, шумный канал, задача исправления опечаток.
+* Вероятностные модели
-* Тематические модели.
+** Модель языка, N-граммы, сглаживание
-* Онтологии, тезаурусы, выделение семантических связей.
+** Концепция шумного канала
-* Работа с википедией.
+** Применение в задачах исправления опечаток и машинном переводе
+* Тематические модели, дистрибутивная семантика, векторные представления слов.
+* Глубокие нейронные сети в анализе текстов.
+* Онтологии, тезаурусы, выделение семантических связей. Работа с википедией.
 * Определение тональности текстов.