Математические методы анализа текстов (ВМиК МГУ) / 2017

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Темы курса)
Строка 18: Строка 18:
-
 
+
== Темы курса ==
-
====Темы курса ====
+
* Предварительная обработка текста
* Предварительная обработка текста
Строка 36: Строка 35:
* Определение тональности текстов.
* Определение тональности текстов.
-
==Материалы лекций==
+
== Материалы лекций и семинаров ==
 +
 
 +
 
 +
{| class="wikitable"
 +
|-
 +
!
 +
! Дата
 +
! Тема
 +
! Материалы
 +
! Дополнительно
 +
|-
 +
| Лекция 1
 +
| 10.02.2017
 +
| Токенизация. Коллокации. Регулярные выражения.
 +
| [[Media:01-MMP-Tokenization._Collocations._Regular_expressions.pdf‎|Презентация]]
 +
| [https://web.stanford.edu/~jurafsky/slp3/2.pdf Глава книги]
 +
|-
 +
| Лекция 2
 +
| 17.02.2017
 +
| Морфологический анализ. Скрытая марковская модель.
 +
|
 +
|
 +
|}
 +
 
-
===Токенизация. Коллокации. Регулярные выражения. ===
+
{| class="wikitable"
 +
|-
 +
!
 +
! Дата
 +
! Тема
 +
! Материалы
 +
! Дополнительно
 +
|-
 +
| Семинар 1
 +
| 13.02.2017
 +
| Правила курса, предобработка и векторизация текстов,
 +
применение в задаче классификации.
 +
|
 +
|
 +
|-
 +
| Семинар 2
 +
| 20.02.2017
 +
| Методы работы с последовательностями и прикладные задачи.
 +
|
 +
|
 +
|}
-
[[Media:01-MMP-Tokenization._Collocations._Regular_expressions.pdf‎|Скачать презентацию]]
 
-
[https://web.stanford.edu/~jurafsky/slp3/2.pdf Дополнительная информация]
 
= Материалы =
= Материалы =

Версия 20:13, 16 февраля 2017

Содержание

Курс посвящен методам анализа текстов на основе статистики и машинного обучения.

Курс читается магистрам 1го года кафедры «Математические методы прогнозирования» ВМК МГУ, а также всем желающим.

Обработка естественного языка (Natural Language Processing) - широкая область на стыке лингвистики и компьютерных технологий. Сегодня здесь решается огромное число задач, например, классификация текстов, определение тональности, машинный перевод, распознавание речи, обработка запросов в поиске. В ходе курса слушатели познакомятся с основными методами и применят их на практике.


Контакты

  • Лекции проходят по пятницам в 16.20 в ауд. 609. Семинары проходят по понедельникам в 12.15 в ауд. 882.
  • Лектор: Виктор Китов
  • Семинаристы: Анна Потапенко, Мурат Апишев
  • Почта курса: nlp.hse@gmail.com. По всем вопросам туда.
  • Здесь вы в любой момент можете оставить анонимный отзыв или предложение.


Темы курса

  • Предварительная обработка текста
    • Токенизация, лемматизация, выделение коллокаций, регулярные выражения
  • Модели для работы с последовательностями
    • Скрытая марковская модель, модели максимальной энтропии и условные случайные поля
    • Применение в задачах определения частей речи, выделения именованных сущностей, снятия омонимии.
  • Синтаксический анализ
  • Классификация текстов
  • Вероятностные модели
    • Модель языка, N-граммы, сглаживание, концепция шумного канала
    • Применение в задачах исправления опечаток и машинного перевода
  • Тематические модели, дистрибутивная семантика, векторные представления слов.
  • Глубокие нейронные сети в анализе текстов.
  • Онтологии, тезаурусы, выделение семантических связей. Работа с википедией.
  • Определение тональности текстов.

Материалы лекций и семинаров

Дата Тема Материалы Дополнительно
Лекция 1 10.02.2017 Токенизация. Коллокации. Регулярные выражения. Презентация Глава книги
Лекция 2 17.02.2017 Морфологический анализ. Скрытая марковская модель.


Дата Тема Материалы Дополнительно
Семинар 1 13.02.2017 Правила курса, предобработка и векторизация текстов,

применение в задаче классификации.

Семинар 2 20.02.2017 Методы работы с последовательностями и прикладные задачи.


Материалы

Учебники

Speech and Language Processing. Dan Jurafsky and James H. Martin. 2-nd edition. 2009.

Natural Language Processing with Python. Stewen Bird et. al. 2-nd edition. 2016.

Juravsky, Manning - Video lectures on natural language processing.

Питон и необходимые библиотеки


Библиотеки по работе с текстами

Личные инструменты