Математические методы анализа текстов (ВМиК МГУ) / 2017

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Материалы семинаров)
Строка 44: Строка 44:
* Определение тональности текстов.
* Определение тональности текстов.
-
== Материалы лекций ==
+
=== Лекции ===
Строка 68: Строка 68:
|}
|}
-
== Материалы семинаров ==
+
=== Семинары ===
{| class="wikitable"
{| class="wikitable"
Строка 93: Строка 93:
|}
|}
-
= Материалы =
+
== Материалы по курсу ==
==Учебники==
==Учебники==
Строка 103: Строка 103:
[https://www.youtube.com/playlist?list=PL6397E4B26D00A269 Juravsky, Manning - Video lectures on natural language processing.]
[https://www.youtube.com/playlist?list=PL6397E4B26D00A269 Juravsky, Manning - Video lectures on natural language processing.]
-
== Питон и необходимые библиотеки ==
+
==== Питон и библиотеки ====
* [https://www.continuum.io/downloads Anaconda - дистрибутив питона с предустановленными научными библиотеками]
* [https://www.continuum.io/downloads Anaconda - дистрибутив питона с предустановленными научными библиотеками]
-
* [http://www.nltk.org/install.html библиотека NLTK по работе с текстами]
 
* [http://nbviewer.ipython.org/gist/rpmuller/5920182 A Crash Course in Python for Scientists]
* [http://nbviewer.ipython.org/gist/rpmuller/5920182 A Crash Course in Python for Scientists]
* [https://docs.scipy.org/doc/numpy-dev/user/quickstart.html Numpy]
* [https://docs.scipy.org/doc/numpy-dev/user/quickstart.html Numpy]
Строка 114: Строка 113:
-
== Библиотеки по работе с текстами ==
+
== Инструменты для работы с текстами ==
-
* [https://tech.yandex.ru/mystem/ Морфологический анализатор от Яндекса]
+
* [https://tech.yandex.ru/mystem/ Mystem - морфологический анализатор от Яндекса]
-
* [https://pythonhosted.org/pymorphy/intro.html Библиотека морфологической работы с русскими текстами PyMorphy]
+
* [https://pythonhosted.org/pymorphy/intro.html PyMorphy - морфологический анализатор для русского языка]
 +
* [http://www.nltk.org/install.html NLTK (Natural Language Toolkit) - удобная питон-библиотка]
* [https://nlpub.ru/%D0%9E%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%B0 Каталог утилит для работы с русскими и английскими текстами]
* [https://nlpub.ru/%D0%9E%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%B0 Каталог утилит для работы с русскими и английскими текстами]

Версия 22:52, 16 февраля 2017

Содержание

Курс посвящен методам анализа текстов на основе статистики и машинного обучения.

Курс читается магистрам 1го года кафедры «Математические методы прогнозирования» ВМК МГУ, а также всем желающим.

Обработка естественного языка (Natural Language Processing) - широкая область на стыке лингвистики и компьютерных технологий. Сегодня здесь решается огромное число задач, например, классификация текстов, определение тональности, машинный перевод, распознавание речи, обработка запросов в поиске. В ходе курса слушатели познакомятся с основными методами и применят их на практике.


Контакты

  • Лекции проходят по пятницам в 16.20 в ауд. 609. Семинары проходят по понедельникам в 12.15 в ауд. 882.
  • Лектор: Виктор Китов
  • Семинаристы: Анна Потапенко, Мурат Апишев
  • Почта курса: nlp.hse@gmail.com.
  • Здесь вы в любой момент можете оставить анонимный отзыв или предложение.


Правила игры

  • Оценка за курс: 70% домашние работы + 30% экзамен). Точные критерии будут опубликованы позднее.
  • Виды активностей:
    • Практические работы (ориентировочно 4 задания)
    • Конкурс на Kaggle в рамках группы
    • Разбор научной статьи в области NLP (выступление или реферат)
  • Все практические задания выполняются на языке Python с использованием внешних библиотеки. Помимо кода ожидается отчет c подробными выводами. Задания, присланные позже дедлайнов, не принимаются. При обнаружении плагиата все участники получают 0 баллов.
  • Выбрать статью для разбора можно самому (и написать об этом на почту курса!) или взять одну из списка (будет пополняться).

Примерная программа

  • Предварительная обработка текста
    • Токенизация, лемматизация, выделение коллокаций, регулярные выражения
  • Модели для работы с последовательностями
    • Скрытая марковская модель, модели максимальной энтропии и условные случайные поля
    • Применение в задачах определения частей речи, выделения именованных сущностей, снятия омонимии.
  • Синтаксический анализ
  • Классификация текстов
  • Вероятностные модели
    • Модель языка, N-граммы, сглаживание, концепция шумного канала
    • Применение в задачах исправления опечаток и машинного перевода
  • Тематические модели, дистрибутивная семантика, векторные представления слов.
  • Глубокие нейронные сети в анализе текстов.
  • Онтологии, тезаурусы, выделение семантических связей. Работа с википедией.
  • Определение тональности текстов.

Лекции

Дата Тема Материалы Дополнительно
Лекция 1 10.02.2017 Токенизация. Коллокации. Регулярные выражения. Презентация Глава книги
Лекция 2 17.02.2017 Морфологический анализ. Скрытая марковская модель.

Семинары

Дата Тема Материалы Дополнительно
Семинар 1 13.02.2017 Правила курса, предобработка и векторизация текстов,

применение в задаче классификации.

Презентация

Ipython ноутбук

Семинар 2 20.02.2017 Методы работы с последовательностями и прикладные задачи.

Материалы по курсу

Учебники

Speech and Language Processing. Dan Jurafsky and James H. Martin. 2-nd edition. 2009.

Natural Language Processing with Python. Stewen Bird et. al. 2-nd edition. 2016.

Juravsky, Manning - Video lectures on natural language processing.

Питон и библиотеки


Инструменты для работы с текстами

Личные инструменты