Методы анализа текстов (семинар, К.В.Воронцов)/2017-2018 год

Материал из MachineLearning.

Перейти к: навигация, поиск

Это семинары по анализу текстов, открытые для всех желающих. Цель — быть в курсе современных подходов в области обработки текста на естественном языке (Natural Language Processing, NLP). На каждом семинаре у нас будет доклад и свободное обсуждение. Особенно часто будем обсуждать тематическое моделирование и глубокие нейронные сети.

Содержание

Где и когда

Спецсеминар проводится по средам в 19.20 в Школе Анализа Данных Яндекса (ул. Тимура Фрунзе, 11к2) в аудитории Принстон.

Проход строго по спискам! Записаться нужно здесь.

А потом придти на проходную с обратной стороны Мамонтова (вот сюда) и показать паспорт.

Контакты

topicnet.slack.com — слэк для людей, которые занимаются NLP, читают статьи, делятся друг с другом ссылками на интересные посты и датасеты.

artm_dev at googlegroups.com — рассылка для студентов и аспирантов К.В. Воронцова, а также всех, кто как-то связан с проектом bigartm.org. Когда посылаете запрос на добавление, в "причине" напишите пару слов о себе.

anna.a.potapenko at gmail.com (Анна Потапенко), artems-07 at mail.ru (Артем Попов) — почты организаторов семинара, пишите с любыми вопросами (например, чтобы добавиться в слэк).

https://goo.gl/rc4grq — короткая ссылка на эту страницу.

https://drive.google.com/drive/folders/0B2cCJQ2_aOwjaHhJX2x0T3B5SFk — папка со всеми материалами с семинаров

Расписание (весна)

Семинар 21 февраля пройдет в аудитории Гарвард.

Дата Тема Докладчик Материалы
7 февраля — Как ориентироваться в NLP трендах?

— Обзор основных подходов построения диалоговых систем

— Артём Попов

— Николай Кругликов

презентация

презентация

14 февраля — Применение сегментной структуры документов в тематической модели — Николай Скачков презентация теория (первые 4 раздела)
21 февраля — Выделение мнений в коллекции новостей

— Multi-language multi-sense word embeddings

—Таснима Садекова

—Татьяна Савельева

28 февраля — Автоматический перевод естественного языка в язык SQL

— Обзор методов оценки эмбеддингов (??)

— Дарина Дементьева

— Амир Бакаров (??)

7 марта Инструменты разработки в помощь исследователю:

— Организованные исследования вне ipynotebook: граф вычислений на luigi

— Ускоряем вычисления и организуем код в стиле акторов: zeroMQ и микросервисы

— Воспроизведение результатов без боли, зачем исследователю docker и как он работает

Геннадий Штех
14 марта TBD Алексей Зобнин
21 марта TBD Анастасия Фадеева

Галина Фоминская Дарья Соболева

Расписание (осень)

Дата Тема Докладчик Материалы
16 августа Как вылезти из танка? Анна Потапенко Про Google и про ACL
30 августа Нейросетевые диалоговые системы в iPavlov

Задачи NER (РИС!) и Paraphrasing.

Михаил Бурцев и команда Три презентации, clickable :)
6 сентября Разборы статей: Google Vizier, Exploratory Search — Роман Дербаносов

— Дарья Соболева

— Анастасия Янина

Презентация про Vizier

[1], Pulp: A system for exploratory search of scientific literature

[2], Twitter-Network Topic Model: A Full Bayesian Treatment for Social Network and Text Modeling

13 сентября Вместо семинара воркшоп в вышке,

нужно зарегистрироваться

20 сентября — Как устроены рекомендательные системы

— Особенности ведения прикладных проектов

Виктор Кантор Рекомендательные системы
27 сентября — Разбор статьи StarSpace: Emded all the things!

— Как устроены вопросно-ответные системы

— Артем Попов

— Сергей Юдин

статья, презентация

Question Answering

4 октября — Проблема определения числа тем в тематических моделях.

— Термодинамический подход к результатам тематического моделирования.

— Константин Воронцов

— Сергей Кольцов

Презентация 1

Презентация 2

11 октября Ликбез с формулами: encoder-decoder architecture with attention.

Как это работает на практике: neural machine translation, summarization.

Анна Потапенко An overview of gradient descent optimization algorithms

Stronger Baselines for Trustable Results in Neural Machine Translation

18 октября — Get to the point! Summarization with pointer-generator networks

—Reinforcement learning for weak supervision in NLP

Анна Потапенко Get to the point

ACL-2017 keynotes

25 октября Workshop по BigARTM: простые и сложные примеры использования. Мурат Апишев Презентация
1 ноября Тезаурусы, лексические цепочки и тематические модели. Лукашевич Н.В. (НИВЦ МГУ) Презентация
8 ноября — Workshop по BigARTM: продолжение

— Разбор статьи про ембединги для перевода

— Мурат Апишев

— Татьяна Савельева

Презентация
15 ноября Поиск: свежесть, блендеры, поисковые подсказки Алексей Шаграев (Яндекс) Презентация
22 ноября Основы суммаризации и именования тем Арина Агеева

Презентация

29 ноября — Применение word embeddings в cross language IR

— Суммаризация и paraphrasing

— Геннадий Штех

— Анастасия Янина

Презентация

6 декабря — Задача Topic Detection and Tracking Анастасия Фадеева Презентация
13 декабря Многосмысловые векторные представления слов Артём Попов Презентация
Личные инструменты