Методы анализа текстов (семинар, К.В.Воронцов)/2017-2018 год

Материал из MachineLearning.

Перейти к: навигация, поиск

Это семинары по анализу текстов, открытые для всех желающих. Цель — быть в курсе современных подходов в области обработки текста на естественном языке (Natural Language Processing, NLP). На каждом семинаре у нас будет доклад и свободное обсуждение. Особенно часто будем обсуждать тематическое моделирование и глубокие нейронные сети.

Содержание

Где и когда

Спецсеминар проводится по средам в 19.20 в Школе Анализа Данных Яндекса (ул. Тимура Фрунзе, 11к2) в аудитории Гарвард.

Проход строго по спискам! Записаться нужно здесь.

А потом придти на проходную с обратной стороны Мамонтова (вот сюда) и показать паспорт.

Контакты

topicnet.slack.com — слэк для людей, которые занимаются NLP, читают статьи, делятся друг с другом ссылками на интересные посты и датасеты.

artm_dev at googlegroups.com — рассылка для студентов и аспирантов К.В. Воронцова, а также всех, кто как-то связан с проектом bigartm.org. Когда посылаете запрос на добавление, в "причине" напишите пару слов о себе.

anna.a.potapenko at gmail.com (Анна Потапенко), artems-07 at mail.ru (Артем Попов) — почты организаторов семинара, пишите с любыми вопросами (например, чтобы добавиться в слэк).

https://goo.gl/rc4grq — короткая ссылка на эту страницу.

https://drive.google.com/drive/folders/0B2cCJQ2_aOwjaHhJX2x0T3B5SFk — папка со всеми материалами с семинаров

Расписание (весна)

Дата Тема Докладчик Материалы
7 февраля — Как ориентироваться в NLP трендах?

— Обзор основных подходов построения диалоговых систем

— Артём Попов

— Николай Кругликов

презентация

презентация

14 февраля — Применение сегментной структуры документов в тематической модели — Николай Скачков презентация теория (первые 4 раздела)
21 февраля — Мультиязычные эмбеддинги

— Выделение мнений в коллекции новостей

— Татьяна Савельева

— Таснима Садекова

презентация

презентация

28 февраля — Автоматический перевод естественного языка в язык SQL

— Обзор методов оценки эмбеддингов (и чуть-чуть про нейролингвистику)

— Дарина Дементьева

— Амир Бакаров

презентация

презентация

7 марта Инструменты разработки в помощь исследователю:

— Организованные исследования вне ipynotebook: граф вычислений на luigi

— Ускоряем вычисления и организуем код в стиле акторов: zeroMQ и микросервисы

— Воспроизведение результатов без боли, зачем исследователю docker и как он работает

Геннадий Штех
14 марта Интерпретируемость компонент в векторных моделях слов Алексей Зобнин презентация
21 марта Моделирование языка в задаче построения вопросно-ответной системы Дарья Соболева презентация
28 марта Вся правда об относительных коэффициентах регуляризации в ТМ Виктор Булатов презентация
4 апреля ОТМЕНА СЕМИНАРА
11 апреля — Word mover's distance для выявления семантической схожести коротких текстов

— Синтаксический парсинг для русского языка: введение и лайфхаки про UDPipe

— Андрей Чернопятов

— Денис Кирьянов

18 апреля Оценка качества и улучшение иерархических ARTM моделей Антон Белый
25 апреля Автоматический акцентуатор для русского языка Екатерина Черняк
16 мая — Темпоральное тематическое моделирование новостных потоков

— Обнаружение новых событий в новостном потоке

— Анастасия Фадеева

— Владислав Амелин

Расписание (осень)

Дата Тема Докладчик Материалы
16 августа Как вылезти из танка? Анна Потапенко Про Google и про ACL
30 августа Нейросетевые диалоговые системы в iPavlov

Задачи NER (РИС!) и Paraphrasing.

Михаил Бурцев и команда Три презентации, clickable :)
6 сентября Разборы статей: Google Vizier, Exploratory Search — Роман Дербаносов

— Дарья Соболева

— Анастасия Янина

Презентация про Vizier

[1], Pulp: A system for exploratory search of scientific literature

[2], Twitter-Network Topic Model: A Full Bayesian Treatment for Social Network and Text Modeling

13 сентября Вместо семинара воркшоп в вышке,

нужно зарегистрироваться

20 сентября — Как устроены рекомендательные системы

— Особенности ведения прикладных проектов

Виктор Кантор Рекомендательные системы
27 сентября — Разбор статьи StarSpace: Emded all the things!

— Как устроены вопросно-ответные системы

— Артем Попов

— Сергей Юдин

статья, презентация

Question Answering

4 октября — Проблема определения числа тем в тематических моделях.

— Термодинамический подход к результатам тематического моделирования.

— Константин Воронцов

— Сергей Кольцов

Презентация 1

Презентация 2

11 октября Ликбез с формулами: encoder-decoder architecture with attention.

Как это работает на практике: neural machine translation, summarization.

Анна Потапенко An overview of gradient descent optimization algorithms

Stronger Baselines for Trustable Results in Neural Machine Translation

18 октября — Get to the point! Summarization with pointer-generator networks

—Reinforcement learning for weak supervision in NLP

Анна Потапенко Get to the point

ACL-2017 keynotes

25 октября Workshop по BigARTM: простые и сложные примеры использования. Мурат Апишев Презентация
1 ноября Тезаурусы, лексические цепочки и тематические модели. Лукашевич Н.В. (НИВЦ МГУ) Презентация
8 ноября — Workshop по BigARTM: продолжение

— Разбор статьи про ембединги для перевода

— Мурат Апишев

— Татьяна Савельева

Презентация
15 ноября Поиск: свежесть, блендеры, поисковые подсказки Алексей Шаграев (Яндекс) Презентация
22 ноября Основы суммаризации и именования тем Арина Агеева

Презентация

29 ноября — Применение word embeddings в cross language IR

— Суммаризация и paraphrasing

— Геннадий Штех

— Анастасия Янина

Презентация

6 декабря — Задача Topic Detection and Tracking Анастасия Фадеева Презентация
13 декабря Многосмысловые векторные представления слов Артём Попов Презентация
Личные инструменты