Методы анализа текстов (семинар, К.В.Воронцов)/2017-2018 год
Материал из MachineLearning.
Это семинары по анализу текстов, открытые для всех желающих. Цель — быть в курсе современных подходов в области обработки текста на естественном языке (Natural Language Processing, NLP). На каждом семинаре у нас будет доклад и свободное обсуждение. Особенно часто будем обсуждать тематическое моделирование и глубокие нейронные сети.
Содержание |
Где и когда
Спецсеминар проводится по средам в 19.20 в Школе Анализа Данных Яндекса (ул. Тимура Фрунзе, 11к2) в аудитории Принстон.
Проход строго по спискам! Записаться нужно здесь.
А потом придти на проходную с обратной стороны Мамонтова (вот сюда) и показать паспорт.
Контакты
topicnet.slack.com — слэк для людей, которые занимаются NLP, читают статьи, делятся друг с другом ссылками на интересные посты и датасеты.
artm_dev at googlegroups.com — рассылка для студентов и аспирантов К.В. Воронцова, а также всех, кто как-то связан с проектом bigartm.org. Когда посылаете запрос на добавление, в "причине" напишите пару слов о себе.
anna.a.potapenko at gmail.com (Анна Потапенко), artems-07 at mail.ru (Артем Попов) — почты организаторов семинара, пишите с любыми вопросами (например, чтобы добавиться в слэк).
https://goo.gl/rc4grq — короткая ссылка на эту страницу.
https://drive.google.com/drive/folders/0B2cCJQ2_aOwjaHhJX2x0T3B5SFk — папка со всеми материалами с семинаров
Расписание (весна)
Семинар 21 февраля пройдет в аудитории Гарвард.
Дата | Тема | Докладчик | Материалы |
---|---|---|---|
7 февраля | — Как ориентироваться в NLP трендах?
— Обзор основных подходов построения диалоговых систем | — Артём Попов
— Николай Кругликов | — презентация |
14 февраля | — Применение сегментной структуры документов в тематической модели | — Николай Скачков | — презентация теория (первые 4 раздела) |
21 февраля | — Выделение мнений в коллекции новостей
— Multi-language multi-sense word embeddings | —Таснима Садекова
—Татьяна Савельева | |
28 февраля | — Автоматический перевод естественного языка в язык SQL
— Обзор методов оценки эмбеддингов (??) | — Дарина Дементьева
— Амир Бакаров (??) | |
7 марта | Инструменты разработки в помощь исследователю:
— Организованные исследования вне ipynotebook: граф вычислений на luigi — Ускоряем вычисления и организуем код в стиле акторов: zeroMQ и микросервисы — Воспроизведение результатов без боли, зачем исследователю docker и как он работает | Геннадий Штех | |
14 марта | TBD | Алексей Зобнин | |
21 марта | TBD | Анастасия Фадеева
Галина Фоминская Дарья Соболева |
Расписание (осень)
Дата | Тема | Докладчик | Материалы |
---|---|---|---|
16 августа | Как вылезти из танка? | Анна Потапенко | Про Google и про ACL |
30 августа | Нейросетевые диалоговые системы в iPavlov
Задачи NER (РИС!) и Paraphrasing. | Михаил Бурцев и команда | Три презентации, clickable :) |
6 сентября | Разборы статей: Google Vizier, Exploratory Search | — Роман Дербаносов
— Дарья Соболева — Анастасия Янина | Презентация про Vizier
[1], Pulp: A system for exploratory search of scientific literature [2], Twitter-Network Topic Model: A Full Bayesian Treatment for Social Network and Text Modeling |
13 сентября | Вместо семинара воркшоп в вышке,
нужно зарегистрироваться | ||
20 сентября | — Как устроены рекомендательные системы
— Особенности ведения прикладных проектов | Виктор Кантор | Рекомендательные системы |
27 сентября | — Разбор статьи StarSpace: Emded all the things!
— Как устроены вопросно-ответные системы | — Артем Попов
— Сергей Юдин | статья, презентация |
4 октября | — Проблема определения числа тем в тематических моделях.
— Термодинамический подход к результатам тематического моделирования. | — Константин Воронцов
— Сергей Кольцов | Презентация 1 |
11 октября | Ликбез с формулами: encoder-decoder architecture with attention.
Как это работает на практике: neural machine translation, summarization. | Анна Потапенко | An overview of gradient descent optimization algorithms
Stronger Baselines for Trustable Results in Neural Machine Translation |
18 октября | — Get to the point! Summarization with pointer-generator networks
—Reinforcement learning for weak supervision in NLP | Анна Потапенко | Get to the point |
25 октября | Workshop по BigARTM: простые и сложные примеры использования. | Мурат Апишев | Презентация |
1 ноября | Тезаурусы, лексические цепочки и тематические модели. | Лукашевич Н.В. (НИВЦ МГУ) | Презентация |
8 ноября | — Workshop по BigARTM: продолжение
— Разбор статьи про ембединги для перевода | — Мурат Апишев
— Татьяна Савельева | Презентация |
15 ноября | Поиск: свежесть, блендеры, поисковые подсказки | Алексей Шаграев (Яндекс) | Презентация |
22 ноября | Основы суммаризации и именования тем | Арина Агеева | |
29 ноября | — Применение word embeddings в cross language IR
— Суммаризация и paraphrasing | — Геннадий Штех
— Анастасия Янина | — Презентация
— |
6 декабря | — Задача Topic Detection and Tracking | Анастасия Фадеева | Презентация |
13 декабря | Многосмысловые векторные представления слов | Артём Попов | Презентация |