Методы анализа текстов (семинар, К.В.Воронцов)/2017-2018 год

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Расписание)
Текущая версия (18:08, 14 сентября 2018) (править) (отменить)
 
(128 промежуточных версий не показаны.)
Строка 1: Строка 1:
-
Это семинары по анализу текстов, открытые для всех желающих. Цель - быть в курсе современных подходов в области обработки текста на естественном языке (Natural Language Processing, NLP). На каждом семинаре у нас будет доклад и свободное обсуждение. Особенно часто будем обсуждать тематическое моделирование и глубокие нейронные сети.
+
Семинары по анализу текстов, открытые для всех желающих. Цель быть в курсе современных подходов в области обработки текста на естественном языке (Natural Language Processing, NLP). На каждом семинаре у нас будет доклад и свободное обсуждение. Особенно часто будем обсуждать тематическое моделирование и глубокие нейронные сети.
-
+
-
== Где и когда ==
+
{{stop|'''Архивная страница.''' Эти семинары уже давно прошли. Будьте внимательны :)
 +
{{main|Методы анализа текстов (семинар, К.В.Воронцов)}}
 +
}}
-
Спецсеминар проводится по средам в 19.20 в Школе Анализа Данных Яндекса (ул. Тимура Фрунзе, 11к2).
+
== Контакты ==
-
Проход строго по спискам. [https://docs.google.com/spreadsheets/d/1jejbyD2XY-gO3gqSOzVyOTAn7QIZ0dfNGcC0EBsez_U/edit?usp=sharing Записаться нужно здесь]. А потом придти на проходную около шлагбаума (не главный вход в Мамонтов) и показать паспорт.
+
 +
topicnet.slack.com — слэк для людей, которые занимаются NLP, читают статьи, делятся друг с другом ссылками на интересные посты и датасеты.
 +
artm_dev at googlegroups.com — рассылка для студентов и аспирантов К.В. Воронцова, а также всех, кто как-то связан с проектом bigartm.org. Когда посылаете запрос на добавление, в "причине" напишите пару слов о себе.
-
== Контакты ==
+
anna.a.potapenko at gmail.com (Анна Потапенко), artems-07 at mail.ru (Артем Попов) — почты организаторов семинара, пишите с любыми вопросами (например, чтобы добавиться в слэк).
-
Слэк topicnet.slack.com -- тусовка людей, которые занимаются NLP, читают статьи, делятся друг с другом ссылками на интересные посты и датасеты.
+
https://goo.gl/rc4grq — короткая ссылка на эту страницу.
-
Группа artm_dev at googlegroups.com -- рассылка для студентов и аспирантов К.В. Воронцова, а также всех, кто как-то связан с проектом bigartm.org. Когда посылаете запрос на добавление, в "причине" напишите пару слов о себе.
+
https://drive.google.com/drive/folders/0B2cCJQ2_aOwjaHhJX2x0T3B5SFk — папка со всеми материалами с семинаров
-
Почта anna.a.potapenko at gmail.com -- пишите с предложениями и вопросами про семинар.
+
== Расписание (весна-2018) ==
-
== Расписание ==
+
{| class="wikitable"
 +
|-
 +
! Дата
 +
! Тема
 +
! Докладчик
 +
! Материалы
 +
|- <!-- Новая запись -->
 +
|-
 +
| 7 февраля
 +
| — Как ориентироваться в NLP трендах?
 +
— Обзор основных подходов построения диалоговых систем
 +
| — Артём Попов
 +
— Николай Кругликов
 +
| [https://drive.google.com/open?id=17fyecGxq4N7mGadOGBtaT0pILDklEJfs презентация]
 +
[https://drive.google.com/open?id=1LEOZ51mdNqQ8dUIys-FBcnfuDEiEAkT4 презентация]
 +
|- <!-- Конец записи -->
 +
|- <!-- Новая запись -->
 +
|-
 +
| 14 февраля
 +
| — Применение сегментной структуры документов в тематической модели
 +
| — Николай Скачков
 +
| [https://drive.google.com/open?id=1IiKCDcNj0Xr9Rz4kE3RB46v5Z_taJ5Vg презентация] [https://drive.google.com/open?id=1_VPVmzLQf6HdLb3zhaQ6xjfBVsm-H-2Q теория (первые 4 раздела)]
 +
|- <!-- Конец записи -->
 +
|- <!-- Новая запись -->
 +
|-
 +
| 21 февраля
 +
| — Мультиязычные эмбеддинги
 +
— Выделение мнений в коллекции новостей
 +
|— Татьяна Савельева
 +
— Таснима Садекова
 +
| [https://drive.google.com/open?id=1XsAjh1ld8Ys5bzZLqK1O4T2croqpiDu- презентация]
 +
[https://drive.google.com/open?id=1Lf-j9AnFT5BaOuRUaNoVd-IxsBkhDLYF презентация]
 +
|- <!-- Конец записи -->
 +
|- <!-- Новая запись -->
 +
|-
 +
| 28 февраля
 +
| — Автоматический перевод естественного языка в язык SQL
 +
— Обзор методов оценки эмбеддингов (и чуть-чуть про нейролингвистику)
 +
| — Дарина Дементьева
 +
— Амир Бакаров
 +
| [https://drive.google.com/open?id=1Z4MnuQ2KMEmDafNdEGVwLz3bcjjUz7qI презентация]
 +
[https://drive.google.com/open?id=1pDK8jqz5zL-Ubxa-ag7-swTE5uNugtjw презентация]
 +
|- <!-- Конец записи -->
 +
|- <!-- Новая запись -->
 +
|-
 +
| 7 марта
 +
| Инструменты разработки в помощь исследователю:
 +
— Организованные исследования вне ipynotebook: граф вычислений на luigi
 +
— Ускоряем вычисления и организуем код в стиле акторов: zeroMQ и микросервисы
 +
 +
— Воспроизведение результатов без боли, зачем исследователю docker и как он работает
 +
| Геннадий Штех
 +
|
 +
|- <!-- Конец записи -->
 +
|- <!-- Новая запись -->
 +
|-
 +
| 14 марта
 +
| Интерпретируемость компонент в векторных моделях слов
 +
| Алексей Зобнин
 +
| [https://drive.google.com/open?id=1E14sBCGLdJxTqBz-dKU9Um57a1gsy6qf презентация]
 +
|- <!-- Конец записи -->
 +
|- <!-- Новая запись -->
 +
| 21 марта
 +
| Моделирование языка в задаче построения вопросно-ответной системы
 +
| Дарья Соболева
 +
| [https://drive.google.com/open?id=1nT-Rml8dZmKqki3_7BTpDaqwHnn6w-wi презентация]
 +
|- <!-- Конец записи -->
 +
|- <!-- Новая запись -->
 +
|-
 +
| 28 марта
 +
| Вся правда об относительных коэффициентах регуляризации в ТМ
 +
| Виктор Булатов
 +
| [https://drive.google.com/open?id=19pJ21LRPeeOxY4mkcSnQCRm93zOO4J5b презентация]
 +
|- <!-- Конец записи -->
 +
|- <!-- Новая запись -->
 +
|-
 +
| 4 апреля
 +
| Отмена семинара
 +
|
 +
|
 +
|- <!-- Конец записи -->
 +
|- <!-- Новая запись -->
 +
|-
 +
| 11 апреля
 +
| — Word mover's distance для выявления семантической схожести коротких текстов
 +
— Синтаксический парсинг для русского языка: введение и лайфхаки про UDPipe
 +
| — Андрей Чернопятов
 +
— Денис Кирьянов
 +
| В рассылке и в слаке
 +
|- <!-- Конец записи -->
 +
|- <!-- Новая запись -->
 +
|-
 +
| 18 апреля
 +
| Оценка качества и улучшение иерархических ARTM моделей
 +
| Антон Белый
 +
| [https://drive.google.com/file/d/1xf-YEL-W6tmAcNYRSEp_DQldW08EzHz9/view?usp=sharing презентация]
 +
|- <!-- Конец записи -->
 +
|- <!-- Новая запись -->
 +
|-
 +
| 25 апреля
 +
| — Low-rank models for recommender systems with limited preference information
 +
— Темпоральное тематическое моделирование новостных потоков
 +
| — Евгений Фролов
 +
— Анастасия Фадеева
 +
| [https://1drv.ms/b/s!AmD2qFcSt8Mokb0WtwScJ3h5dM3lLw презентация]
 +
[https://drive.google.com/file/d/1GdeOYTalk6UNNb13Ub589QxTDIrvItHa презентация]
 +
|- <!-- Конец записи -->
 +
|- <!-- Новая запись -->
 +
|-
 +
| 2 мая
 +
|
 +
— Factorization Methods to Train Embeddings in Machine Learning Problems
 +
|
 +
— Александр Фонарёв
 +
|
 +
— [https://arxiv.org/pdf/1502.07838.pdf книга], [https://drive.google.com/open?id=17bbmaBWdowU7Ccyaf5h-pIIaIOzCzz54 слайды]
 +
 +
|- <!-- Конец записи -->
 +
|- <!-- Новая запись -->
 +
|-
 +
| 16 мая
 +
| Автоматический акцентуатор для русского языка
 +
| Екатерина Черняк
 +
|
 +
|- <!-- Конец записи -->
 +
|}
 +
== Расписание (осень-2017) ==
{| class="wikitable"
{| class="wikitable"
Строка 27: Строка 155:
! Докладчик
! Докладчик
! Материалы
! Материалы
 +
|-
 +
| 16 августа
 +
| Как вылезти из танка?
 +
| Анна Потапенко
 +
|[https://drive.google.com/open?id=0B2cCJQ2_aOwjUmFnRko2QjRGelE Про Google и про ACL]
|-
|-
| 30 августа
| 30 августа
Строка 36: Строка 169:
| 6 сентября
| 6 сентября
| Разборы статей: Google Vizier, Exploratory Search
| Разборы статей: Google Vizier, Exploratory Search
-
| Роман Дербаносов, Дарья Соболева, Анастасия Янина
+
| Роман Дербаносов
 +
Дарья Соболева
 +
 
 +
Анастасия Янина
|[https://drive.google.com/file/d/0B2cCJQ2_aOwjYW9USTNkTVZ1LW8/view?usp=sharing Презентация про Vizier]
|[https://drive.google.com/file/d/0B2cCJQ2_aOwjYW9USTNkTVZ1LW8/view?usp=sharing Презентация про Vizier]
[https://scholar.google.ru/citations?view_op=view_citation&hl=ru&user=J2pGGuAAAAAJ&sortby=pubdate&citation_for_view=J2pGGuAAAAAJ:i2xiXl-TujoC], Pulp: A system for exploratory search of scientific literature
[https://scholar.google.ru/citations?view_op=view_citation&hl=ru&user=J2pGGuAAAAAJ&sortby=pubdate&citation_for_view=J2pGGuAAAAAJ:i2xiXl-TujoC], Pulp: A system for exploratory search of scientific literature
Строка 49: Строка 185:
|-
|-
| 20 сентября
| 20 сентября
-
| — Как в Яндексе устроены рекомендательные системы
+
|Как устроены рекомендательные системы
-
— Особенности прикладного анализа данных и ведения проектов в YDF
+
— Особенности ведения прикладных проектов
| Виктор Кантор
| Виктор Кантор
-
|
+
| [https://drive.google.com/file/d/0B2cCJQ2_aOwjZ3NUNGxXY3l3TUU/view?usp=sharing Рекомендательные системы]
 +
|-
 +
| 27 сентября
 +
| — Разбор статьи StarSpace: Emded all the things!
 +
— Как устроены вопросно-ответные системы
 +
|— Артем Попов
 +
— Сергей Юдин
 +
| [https://arxiv.org/abs/1709.03856 статья], [https://drive.google.com/open?id=0B2cCJQ2_aOwjd01ucjM3X0hHU2M презентация]
 +
[https://drive.google.com/open?id=0B2cCJQ2_aOwjcXJ6ZUhnSjJYcms Question Answering]
 +
|-
 +
| 4 октября
 +
|— Проблема определения числа тем в тематических моделях.
 +
— Термодинамический подход к результатам тематического моделирования.
 +
|— Константин Воронцов
 +
— Сергей Кольцов
 +
| [https://drive.google.com/open?id=0B2cCJQ2_aOwjZ3BoNnN6T3QtY3M Презентация 1]
 +
[https://drive.google.com/open?id=0B2cCJQ2_aOwjWHhtTEJ0eWp5UEE Презентация 2]
|-
|-
-
| ???
+
| 11 октября
-
| Ликбез: AdaGrad, AdaDelta, RMSProp, Adam…
+
| Ликбез с формулами: encoder-decoder architecture with attention.
-
Нейросетевые бейзлайны в машинном переводе (статья c ACL-2017)
+
Как это работает на практике: neural machine translation, summarization.
| Анна Потапенко
| Анна Потапенко
| [http://ruder.io/optimizing-gradient-descent/ An overview of gradient descent optimization algorithms]
| [http://ruder.io/optimizing-gradient-descent/ An overview of gradient descent optimization algorithms]
[http://aclweb.org/anthology/W/W17/W17-3203.pdf Stronger Baselines for Trustable Results in Neural Machine Translation]
[http://aclweb.org/anthology/W/W17/W17-3203.pdf Stronger Baselines for Trustable Results in Neural Machine Translation]
|-
|-
-
| ???
+
| 18 октября
-
| Word embeddings (обзор статей Aurora, статей с ACL-2017 и гибридов с тематическим моделированием)
+
| — Get to the point! Summarization with pointer-generator networks
-
| Никита Шаповалов, Артем Попов
+
—Reinforcement learning for weak supervision in NLP
-
|
+
| Анна Потапенко
 +
| [https://drive.google.com/open?id=0B2cCJQ2_aOwjdUNyRG5NbkRFdnc Get to the point]
 +
[https://drive.google.com/open?id=0B2cCJQ2_aOwjMlg5MnFjTEpBNG8 ACL-2017 keynotes]
|-
|-
 +
| 25 октября
 +
| Workshop по BigARTM: простые и сложные примеры использования.
 +
| Мурат Апишев
 +
| [https://drive.google.com/open?id=0B2cCJQ2_aOwjRVR3Q09FQWxVdlU Презентация]
 +
|-
 +
| 1 ноября
 +
| Тезаурусы, лексические цепочки и тематические модели.
 +
| Лукашевич Н.В. (НИВЦ МГУ)
 +
| [https://drive.google.com/open?id=0B2cCJQ2_aOwjLUVrM282SG5iLTg Презентация]
 +
|-
 +
| 8 ноября
 +
| — Workshop по BigARTM: продолжение
 +
— Разбор [https://arxiv.org/pdf/1710.04087.pdf статьи про ембединги для перевода]
 +
| — Мурат Апишев
 +
— Татьяна Савельева
 +
| [https://drive.google.com/file/d/1ILRTb8f9lWoZtkigqgJKuaKg4ciMtlmF/view?usp=sharing Презентация]
 +
|- <!-- Новая запись -->
 +
|-
 +
| 15 ноября
 +
| Поиск: свежесть, блендеры, поисковые подсказки
 +
| Алексей Шаграев (Яндекс)
 +
| [https://drive.google.com/file/d/1jRefai7G8f6xVAh95eComoeHQpgqgVC7/view?usp=sharing Презентация]
 +
|- <!-- Конец записи -->
 +
|- <!-- Новая запись -->
 +
|-
 +
| 22 ноября
 +
| Основы суммаризации и именования тем
 +
|Арина Агеева
 +
|
 +
[https://drive.google.com/file/d/1aWUrWy8A4k-hz1IFa1eWihA16dja6ZJn/view?usp=sharing Презентация]
 +
|- <!-- Конец записи -->
 +
|- <!-- Новая запись -->
 +
|-
 +
| 29 ноября
 +
| — Применение word embeddings в cross language IR
 +
— Суммаризация и paraphrasing
 +
| — Геннадий Штех
 +
— Анастасия Янина
 +
|— [https://drive.google.com/file/d/10XC6q_tmKJgucAgrTKxYd9DPcxdCzhcn/view?usp=sharing Презентация]
 +
 +
|- <!-- Конец записи -->
 +
|- <!-- Новая запись -->
 +
|-
 +
| 6 декабря
 +
|— Задача Topic Detection and Tracking
 +
|Анастасия Фадеева
 +
|[https://drive.google.com/file/d/18Vl5bI0Kfsgmkv7hmUk8Z-IvCWqDhkCG/view?usp=sharing Презентация]
 +
|- <!-- Конец записи -->
 +
|- <!-- Новая запись -->
 +
|-
 +
| 13 декабря
 +
| Многосмысловые векторные представления слов
 +
| Артём Попов
 +
| [https://drive.google.com/file/d/1AKsghJcpmogZ5c79FU8lmv3RYjxCwYc3/view?usp=sharing Презентация]
 +
|- <!-- Конец записи -->
|}
|}
-
 
-
 
[[Категория:Учебные курсы]]
[[Категория:Учебные курсы]]

Текущая версия

Семинары по анализу текстов, открытые для всех желающих. Цель — быть в курсе современных подходов в области обработки текста на естественном языке (Natural Language Processing, NLP). На каждом семинаре у нас будет доклад и свободное обсуждение. Особенно часто будем обсуждать тематическое моделирование и глубокие нейронные сети.


Архивная страница. Эти семинары уже давно прошли. Будьте внимательны :)


Контакты

topicnet.slack.com — слэк для людей, которые занимаются NLP, читают статьи, делятся друг с другом ссылками на интересные посты и датасеты.

artm_dev at googlegroups.com — рассылка для студентов и аспирантов К.В. Воронцова, а также всех, кто как-то связан с проектом bigartm.org. Когда посылаете запрос на добавление, в "причине" напишите пару слов о себе.

anna.a.potapenko at gmail.com (Анна Потапенко), artems-07 at mail.ru (Артем Попов) — почты организаторов семинара, пишите с любыми вопросами (например, чтобы добавиться в слэк).

https://goo.gl/rc4grq — короткая ссылка на эту страницу.

https://drive.google.com/drive/folders/0B2cCJQ2_aOwjaHhJX2x0T3B5SFk — папка со всеми материалами с семинаров

Расписание (весна-2018)

Дата Тема Докладчик Материалы
7 февраля — Как ориентироваться в NLP трендах?

— Обзор основных подходов построения диалоговых систем

— Артём Попов

— Николай Кругликов

презентация

презентация

14 февраля — Применение сегментной структуры документов в тематической модели — Николай Скачков презентация теория (первые 4 раздела)
21 февраля — Мультиязычные эмбеддинги

— Выделение мнений в коллекции новостей

— Татьяна Савельева

— Таснима Садекова

презентация

презентация

28 февраля — Автоматический перевод естественного языка в язык SQL

— Обзор методов оценки эмбеддингов (и чуть-чуть про нейролингвистику)

— Дарина Дементьева

— Амир Бакаров

презентация

презентация

7 марта Инструменты разработки в помощь исследователю:

— Организованные исследования вне ipynotebook: граф вычислений на luigi

— Ускоряем вычисления и организуем код в стиле акторов: zeroMQ и микросервисы

— Воспроизведение результатов без боли, зачем исследователю docker и как он работает

Геннадий Штех
14 марта Интерпретируемость компонент в векторных моделях слов Алексей Зобнин презентация
21 марта Моделирование языка в задаче построения вопросно-ответной системы Дарья Соболева презентация
28 марта Вся правда об относительных коэффициентах регуляризации в ТМ Виктор Булатов презентация
4 апреля Отмена семинара
11 апреля — Word mover's distance для выявления семантической схожести коротких текстов

— Синтаксический парсинг для русского языка: введение и лайфхаки про UDPipe

— Андрей Чернопятов

— Денис Кирьянов

В рассылке и в слаке
18 апреля Оценка качества и улучшение иерархических ARTM моделей Антон Белый презентация
25 апреля — Low-rank models for recommender systems with limited preference information

— Темпоральное тематическое моделирование новостных потоков

— Евгений Фролов

— Анастасия Фадеева

презентация

презентация

2 мая

— Factorization Methods to Train Embeddings in Machine Learning Problems

— Александр Фонарёв

книга, слайды

16 мая Автоматический акцентуатор для русского языка Екатерина Черняк

Расписание (осень-2017)

Дата Тема Докладчик Материалы
16 августа Как вылезти из танка? Анна Потапенко Про Google и про ACL
30 августа Нейросетевые диалоговые системы в iPavlov

Задачи NER (РИС!) и Paraphrasing.

Михаил Бурцев и команда Три презентации, clickable :)
6 сентября Разборы статей: Google Vizier, Exploratory Search — Роман Дербаносов

— Дарья Соболева

— Анастасия Янина

Презентация про Vizier

[1], Pulp: A system for exploratory search of scientific literature

[2], Twitter-Network Topic Model: A Full Bayesian Treatment for Social Network and Text Modeling

13 сентября Вместо семинара воркшоп в вышке,

нужно зарегистрироваться

20 сентября — Как устроены рекомендательные системы

— Особенности ведения прикладных проектов

Виктор Кантор Рекомендательные системы
27 сентября — Разбор статьи StarSpace: Emded all the things!

— Как устроены вопросно-ответные системы

— Артем Попов

— Сергей Юдин

статья, презентация

Question Answering

4 октября — Проблема определения числа тем в тематических моделях.

— Термодинамический подход к результатам тематического моделирования.

— Константин Воронцов

— Сергей Кольцов

Презентация 1

Презентация 2

11 октября Ликбез с формулами: encoder-decoder architecture with attention.

Как это работает на практике: neural machine translation, summarization.

Анна Потапенко An overview of gradient descent optimization algorithms

Stronger Baselines for Trustable Results in Neural Machine Translation

18 октября — Get to the point! Summarization with pointer-generator networks

—Reinforcement learning for weak supervision in NLP

Анна Потапенко Get to the point

ACL-2017 keynotes

25 октября Workshop по BigARTM: простые и сложные примеры использования. Мурат Апишев Презентация
1 ноября Тезаурусы, лексические цепочки и тематические модели. Лукашевич Н.В. (НИВЦ МГУ) Презентация
8 ноября — Workshop по BigARTM: продолжение

— Разбор статьи про ембединги для перевода

— Мурат Апишев

— Татьяна Савельева

Презентация
15 ноября Поиск: свежесть, блендеры, поисковые подсказки Алексей Шаграев (Яндекс) Презентация
22 ноября Основы суммаризации и именования тем Арина Агеева

Презентация

29 ноября — Применение word embeddings в cross language IR

— Суммаризация и paraphrasing

— Геннадий Штех

— Анастасия Янина

Презентация

6 декабря — Задача Topic Detection and Tracking Анастасия Фадеева Презентация
13 декабря Многосмысловые векторные представления слов Артём Попов Презентация
Личные инструменты