Методы анализа текстов (семинар, К.В.Воронцов)/2017-2018 год

Материал из MachineLearning.

(Различия между версиями)

Текущая версия

Семинары по анализу текстов, открытые для всех желающих. Цель — быть в курсе современных подходов в области обработки текста на естественном языке (Natural Language Processing, NLP). На каждом семинаре у нас будет доклад и свободное обсуждение. Особенно часто будем обсуждать тематическое моделирование и глубокие нейронные сети.

Архивная страница. Эти семинары уже давно прошли. Будьте внимательны :)

Основная статья: Методы анализа текстов (семинар, К.В.Воронцов)

Контакты

topicnet.slack.com — слэк для людей, которые занимаются NLP, читают статьи, делятся друг с другом ссылками на интересные посты и датасеты.

artm_dev at googlegroups.com — рассылка для студентов и аспирантов К.В. Воронцова, а также всех, кто как-то связан с проектом bigartm.org. Когда посылаете запрос на добавление, в "причине" напишите пару слов о себе.

anna.a.potapenko at gmail.com (Анна Потапенко), artems-07 at mail.ru (Артем Попов) — почты организаторов семинара, пишите с любыми вопросами (например, чтобы добавиться в слэк).

https://goo.gl/rc4grq — короткая ссылка на эту страницу.

https://drive.google.com/drive/folders/0B2cCJQ2_aOwjaHhJX2x0T3B5SFk — папка со всеми материалами с семинаров

Расписание (весна-2018)

Дата	Тема	Докладчик	Материалы
7 февраля	— Как ориентироваться в NLP трендах? — Обзор основных подходов построения диалоговых систем	— Артём Попов — Николай Кругликов	презентация презентация
14 февраля	— Применение сегментной структуры документов в тематической модели	— Николай Скачков	презентация теория (первые 4 раздела)
21 февраля	— Мультиязычные эмбеддинги — Выделение мнений в коллекции новостей	— Татьяна Савельева — Таснима Садекова	презентация презентация
28 февраля	— Автоматический перевод естественного языка в язык SQL — Обзор методов оценки эмбеддингов (и чуть-чуть про нейролингвистику)	— Дарина Дементьева — Амир Бакаров	презентация презентация
7 марта	Инструменты разработки в помощь исследователю: — Организованные исследования вне ipynotebook: граф вычислений на luigi — Ускоряем вычисления и организуем код в стиле акторов: zeroMQ и микросервисы — Воспроизведение результатов без боли, зачем исследователю docker и как он работает	Геннадий Штех
14 марта	Интерпретируемость компонент в векторных моделях слов	Алексей Зобнин	презентация
21 марта	Моделирование языка в задаче построения вопросно-ответной системы	Дарья Соболева	презентация
28 марта	Вся правда об относительных коэффициентах регуляризации в ТМ	Виктор Булатов	презентация
4 апреля	Отмена семинара
11 апреля	— Word mover's distance для выявления семантической схожести коротких текстов — Синтаксический парсинг для русского языка: введение и лайфхаки про UDPipe	— Андрей Чернопятов — Денис Кирьянов	В рассылке и в слаке
18 апреля	Оценка качества и улучшение иерархических ARTM моделей	Антон Белый	презентация
25 апреля	— Low-rank models for recommender systems with limited preference information — Темпоральное тематическое моделирование новостных потоков	— Евгений Фролов — Анастасия Фадеева	презентация презентация
2 мая	— Factorization Methods to Train Embeddings in Machine Learning Problems	— Александр Фонарёв	— книга, слайды
16 мая	Автоматический акцентуатор для русского языка	Екатерина Черняк

Расписание (осень-2017)

Дата	Тема	Докладчик	Материалы
16 августа	Как вылезти из танка?	Анна Потапенко	Про Google и про ACL
30 августа	Нейросетевые диалоговые системы в iPavlov Задачи NER (РИС!) и Paraphrasing.	Михаил Бурцев и команда	Три презентации, clickable :)
6 сентября	Разборы статей: Google Vizier, Exploratory Search	— Роман Дербаносов — Дарья Соболева — Анастасия Янина	Презентация про Vizier [1], Pulp: A system for exploratory search of scientific literature [2], Twitter-Network Topic Model: A Full Bayesian Treatment for Social Network and Text Modeling
13 сентября	Вместо семинара воркшоп в вышке, нужно зарегистрироваться
20 сентября	— Как устроены рекомендательные системы — Особенности ведения прикладных проектов	Виктор Кантор	Рекомендательные системы
27 сентября	— Разбор статьи StarSpace: Emded all the things! — Как устроены вопросно-ответные системы	— Артем Попов — Сергей Юдин	статья, презентация Question Answering
4 октября	— Проблема определения числа тем в тематических моделях. — Термодинамический подход к результатам тематического моделирования.	— Константин Воронцов — Сергей Кольцов	Презентация 1 Презентация 2
11 октября	Ликбез с формулами: encoder-decoder architecture with attention. Как это работает на практике: neural machine translation, summarization.	Анна Потапенко	An overview of gradient descent optimization algorithms Stronger Baselines for Trustable Results in Neural Machine Translation
18 октября	— Get to the point! Summarization with pointer-generator networks —Reinforcement learning for weak supervision in NLP	Анна Потапенко	Get to the point ACL-2017 keynotes
25 октября	Workshop по BigARTM: простые и сложные примеры использования.	Мурат Апишев	Презентация
1 ноября	Тезаурусы, лексические цепочки и тематические модели.	Лукашевич Н.В. (НИВЦ МГУ)	Презентация
8 ноября	— Workshop по BigARTM: продолжение — Разбор статьи про ембединги для перевода	— Мурат Апишев — Татьяна Савельева	Презентация
15 ноября	Поиск: свежесть, блендеры, поисковые подсказки	Алексей Шаграев (Яндекс)	Презентация
22 ноября	Основы суммаризации и именования тем	Арина Агеева	Презентация
29 ноября	— Применение word embeddings в cross language IR — Суммаризация и paraphrasing	— Геннадий Штех — Анастасия Янина	— Презентация —
6 декабря	— Задача Topic Detection and Tracking	Анастасия Фадеева	Презентация
13 декабря	Многосмысловые векторные представления слов	Артём Попов	Презентация

Источник — «http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%BE%D0%B2_%28%D1%81%D0%B5%D0%BC%D0%B8%D0%BD%D0%B0%D1%80%2C_%D0%9A.%D0%92.%D0%92%D0%BE%D1%80%D0%BE%D0%BD%D1%86%D0%BE%D0%B2%29/2017-2018_%D0%B3%D0%BE%D0%B4»

Категория: Учебные курсы

@@ Строка 1: / Строка 1: @@
-Это семинары по анализу текстов, открытые для всех желающих. Цель — быть в курсе современных подходов в области обработки текста на естественном языке (Natural Language Processing, NLP). На каждом семинаре у нас будет доклад и свободное обсуждение. Особенно часто будем обсуждать тематическое моделирование и глубокие нейронные сети.
+Семинары по анализу текстов, открытые для всех желающих. Цель — быть в курсе современных подходов в области обработки текста на естественном языке (Natural Language Processing, NLP). На каждом семинаре у нас будет доклад и свободное обсуждение. Особенно часто будем обсуждать тематическое моделирование и глубокие нейронные сети.
-== Где и когда ==
+{{stop|'''Архивная страница.''' Эти семинары уже давно прошли. Будьте внимательны :)
-Спецсеминар проводится по средам в 19.20 в Школе Анализа Данных Яндекса (ул. Тимура Фрунзе, 11к2) в аудитории '''Гарвард'''.
+   {{main|Методы анализа текстов (семинар, К.В.Воронцов)}}
+}}
-Проход строго по спискам! [https://docs.google.com/spreadsheets/d/1jejbyD2XY-gO3gqSOzVyOTAn7QIZ0dfNGcC0EBsez_U/edit?usp=sharing  Записаться нужно здесь].
-А потом придти на проходную с обратной стороны Мамонтова ([https://drive.google.com/open?id=0B2cCJQ2_aOwjbWljemlzMjZDckk вот сюда]) и показать паспорт.
 == Контакты ==
@@ Строка 20: / Строка 17: @@
 https://drive.google.com/drive/folders/0B2cCJQ2_aOwjaHhJX2x0T3B5SFk — папка со всеми материалами с семинаров
-== Расписание (весна) ==
+== Расписание (весна-2018) ==
 {| class="wikitable"
@@ Строка 37: / Строка 32: @@
 | — Артём Попов
 — Николай Кругликов
-| — [https://drive.google.com/open?id=17fyecGxq4N7mGadOGBtaT0pILDklEJfs презентация]
+| [https://drive.google.com/open?id=17fyecGxq4N7mGadOGBtaT0pILDklEJfs презентация]
-— [https://drive.google.com/open?id=1LEOZ51mdNqQ8dUIys-FBcnfuDEiEAkT4 презентация]
+[https://drive.google.com/open?id=1LEOZ51mdNqQ8dUIys-FBcnfuDEiEAkT4 презентация]
 |- <!-- Конец записи -->
 |- <!-- Новая запись -->
@@ Строка 45: / Строка 40: @@
 | — Применение сегментной структуры документов в тематической модели
 | — Николай Скачков
-| — [https://drive.google.com/open?id=1IiKCDcNj0Xr9Rz4kE3RB46v5Z_taJ5Vg презентация] [https://drive.google.com/open?id=1_VPVmzLQf6HdLb3zhaQ6xjfBVsm-H-2Q теория (первые 4 раздела)]
+| [https://drive.google.com/open?id=1IiKCDcNj0Xr9Rz4kE3RB46v5Z_taJ5Vg презентация] [https://drive.google.com/open?id=1_VPVmzLQf6HdLb3zhaQ6xjfBVsm-H-2Q теория (первые 4 раздела)]
 |- <!-- Конец записи -->
 |- <!-- Новая запись -->
@@ Строка 54: / Строка 49: @@
 |— Татьяна Савельева
 — Таснима Садекова
-| — [https://drive.google.com/open?id=1XsAjh1ld8Ys5bzZLqK1O4T2croqpiDu- презентация]
+| [https://drive.google.com/open?id=1XsAjh1ld8Ys5bzZLqK1O4T2croqpiDu- презентация]
-— [https://drive.google.com/open?id=1Lf-j9AnFT5BaOuRUaNoVd-IxsBkhDLYF презентация]
+[https://drive.google.com/open?id=1Lf-j9AnFT5BaOuRUaNoVd-IxsBkhDLYF презентация]
 |- <!-- Конец записи -->
 |- <!-- Новая запись -->
@@ Строка 64: / Строка 59: @@
 | — Дарина Дементьева
 — Амир Бакаров
-| — [https://drive.google.com/open?id=1Z4MnuQ2KMEmDafNdEGVwLz3bcjjUz7qI презентация]
+| [https://drive.google.com/open?id=1Z4MnuQ2KMEmDafNdEGVwLz3bcjjUz7qI презентация]
-— [https://drive.google.com/open?id=1pDK8jqz5zL-Ubxa-ag7-swTE5uNugtjw презентация]
+[https://drive.google.com/open?id=1pDK8jqz5zL-Ubxa-ag7-swTE5uNugtjw презентация]
 |- <!-- Конец записи -->
 |- <!-- Новая запись -->
@@ Строка 113: / Строка 108: @@
 | — Андрей Чернопятов
 — Денис Кирьянов
-|
+| В рассылке и в слаке
 |- <!-- Конец записи -->
 |- <!-- Новая запись -->
@@ Строка 120: / Строка 115: @@
 |  Оценка качества и улучшение иерархических ARTM моделей
 |  Антон Белый
+| [https://drive.google.com/file/d/1xf-YEL-W6tmAcNYRSEp_DQldW08EzHz9/view?usp=sharing презентация]
 |- <!-- Конец записи -->
 |- <!-- Новая запись -->
@@ Строка 128: / Строка 124: @@
 |  — Евгений Фролов
 — Анастасия Фадеева
-|
+| [https://1drv.ms/b/s!AmD2qFcSt8Mokb0WtwScJ3h5dM3lLw презентация]
+[https://drive.google.com/file/d/1GdeOYTalk6UNNb13Ub589QxTDIrvItHa презентация]
 |- <!-- Конец записи -->
 |- <!-- Новая запись -->
 |-
-| 16 мая
+| 2 мая
-|  Автоматический акцентуатор для русского языка
-|  Екатерина Черняк
 |
+— Factorization Methods to Train Embeddings in Machine Learning Problems
+|
+— Александр Фонарёв
+|
+— [https://arxiv.org/pdf/1502.07838.pdf книга], [https://drive.google.com/open?id=17bbmaBWdowU7Ccyaf5h-pIIaIOzCzz54 слайды]
 |- <!-- Конец записи -->
 |- <!-- Новая запись -->
 |-
-| 23 мая
+| 16 мая
-|
+|  Автоматический акцентуатор для русского языка
-— Обнаружение новых событий в новостном потоке
+|  Екатерина Черняк
-|
-— Владислав Амелин
 |
 |- <!-- Конец записи -->
 |}
-== Расписание (осень) ==
+== Расписание (осень-2017) ==
 {| class="wikitable"

Методы анализа текстов (семинар, К.В.Воронцов)/2017-2018 год

Материал из MachineLearning.

Текущая версия

Контакты

Расписание (весна-2018)

Расписание (осень-2017)

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты