Современные методы распознавания и синтеза речи (курс лекций)/2018

Материал из MachineLearning.

Перейти к: навигация, поиск

Лекторы: Воропаев А., Соловьев Д., Полыковский Д.

Содержание

Аннотация

Обработка речи начинает применяться в большом числе приложений — голосовых помощниках, автомобилях, картах и играх. Данный курс посвящен актуальным задачам и направлениям в этой области. Первые лекции будут посвящены классическим методам анализа цифровых сигналов, а также их применению в обработке речи. Во второй части будут рассмотрены современные нейросетевые подходы синтеза и распознавания речи, а также — голосовая идентификация пользователя и детекция ключевой фразы. На курсе студенты смогут самостоятельно реализовать рассматриваемые методы как на модельных примерах, так и в реальном командном проекте.


Учебный план

Лекции проходят по средам в с 10:30 до 12:50 в ауд. 524

Дата № занятия Тема Материалы
14.02.2018 Лекция 1

Преобразование Фурье. Дискретное преобразование Фурье. Свойства. Спектрограмма. STFT

21.02.2018 Лекция 2

Быстрое преобразование Фурье. Вейвлеты.

18.02.2018 Лекция 3

Модуляция сигнала. Фильтрация. Линейные фильтры. Обращение фильтра. Подходы к построению фильтров

07.03.2018 Лекция 4

Аналого-цифровые преобразователи. Теорема Котельникова. Сжатие сигналов (MP3, JPEG). Beamforming

14.03.2018 Лекция 5

Речь. Биологические аспекты. Формирование F0, F1, F2, F2. и их извлечение из звуковой волны.
Гласные и согласные звуки. Выделение признаков из звука. Аугментация. Dynamic Time Warping.
Выравнивание. Нормализация текстов для синтеза речи.

21.03.2018 Лекция 6

Распознавание речи. Hidden Markov Models для распознавания. GMM.

28.03.2018 Лекция 7

Гибридные модели. Нейронные сети. Алгоритм обратного распространения ошибки.
Рекуррентные нейронные сети. Connectionist Temporal Classification (CTC).

04.04.2018 Лекция 8

Teacher forcing, Seq2Seq, Beam Search. Механизмы внимания. Listen, Attend and Spell.

11.04.2018 Лекция 9

Идентификация голоса. Определение конца предложения.
Определение активности. Распознавание ключевой фразы.

18.04.2018 Лекция 10

Синтез звука. Классические подходы. Восстановление звука из линейной спектрограммы.
Алгоритм Гриффина-Лима.

25.04.2018 Лекция 11

Свертки на последовательностях. Современные архитектуры: WaveNet, DeepVoice и их улучшения.
Multi-speaker synthesis. Tacotron.

Практические задания

Тема Макс. балл Дата выдачи Срок сдачи Крайний срок

Преобразование Фурье

15 21.02.2018 07.03.2018 21.03.2018

Распознавание команд

25 21.03.2018 04.04.2018 18.04.2018

Синтез звука

25 18.04.2018 02.05.2018 16.05.2018

Итоговый проект

35 07.03.2018 Досрочная защита Экзамен

Система выставления оценок по курсу

В курсе предусмотрено 3 практических задания и итоговый проект. Практические задания выдаются на 2 недели, после которых начисляется штраф 0.2 балла за каждый день просрочки. Через 2 недели после срока сдачи практическое задание не принимается. Защита итогового проекта проходит в день экзамена. Суммарно за практические задания и итоговый проект можно получить до 100 баллов.

При пересчете баллов итоговая оценка ставится по следующей шкале:

  • [0, 40) — “неуд.”
  • [40, 60) — “удовл”
  • [60, 80) — “хор”
  • [80, 100] — “отл”.

Литература

Личные инструменты