Современные методы распознавания и синтеза речи (курс лекций)/2018

Материал из MachineLearning.

Перейти к: навигация, поиск

Лекторы: Воропаев А., Соловьев Д., Полыковский Д.

Содержание

Аннотация

Обработка речи начинает применяться в большом числе приложений — голосовых помощниках, автомобилях, картах и играх. Данный курс посвящен актуальным задачам и направлениям в этой области. Первые лекции будут посвящены классическим методам анализа цифровых сигналов, а также их применению в обработке речи. Во второй части будут рассмотрены современные нейросетевые подходы синтеза и распознавания речи, а также — голосовая идентификация пользователя и детекция ключевой фразы. На курсе студенты смогут самостоятельно реализовать рассматриваемые методы как на модельных примерах, так и в реальном командном проекте.


Учебный план

Лекция 07.03.2018 отменяется. 14.03.2018 будет сдвоенная лекция (10:30 - 12:05, 12:15 - 13:50).

  • Лекции проходят по средам в с 10:30 до 12:05 в ауд. 524
  • Чат в Telegram: ссылка
  • Инвайт в Anytask: lWVASKX, курс в Anytask
  • Тут вы можете всегда оставить анонимный отзыв: ссылка

  • Дата № занятия Тема Материалы
    14.02.2018 Лекция 1
    Дискретные сигналы. Преобразование Фурье.

    Введение в курс. Терминология. Гильбертово пространство.
    Неравенство Бесселя и тождество Парсеваля. Тригонометрический базис.
    Дискретное преобразование Фурье (DFT, DFS, DTFT). Связь между преобразованиями.
    Свойства. Быстрое преобразование Фурье.

    Конспект
    Ch. 1 — Ch. 4, [2]
    21.02.2018 Лекция 2

    Цифровые фильтры
    Линейные стационарные системы. Цифровые фильтры. Анализ фильтров: стабильность,
    импульсная характеристика. Z-transform. Подходы к построению фильтров.

    Конспект
    Ch. 5 — Ch. 7, [2]
    18.02.2018 Лекция 3

    Частотно-временной анализ.

    Частотно-временной анализ. Оконное преобразование Фурье.
    Выделение признаков из сигнала: поиск аудиозаписи. Вейвлет преобразование.

    Конспект
    Ch. 7, [5]
    статья

    07.03.2018 14.03.2018 Лекция 4

    Аналого-цифровые преобразователи
    Сэмплирование сигналов. Теорема Котельникова. Аналого-цифровые преобразователи.
    Beamforming. Сжатие сигналов (MP3, JPEG).

    Слайды
    Ch. II, VII, IX [1]
    Ch. 9, 10 [2]
    14.03.2018 Лекция 5

    Речь
    Речь. Биологические аспекты. Формирование F0, F1, F2, F2 и их извлечение из звуковой волны.
    Гласные и согласные звуки. Выделение признаков из звука. Аугментация. Dynamic Time Warping.
    Выравнивание. Нормализация текстов для синтеза речи.

    Слайды
    Ch. 1, [6]
    [7]
    Ch.6, [8]
    Статья
    Статья
    21.03.2018 Лекция 6

    Распознавание речи. Hidden Markov Models для распознавания. GMM.

    Ch. 9, [3а]
    Ch. 9, [3б]
    статья
    Слайды
    28.03.2018 Лекция 7

    Гибридные модели. Нейронные сети. Алгоритм обратного распространения ошибки.
    Рекуррентные нейронные сети. Connectionist Temporal Classification (CTC).

    Ch.10, [3б]

    статья
    статья
    статья
    статья
    Слайды

    04.04.2018 Лекция 8

    Teacher forcing, Seq2Seq, Beam Search. Механизмы внимания. Listen, Attend and Spell.

    11.04.2018 Лекция 9

    Идентификация голоса. Определение конца предложения.
    Определение активности. Распознавание ключевой фразы.

    18.04.2018 Лекция 10

    Синтез звука. Классические подходы. Восстановление звука из линейной спектрограммы.
    Алгоритм Гриффина-Лима.

    25.04.2018 Лекция 11

    Свертки на последовательностях. Современные архитектуры: WaveNet, DeepVoice и их улучшения.
    Multi-speaker synthesis. Tacotron.

    16.05.2018 Лекция 12
    Защита финального проекта

    Практические задания

    Задания сдаются в системе Anytask: ссылка. Для получения доступа к курсу, необходимо указать инвайт "lWVASKX".

    Тема Макс. балл Дата выдачи Срок сдачи Крайний срок

    Преобразование Фурье

    15 24.02.2018 10.03.2018 24.03.2018

    Распознавание команд

    25 01.04.2018 15.04.2018 29.04.2018

    Синтез звука

    25 18.04.2018 02.05.2018 16.05.2018

    Итоговый проект

    35 07.03.2018 Досрочная защита Экзамен

    Система выставления оценок по курсу

    В курсе предусмотрено 3 практических задания и итоговый проект. Практические задания выдаются на 2 недели, после которых начисляется штраф 0.2 балла за каждый день просрочки. Через 2 недели после срока сдачи практическое задание не принимается. Защита итогового проекта проходит в день экзамена. Суммарно за практические задания и итоговый проект можно получить до 100 баллов.

    При пересчете баллов итоговая оценка ставится по следующей шкале:

    • [0, 40) — “неуд”
    • [40, 60) — “удовл”
    • [60, 80) — “хор”
    • [80, 100] — “отл”

    Для получения зачета необходимо получить не менее 50 баллов.

    Литература

    [1] The Digital Signal Processing Handbook, Vijay Madiestti

    [2] Signal Processing For Communications, Paolo Prandoni & Martin Vettarli

    [3] Speech and Language Processing. Dan Jurafsky and James H. Martin

    [3a] Speech and Language Processing. Dan Jurafsky and James H. Martin,3rd edition draft

    [3б] Speech and Language Processing. Dan Jurafsky and James H. Martin,2rd edition

    [4] CS224S / LINGUIST285 - Spoken Language Processing

    [5] Digital Image Processing 2nd Edition, Rafael C. Gonzalez, Richard E. Woods

    [6] The Speech Chain: The Physics and Biology of Spoken Language, Second Edition, Peter B. Denes,Elliot N. Pinson

    [7] Акустическая теория речеобразования. Г. Фант, 1964

    [8] Xuedong Huang, Alex Acero, Hsiao-Wuen Hon, Spoken Language Processing: A Guide to Theory, Algorithm, and System Development, Prentice Hall, 2001
Личные инструменты