Мовне моделювання аудiо з допомогою механiзму уваги з рухомим середнiм
DOI:
https://doi.org/10.18523/2617-70805202253-56Ключові слова:
аудіомоделювання, штучні нейронні мережі, механізм увагиАнотація
У цій роботі ми порівнюємо різні механізми уваги на прикладі задачі генерації аудіо, використовуючи підходи "навчання без вчителя", беручи за основу попередні дослідження в моделюванні мови. Це важлива проблема, оскільки технологію синтезу мови можна використовувати для конвертації текстової інформації в звукові сигнали. Таке представлення можна зручно інтегрувати в мобільні пристрої та використовувати в таких програмах, як голосові месенджери або програми електронної пошти. Іноді важко зрозуміти та прочитати важливі повідомлення, перебуваючи за кордоном. Таким чином, може виникнути нестача відповідних комп'ютерних систем або проблеми з безпекою. Завдяки цій технології повідомлення електронної пошти можна швидко й ефективно прослуховувати на смартфонах, підвищуючи продуктивність. Крім того, вона може використовуватись для допомоги людям із вадами зору, щоб, наприклад, вміст екрана міг автоматично читатися вголос для незрячого користувача. Сьогодні побутова техніка, як-от мультиварка, також може використовувати цю систему для читання кулінарних рецептів, автомобілі для голосової навігації до місця призначення, або особи які вивчають мову, для навчання вимови. Генерація мови є протилежною проблемою автоматичного розпізнавання мови (ASR) і досліджується з другої половини XVIII століття. Крім того, ця технологія також допомагає людям із вадами голосу знайти спосіб спілкування з іншими, хто не розуміє мови жестів. Однак існує проблема, пов'язана з тим, що частота дискретизації звуку є дуже високою, що призводить до дуже довгих послідовностей, які обчислювально важко змоделювати. Друга проблема полягає в тому, що мовні сигнали з однаковим семантичним значенням можуть бути представлені великою кількістю сигналів зі значною мінливістю, яка спричинена каналом передавання даних, вимовою або характеристиками тембру мовця. Щоб подолати ці проблеми, ми навчаємо модель автоенкодера, щоб дискретизувати безперервний аудіосигнал у скінченний набір дискримінативних аудіотокенів, які мають нижчу частоту дискретизації. Після цього, авторегресивні моделі, які не залежать від тексту, навчаються на цих репрезентаціях, щоб передбачати наступний токен на основі попередніх елементів послідовності. Отже, цей підхід до моделювання нагадує авторегресивне моделювання мови. У нашому дослідженні ми показуємо, що, на відміну від оригінальної роботи MEGA, традиційний механізм перевершує механізм з рухомим середнім, що показує, що останній ще не є стабільним та потребує ретельної оптимізації гіперпараметрів.
Посилання
- W. Ping, "Waveflow: A compact flow-based model for raw audio" (2019), https://arxiv.org/abs/1912.01219.
- Z. Kong, "Diffwave: A versatile diffusion model for audio synthesis" (2020), https://arxiv.org/abs/2009.09761.
- A. Oord, "Wavenet: A generative model for raw audio" (2016), https://arxiv.org/abs/1609.03499.
- N. Kalchbrenner, "Efficient neural audio synthesis" (2018), https://arxiv.org/abs/1802.08435.
- A. Oord, "Parallel wavenet: Fast high-fidelity speech synthesis". (2017), https://arxiv.org/abs/1711.10433.
- C. Donahue, "Adversarial audio synthesis" (2018), https://arxiv.org/abs/1802.04208.
- Jesse Engel, Kumar Krishna Agrawal, Shuo Chen [et al.], Gansynth: Adversarial neural audio synthesis ([S. l. : s. n.], 2019), https://openreview.net/pdf?id=H1xQVn09FX.
- A. Oord, "Neural discrete representation learning" (2017), https://arxiv.org/abs/1711.00937.
- N. Zeghidour, "Soundstream: An end-to-end neural audio codec" (2021), https://arxiv.org/abs/2107.03312.
- X. Ma, "Mega: Moving average equipped gated attention" (2022), https://arxiv.org/abs/2209.10655.
- J. Gaan Zhang, "Gated attention networks for learning on large and spatiotemporal graphs" (2018), https://arxiv.org/abs/1803.07294.
- A. Radford, K. Narasimhan, Improving language understanding by generative pre-training ([S. l.: s. n.], 2018).
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2022 Andrii Ivaniuk
Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Автори, які публікуються у цьому журналі, погоджуються з такими умовами:
а) Автори зберігають за собою авторські права на твір на умовах ліцензії Creative Commons Attribution License CC BY 4.0, котра дозволяє іншим особам вільно поширювати (копіювати і розповсюджувати матеріал у будь-якому вигляді чи форматі) та змінювати (міксувати, трансформувати, і брати матеріал за основу для будь-яких цілей, навіть комерційних) опублікований твір на умовах зазначення авторства.
б) Журнал дозволяє автору (авторам) зберігати авторські права без обмежень.
в) Автори мають право укладати самостійні додаткові угоди щодо поширення твору (наприклад, розміщувати роботу в електронному репозитарії), за умови збереження посилання на його першу публікацію. (Див. Політика Самоархівування)
г) Політика журналу дозволяє розміщення авторами в мережі Інтернет (наприклад, у репозитаріях) тексту статті, як до подання його до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).