2 февраля 1101

AP19678995 – Разработка метода распознавания дикторов с применением глубоких нейронных сетей при ультракороткой продолжительности чистой речи

AP19678995 – Разработка метода распознавания дикторов с применением глубоких нейронных сетей при ультракороткой продолжительности чистой речи

Цель проекта: Цель проекта – это исследование возможности реализации и обучения глубоких нейронных сетей для идентификации дикторов по ультракоротким фразам, когда стандартные статистические методы не работают.

Актуальность: Предлагаемый проект направлен на исследование эффективности применения глубоких нейронных сетей при разработке систем идентификации по голосу на основе ультракоротких фраз, продолжительность которых в чистом виде не превышает нескольких секунд. Актуальность данных исследований основана на том, что применяемые на сегодняшний день методы распознавания дикторов в основном ориентированы на построение статистической модели голоса диктора, где применяются гауссовские смешанные модели, i-vectors и т.д. Однако, как показывает практика, в реальной жизни часто возникает такая ситуация, когда требуется идентифицировать человека по его коротким фразам. Ясно, что из ультракороткого высказывания человека фактически невозможно построить статистическую цифровую модель голоса. Таким образом, мы сталкиваемся с проблемой создания голосовой модели говорящего, не требующей длинные высказывания (с продолжительностью более 15 сек в чистом виде). Исходя из этого, мы ставим задачу провести исследования и разработку алгоритмов построения голосовой модели человека, когда традиционные статистические методы неприменимы.

Научный руководитель: PhD, профессор, Ахмедиярова Айнур Танатаровна

Полученные результаты: В рамках научно-исследовательской работы были всесторонне изучены методы распознавания речи и идентификации дикторов, а также разработана цифровая модель голоса на основе нейросетевых архитектур. Были созданы и обучены модели CNN, RNN и BiLSTM, работающие на фонемном уровне, и проведена их экспериментальная оценка. Разработаны алгоритмы обработки аудиоданных, вычисления мел-кепстральных коэффициентов и визуализации эмбеддингов. В результате получена модель, способная с высокой точностью (около 97%) распознавать диктора по коротким речевым сигналам длительностью 2–3 секунды. Модель показала устойчивость к шумам и способность к кластеризации голосовых признаков. Результаты проекта подтверждены научными публикациями и готовы к практическому применению.

Список публикаций с ссылками на них

  1. Ахмедиярова А.Т., Олжабаева А.Б., Намазбаев Т.А. Разработка мобильного приложения распознавания речи для людей с ограниченными возможностями // Евразийский Союз Ученых. Серия: технические и физико-математические науки. – 2023. – № 10 (113), т. 1. – С. 3–16. – URL: https://fizmat-tech.euroasia-science.ru/index.php/Euroasia/issue/view/147
  2. Nurlankyzy A., Akhmediyarova A., Zhetpisbayeva A., Namazbayev T., Yskak A., Yerzhan N., Medetov B. The dependence of the effectiveness of neural networks for recognizing human voice on language // Eastern-European Journal of Enterprise Technologies. – 2024. – № 1 (9 (127)). – С. 72–81. – DOI: 10.15587/1729-4061.2024.298687
  3. Ахмедиярова А.Т., Нурланкызы А., Кулакаева А.Е., Медетов Б.Ж. Анализ эффективности нейронных сетей по распознаванию человеческого голоса // Вестник Алматинского университета энергетики и связи. – 2024. – № 1 (64). – С. 37–46. – DOI: 10.51775/2790-0886_2024_64_1_37
  4. Медетов Б., Нурланкызы А., Кулакаева А., Жетписбаева А., Намазбаев Т. Оценка влияния языка на точность распознавания человеческого голоса с помощью искусственных нейронных сетей // Вестник КазАТК. – 2024. – № 2 (131). – С. 456–466. – DOI: 10.52167/1609-1817-2024-131-2-456-466
  5. Ахмедиярова А.Т., Жетписбаева А.Т., Касымова Д.Т., Үрістембек Г.Қ. Сөйлеуді тану технологияларын қолдану // Материалы международной научно-практической конференции AIACIT-2024 «Достижения и применение искусственного интеллекта в автоматизации, управлении и информационных технологиях». – Алматы, 2024. – Т. 2. – С. 108–117.
  6. Medetov B., Zhetpisbayeva A., Akhmediyarova A., Nurlankyzy A., Namazbayev T., Kulakayeva A., Albanbay N., Turdalyuly M., Yskak A., Uristimbek G. Evaluating the effectiveness of a voice activity detector based on various neural networks // Eastern European Journal of Enterprise Technologies. – 2025. – № 1 (5(133)). – С. 19–28. – DOI: 10.15587/1729-4061.2025.321659
  7. Medetov B., Nurlankyzy A., Namazbayev T., Akhmediyarova A., Zhetpisbayev K., Zhetpisbayeva A., Kargulova A. Speaker recognition by ultrashort utterances // Eastern European Journal of Enterprise Technologies. – 2025. – № 2 (9(134)). – С. 62–69. – DOI: 10.15587/1729-4061.2025.327907
  8. Ахмедиярова А.Т., Алибиева Ж.М., Мукажанов Н.К. Дикторды сәйкестендіру кезінде сөйлеуді сегментациялау // Вестник Казахстанско-Британского технического университета. – 2025. – № 2 (73). – С. 10–23. – URL: https://vestnik.kbtu.edu.kz/jour/article/view/1983
  9. Үрістембек Г.Қ., Ахмедиярова А.Т. Современные подходы к распознаванию нестандартной речи: обзор моделей и перспективы // Материалы международной научно-практической конференции «Цифровая трансформация: роль искусственного интеллекта и больших данных в праве, управлении и международных отношениях». – Алматы, 2025. – С. 295–302.
Наверх

Произошла ошибка!

Попробуйте заполнить поля правильно.

Ваши данные были успешно отправлены!

Мы свяжемся с Вами в ближайшее время.

Ваши данные были успешно отправлены!

На ваш e-mail адрес было отправлено письмо для подтверждения. Пожалуйста не забудьте подтвердить ваш e-mail адрес

Перевод не доступен


Перейти на главную страницу