AP19678995 – Ашық сөйлеудің өте қысқа ұзақтығы үшін терең нейрондық желілерді пайдалана отырып, дикторды тану әдісін құрастыру
Жобаның мақсаты: Жобаның мақсаты стандартты статистикалық әдістер жұмыс істемейтін кезде ультра қысқа фразаларды қолдану арқылы дикторды анықтау үшін терең нейрондық желілерді енгізу және оқыту мүмкіндігін зерттеу болып табылады.
Өзектілігі: Ұсынылып отырған жоба ұзақтығы таза күйінде бірнеше секундтан аспайтын ультра қысқа фразалар негізінде дауысты сәйкестендіру жүйесін әзірлеуде терең нейрондық желілерді қолданудың тиімділігін зерттеуге бағытталған. Бұл зерттеулердің өзектілігі бүгінгі күні қолданылатын дикторларды тану әдістері негізінен Гаусс аралас модельдері, i-векторлар және т. б. қолданылатын диктор дауысының статистикалық моделін құруға бағытталғандығына негізделген. Алайда, тәжірибе көрсеткендей, шынайы өмірде адамды оның қысқа фразалары арқылы анықтау қажет болған жағдайлар жиі туындайды. Адамның өте қысқа сөзінен статистикалық цифрлық дауыс үлгісін құру іс жүзінде мүмкін емес екені анық. Осылайша, біз ұзақ сөйлеуді қажет етпейтін (таза түрде 15 секундтан астам ұзақтығы бар) сөйлеушінің дауыс үлгісін жасау мәселесіне тап болдық. Осыған сүйене отырып, біз дәстүрлі статистикалық әдістер қолданылмаған жағдайда адам дауысының моделін құрудың алгоритмдерін әзірлеу және зерттеу жүргізу міндетін қойдық.
Ғылыми жетекшісі: PhD, профессор, Ахмедиярова Айнур Танатаровна
Алынған нәтижелер: Ғылыми-зерттеу жұмысы аясында сөйлеуді тану және дикторды сәйкестендіру әдістері жан-жақты талданып, нейрондық архитектура негізінде цифрлық дауыс моделін құру бағытында зерттеулер жүргізілді. Фонемалық деңгейде жұмыс істейтін CNN, RNN және BiLSTM сияқты модельдер әзірленіп, оқытылып, олардың тиімділігі эксперименттік түрде бағаланды. Деректерді өңдеу, мел-кепстралдық коэффициенттерді есептеу және эмбеддингтерді визуализациялау алгоритмдері жасалды. Нәтижесінде 2–3 секундтық қысқа сөйлеу сигналдары үшін жоғары дәлдікпен (шамамен 97%) дикторды тануға қабілетті модель алынды. Алынған модельдің шуға төзімділігі мен әртүрлі дикторлар бойынша кластерленуі оның тиімділігін көрсетті. Жоба нәтижелері ғылыми жарияланымдармен расталып, практикада қолдануға дайын деңгейге жеткізілді.
Жарияланымдар тізімі
- Ахмедиярова А.Т., Олжабаева А.Б., Намазбаев Т.А. Разработка мобильного приложения распознавания речи для людей с ограниченными возможностями // Евразийский Союз Ученых. Серия: технические и физико-математические науки. – 2023. – № 10 (113), т. 1. – С. 3–16. – URL: https://fizmat-tech.euroasia-science.ru/index.php/Euroasia/issue/view/147
- Nurlankyzy A., Akhmediyarova A., Zhetpisbayeva A., Namazbayev T., Yskak A., Yerzhan N., Medetov B. The dependence of the effectiveness of neural networks for recognizing human voice on language // Eastern-European Journal of Enterprise Technologies. – 2024. – № 1 (9 (127)). – С. 72–81. – DOI: 10.15587/1729-4061.2024.298687
- Ахмедиярова А.Т., Нурланкызы А., Кулакаева А.Е., Медетов Б.Ж. Анализ эффективности нейронных сетей по распознаванию человеческого голоса // Вестник Алматинского университета энергетики и связи. – 2024. – № 1 (64). – С. 37–46. – DOI: 10.51775/2790-0886_2024_64_1_37
- Медетов Б., Нурланкызы А., Кулакаева А., Жетписбаева А., Намазбаев Т. Оценка влияния языка на точность распознавания человеческого голоса с помощью искусственных нейронных сетей // Вестник КазАТК. – 2024. – № 2 (131). – С. 456–466. – DOI: 10.52167/1609-1817-2024-131-2-456-466
- Ахмедиярова А.Т., Жетписбаева А.Т., Касымова Д.Т., Үрістембек Г.Қ. Сөйлеуді тану технологияларын қолдану // Материалы международной научно-практической конференции AIACIT-2024 «Достижения и применение искусственного интеллекта в автоматизации, управлении и информационных технологиях». – Алматы, 2024. – Т. 2. – С. 108–117.
- Medetov B., Zhetpisbayeva A., Akhmediyarova A., Nurlankyzy A., Namazbayev T., Kulakayeva A., Albanbay N., Turdalyuly M., Yskak A., Uristimbek G. Evaluating the effectiveness of a voice activity detector based on various neural networks // Eastern European Journal of Enterprise Technologies. – 2025. – № 1 (5(133)). – С. 19–28. – DOI: 10.15587/1729-4061.2025.321659
- Medetov B., Nurlankyzy A., Namazbayev T., Akhmediyarova A., Zhetpisbayev K., Zhetpisbayeva A., Kargulova A. Speaker recognition by ultrashort utterances // Eastern European Journal of Enterprise Technologies. – 2025. – № 2 (9(134)). – С. 62–69. – DOI: 10.15587/1729-4061.2025.327907
- Ахмедиярова А.Т., Алибиева Ж.М., Мукажанов Н.К. Дикторды сәйкестендіру кезінде сөйлеуді сегментациялау // Вестник Казахстанско-Британского технического университета. – 2025. – № 2 (73). – С. 10–23. – URL: https://vestnik.kbtu.edu.kz/jour/article/view/1983
- Үрістембек Г.Қ., Ахмедиярова А.Т. Современные подходы к распознаванию нестандартной речи: обзор моделей и перспективы // Материалы международной научно-практической конференции «Цифровая трансформация: роль искусственного интеллекта и больших данных в праве, управлении и международных отношениях». – Алматы, 2025. – С. 295–302.