2 ақпан 1102

AP19678995 – Ашық сөйлеудің өте қысқа ұзақтығы үшін терең нейрондық желілерді пайдалана отырып, дикторды тану әдісін құрастыру

Жобаның мақсаты: Жобаның мақсаты стандартты статистикалық әдістер жұмыс істемейтін кезде ультра қысқа фразаларды қолдану арқылы дикторды анықтау үшін терең нейрондық желілерді енгізу және оқыту мүмкіндігін зерттеу болып табылады.

Өзектілігі: Ұсынылып отырған жоба ұзақтығы таза күйінде бірнеше секундтан аспайтын ультра қысқа фразалар негізінде дауысты сәйкестендіру жүйесін әзірлеуде терең нейрондық желілерді қолданудың тиімділігін зерттеуге бағытталған. Бұл зерттеулердің өзектілігі бүгінгі күні қолданылатын дикторларды тану әдістері негізінен Гаусс аралас модельдері, i-векторлар және т. б. қолданылатын диктор дауысының статистикалық моделін құруға бағытталғандығына негізделген. Алайда, тәжірибе көрсеткендей, шынайы өмірде адамды оның қысқа фразалары арқылы анықтау қажет болған жағдайлар жиі туындайды. Адамның өте қысқа сөзінен статистикалық цифрлық дауыс үлгісін құру іс жүзінде мүмкін емес екені анық. Осылайша, біз ұзақ сөйлеуді қажет етпейтін (таза түрде 15 секундтан астам ұзақтығы бар) сөйлеушінің дауыс үлгісін жасау мәселесіне тап болдық. Осыған сүйене отырып, біз дәстүрлі статистикалық әдістер қолданылмаған жағдайда адам дауысының моделін құрудың алгоритмдерін әзірлеу және зерттеу жүргізу міндетін қойдық.

Ғылыми жетекшісі: PhD, профессор, Ахмедиярова Айнур Танатаровна

Алынған нәтижелер: Ғылыми-зерттеу жұмысы аясында сөйлеуді тану және дикторды сәйкестендіру әдістері жан-жақты талданып, нейрондық архитектура негізінде цифрлық дауыс моделін құру бағытында зерттеулер жүргізілді. Фонемалық деңгейде жұмыс істейтін CNN, RNN және BiLSTM сияқты модельдер әзірленіп, оқытылып, олардың тиімділігі эксперименттік түрде бағаланды. Деректерді өңдеу, мел-кепстралдық коэффициенттерді есептеу және эмбеддингтерді визуализациялау алгоритмдері жасалды. Нәтижесінде 2–3 секундтық қысқа сөйлеу сигналдары үшін жоғары дәлдікпен (шамамен 97%) дикторды тануға қабілетті модель алынды. Алынған модельдің шуға төзімділігі мен әртүрлі дикторлар бойынша кластерленуі оның тиімділігін көрсетті. Жоба нәтижелері ғылыми жарияланымдармен расталып, практикада қолдануға дайын деңгейге жеткізілді.

Жарияланымдар тізімі

Ахмедиярова А.Т., Олжабаева А.Б., Намазбаев Т.А. Разработка мобильного приложения распознавания речи для людей с ограниченными возможностями // Евразийский Союз Ученых. Серия: технические и физико-математические науки. – 2023. – № 10 (113), т. 1. – С. 3–16. – URL: https://fizmat-tech.euroasia-science.ru/index.php/Euroasia/issue/view/147
Nurlankyzy A., Akhmediyarova A., Zhetpisbayeva A., Namazbayev T., Yskak A., Yerzhan N., Medetov B. The dependence of the effectiveness of neural networks for recognizing human voice on language // Eastern-European Journal of Enterprise Technologies. – 2024. – № 1 (9 (127)). – С. 72–81. – DOI: 10.15587/1729-4061.2024.298687
Ахмедиярова А.Т., Нурланкызы А., Кулакаева А.Е., Медетов Б.Ж. Анализ эффективности нейронных сетей по распознаванию человеческого голоса // Вестник Алматинского университета энергетики и связи. – 2024. – № 1 (64). – С. 37–46. – DOI: 10.51775/2790-0886_2024_64_1_37
Медетов Б., Нурланкызы А., Кулакаева А., Жетписбаева А., Намазбаев Т. Оценка влияния языка на точность распознавания человеческого голоса с помощью искусственных нейронных сетей // Вестник КазАТК. – 2024. – № 2 (131). – С. 456–466. – DOI: 10.52167/1609-1817-2024-131-2-456-466
Ахмедиярова А.Т., Жетписбаева А.Т., Касымова Д.Т., Үрістембек Г.Қ. Сөйлеуді тану технологияларын қолдану // Материалы международной научно-практической конференции AIACIT-2024 «Достижения и применение искусственного интеллекта в автоматизации, управлении и информационных технологиях». – Алматы, 2024. – Т. 2. – С. 108–117.
Medetov B., Zhetpisbayeva A., Akhmediyarova A., Nurlankyzy A., Namazbayev T., Kulakayeva A., Albanbay N., Turdalyuly M., Yskak A., Uristimbek G. Evaluating the effectiveness of a voice activity detector based on various neural networks // Eastern European Journal of Enterprise Technologies. – 2025. – № 1 (5(133)). – С. 19–28. – DOI: 10.15587/1729-4061.2025.321659
Medetov B., Nurlankyzy A., Namazbayev T., Akhmediyarova A., Zhetpisbayev K., Zhetpisbayeva A., Kargulova A. Speaker recognition by ultrashort utterances // Eastern European Journal of Enterprise Technologies. – 2025. – № 2 (9(134)). – С. 62–69. – DOI: 10.15587/1729-4061.2025.327907
Ахмедиярова А.Т., Алибиева Ж.М., Мукажанов Н.К. Дикторды сәйкестендіру кезінде сөйлеуді сегментациялау // Вестник Казахстанско-Британского технического университета. – 2025. – № 2 (73). – С. 10–23. – URL: https://vestnik.kbtu.edu.kz/jour/article/view/1983
Үрістембек Г.Қ., Ахмедиярова А.Т. Современные подходы к распознаванию нестандартной речи: обзор моделей и перспективы // Материалы международной научно-практической конференции «Цифровая трансформация: роль искусственного интеллекта и больших данных в праве, управлении и международных отношениях». – Алматы, 2025. – С. 295–302.

AP19678995 – Ашық сөйлеудің өте қысқа ұзақтығы үшін терең нейрондық желілерді пайдалана отырып, дикторды тану әдісін құрастыру

Қате кетті!

Жолдарды дұрыс толтыруға тырысыңыз.

Сіздің мәліметтеріңіз сәтті жіберілді!

Жақын арада біз Сізбен хабарласамыз.

Сіздің мәліметтеріңіз сәтті жіберілді!

Электрондық пошта мекенжайыңызға растау хаты жіберілді. Электрондық пошта мекен-жайыңызды растауды ұмытпаңыз.

Аудармасы жоқ