BR21882268 — Жетілдірілген интеллектуалды технологиялар негізінде қазақ тілінің қолдану аясын кеңейту үшін көптілді онтологияны автоматты түрде құрастыру
Жұмыс мақсаты: Зерттеу объектісі NLP онтологиясының терминологиялық өзегін қалыптастыру үшін салалық терминдердің көптілді басқарылатын тезаурус құру әдістері. Атап айтқанда, әртүрлі тілдердегі, соның ішінде қазақ тіліндегі мәтіндерден білімді экстрациялау және құрылымдау үшін қолданылатын алгоритмдер мен тәсілдерге назар аударылады.
Жұмыстың өзектілігі : Жасалған әдістер мен алгоритмдер жеткілікті тиімділік дәрежесіне ие және тәжірибе деңгейінде тексерілді.
Ғылыми жетекшісі: Ph.D. докторы, Зерттеуші профессор, Мусабаев Рустам Рафикович
Алынған нәтижелер: Жоба аясында NLP негізіндегі интеллектуалды ақпараттық ресурс әзірленіп, іздеу және навигация жүйелері оңтайландырылды. Атаулы мәндерді автоматты түрде анықтау және тілдік модельдерді оқыту үшін параллель мәтіндерді белгілеудің заманауи әдістемесі жасалды. Көптілді семантикалық сөздік құрылып, салалық терминдердің интероперабельді тезаурусын қалыптастыру тәсілдері әзірленді. Көптілді басқарылатын тезаурус құрастыру алгоритмі жасалып, ақпараттық жүйеге енгізілді. Пайдаланушыларға арналған белгіленген мәтін корпустарына қолжетімділік беретін ақпараттық ресурс құрылды. Ғылыми мақалалар жарияланып, монография шығарылып, зияткерлік меншік нысандары алынды. Алынған нәтижелер табиғи тілдерді өңдеу саласындағы заманауи талаптарға сай және практикалық маңызы жоғары.
Жарияланымдар тізімі
- Mussabayev R., Mussabayev R. Strategies for Parallelizing the Big-Means Algorithm: A Comprehensive Tutorial for Effective Big Data Clustering // ArXiv. – 2023. – Vol. abs/2311.04517v1. – P. 1–53. – URL: https://arxiv.org/pdf/2311.04517v1.pdf.
- Мусабаев Р., Мусабаев Р., Кульдеев Н. Использование конкурентной оптимизации и стохастической выборки в Big-means для эффективной параллельной кластеризации K-means // Труды 21-й Междунар. конф. «Математические методы распознавания образов» (MMRO-23). – Москва, 2023. – P. 1–4.
- Kozbagarov O., Mussabayev R. Distributed random swap: An efficient algorithm for minimum sum-of-squares clustering // Information Sciences. – 2024. – Vol. 681. – Art. 121204. – https://doi.org/10.1016/j.ins.2024.121204.
- Mussabayev R., Mussabayev R. High-Performance Hybrid Algorithm for Minimum Sum-of-Squares Clustering of Infinitely Tall Data // Mathematics. – 2024. – Vol. 12, No. 13. – Art. 1930. – https://doi.org/10.3390/math12131930.
- Baktibayev D., Baigozha B., Akhmetov I., Mussabayev R., Krassovitskiy A., Toleu A. Literature review on aftershock and earthquake prediction models aided by NLP summarization and ontology extraction techniques // Procedia Computer Science. – 2024. – Vol. 238. – P. 579–586. – https://doi.org/10.1016/j.procs.2024.06.064.
- Toleu A., Tolegen G., Mussabayev R. Topic Modeling with Variable Neighborhood Search // Communications in Computer and Information Science. – 2024. – Vol. 2166. – P. 234–246. – https://doi.org/10.1007/978-3-031-70259-4_18.
- Kozbagarov O., Mussabayev R., Krassovitskiy A., Kuldeyev N. Interpretable Dense Embedding for Large-Scale Textual Data via Fast Fuzzy Clustering // Communications in Computer and Information Science. – 2024. – Vol. 2165. – P. 206–218. – https://doi.org/10.1007/978-3-031-70248-8_16.
- Tolegen G., Toleu A., Mussabayev R. Enhancing Low-Resource NER via Knowledge Transfer from LLM // Lecture Notes in Computer Science. – 2024. – Vol. 14810. – P. 238–248. – https://doi.org/10.1007/978-3-031-70816-9_19.
- Mussabayev R., Mussabayev R. Superior Parallel Big Data Clustering Through Competitive Stochastic Sample Size Optimization in Big-Means // Lecture Notes in Computer Science. – 2024. – Vol. 14796. – P. 224–236. – https://doi.org/10.1007/978-981-97-4985-0_18.
- Barakhnin V.B., Karpov M.V., Machikina E.P., Musasbayev R.R. Optimization of Database Operations in the Application for Text Corpus Analysis // Proc. 20th Int. Asian School-Seminar on Optimization Problems of Complex Systems (OPCS). – Novosibirsk, 2024. – P. 1–6. – https://doi.org/10.1109/OPCS63516.2024.10720387.
- Mussabayev R. WRDScore: New Metric for Evaluation of Natural Language Generation Models // Proc. 20th Int. Asian School-Seminar on Optimization Problems of Complex Systems (OPCS). – Novosibirsk, 2024. – P. 20–23. – https://doi.org/10.1109/OPCS63516.2024.10720439.
- Aubakirov S., Akhmetov I. Dynamic Optimization of Minimum Document Frequency for Extractive Text Summarization Using GreedSum Algorithm // Proc. 20th Int. Asian School-Seminar on Optimization Problems of Complex Systems (OPCS). – Novosibirsk, 2024. – P. 33–37. – https://doi.org/10.1109/OPCS63516.2024.10720390.
- Mussabayev R., Mussabayev R. BiModalClust: Fused Data and Neighborhood Variation for Advanced K-Means Big Data Clustering // Applied Sciences. – 2025. – Vol. 15, No. 3. – Art. 1032. – https://doi.org/10.3390/app15031032.
- Shestov A., Levichev R., Mussabayev R., Maslov E., Zadorozhny P., Cheshkov A., Toleu A., Tolegen G., Krassovitskiy A. Finetuning Large Language Models for Vulnerability Detection // IEEE Access. – 2025. – Vol. 13. – P. 38889–38900. – https://doi.org/10.1109/ACCESS.2025.3546700.
- Tolegen G., Toleu A., Mussabayev R. Contrastive Learning for Morphological Disambiguation Using Large Language Models in Low-Resource Settings // Applied Sciences. – 2024. – Vol. 14, No. 21. – Art. 9992. – https://doi.org/10.3390/app14219992.
- Aubakirov S., Akhmetov I., Gelbukh A., Mussabayev R. Dynamic optimization of min-df in the GreedSum algorithm for enhanced extractive summarization // Artificial Intelligence Review. – 2025. – Vol. 58, No. 9. – Art. 270. – https://doi.org/10.1007/s10462-025-11276-w.
- Mussabayev R. Optimizing Euclidean Distance Computation // Mathematics. – 2024. – Vol. 12, No. 23. – Art. 3787. – https://doi.org/10.3390/math12233787.
- Tolegen G., Toleu A., Mussabayev R., Krassovitskiy A., Zhuldyzbayuly N. Automatic Creation of Multilingual Knowledge Graph with Large Language Models // Lecture Notes in Computer Science. – 2025. – Vol. 15683. – P. 271–285. – https://doi.org/10.1007/978-981-96-6008-7_20.
- Mussabayev R., Mussabayev R. Boosting K-means for Big Data by Fusing Data Streaming with Global Optimization // Communications in Computer and Information Science. – 2025. – Vol. 2493. – P. 1–17. – https://doi.org/10.1007/978-981-96-5881-7_3.
- Mussabayev R., Mussabayev R., Toleu A., Ibraimova A. Efficient big data clustering via VNS-accelerated optimization // Book of Abstracts: 11th Int. Conf. on Variable Neighborhood Search (ICVNS 2025). – Montreal, 2025. – P. 17. – URL: https://2025.icvns.com/static/ICVNS_2025_Book_of_Abstracts.pdf.
- Toleu A., Tolegen G., Mussabayev R.R. Towards Full-Stack Kazakh NLP: from Morphology to Ontology and LLMs. – Almaty: KazNITU named after K.I. Satbayev, 2025. – 175 p.
- Mussabayev R., Mussabayev R. Parallel Memetic Differential Evolution for Minimum Sum-of-Squares Clustering // Communications in Computer and Information Science. – 2026. – Vol. 2747. – P. 1–17.
- А.с. № 62665. Рекурсивный алгоритм иерархической сегментации временных рядов для формирования структурной тематической таксономии текста / Мусабаев Р.Р. – опубл. 03.10.2025.
- А.с. № 62708. Алгоритм нечёткой кластеризации для тематического моделирования и онтологического структурирования текстовых корпусов / Мусабаев Р.Р. – опубл. 06.10.2025.
- А.с. № 62700. Алгоритм экстрактивной суммаризации текста на основе контекстных эмбеддингов и метода переменных окрестностей / Мусабаев Р.Р. – опубл. 06.10.2025.
- А.с. № 62164. KazNER: система распознавания именованных сущностей для казахского языка / Төлеу А., Төлеген Г. – опубл. 16.09.2025.
- А.с. № 62340. QazAnalyzer: инструмент анализа казахского текста и построения онтологий / Төлеу А., Төлеген Г. – опубл. 23.09.2025.