ОСОБЕННОСТИ ИСПОЛЬЗОВАНИЯ РАСШИРЕННЫХ ФОРМ МОДЕЛИ TRANSFORMER В РАСПОЗНАВАНИИ КАЗАХСКОЙ РЕЧИ
Опубликован:
06-07-2025Раздел:
Информационно-коммуникационные технологииЯзык статьи:
КазахскийКлючевые слова:
автоматическое распознавание речи, преобразователь, Conformer, Hiformer, сверточная нейронная сеть, глубокое обучение, распознавание казахской речи.Аннотация
В нашей статье представлен обзор технологий и моделей автоматического распознавания речи (ASR), используемых при распознавании казахской речи. Описано использование двух усовершенствованных типов модели Трансформера - моделей Конформер и Хиформер в распознавании казахской речи. Описана структура моделей Conformer и Hiformer и представлена архитектура. Для определения эффективности указанной модели ее сравнивали с моделями Transformer и CNN, которые ранее использовались при распознавании казахской речи. Согласно результатам исследования, модель Conformer превзошла модели Transformer и CNN в распознавании казахской речи, а модель Hiformer достигла значительно более высокого результата, чем наше предыдущее исследование. В ходе тестирования с использованием модели Hiformer, добившейся наивысших показателей в распознавании казахской речи, ошибка в словах (WER) снизилась с 6,5 до 11,4 процента.
Лицензия
Copyright (c) 2025 Вестник ВКТУ
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.