ОСОБЕННОСТИ ИСПОЛЬЗОВАНИЯ РАСШИРЕННЫХ ФОРМ МОДЕЛИ TRANSFORMER В РАСПОЗНАВАНИИ КАЗАХСКОЙ РЕЧИ

Авторы

  • Тұрдыбек Құрметқан Әл-фараби атындағы ҚазҰУ

Ключевые слова:

автоматическое распознавание речи, преобразователь, Conformer, Hiformer, сверточная нейронная сеть, глубокое обучение, распознавание казахской речи.

Выпуск

Раздел

Информационно-коммуникационные технологии

Аннотация

В нашей статье представлен обзор технологий и моделей автоматического распознавания речи (ASR), используемых при распознавании казахской речи. Описано использование двух усовершенствованных типов модели Трансформера - моделей Конформер и Хиформер в распознавании казахской речи. Описана структура моделей Conformer и Hiformer и представлена ​​архитектура. Для определения эффективности указанной модели ее сравнивали с моделями Transformer и CNN, которые ранее использовались при распознавании казахской речи. Согласно результатам исследования, модель Conformer превзошла модели Transformer и CNN в распознавании казахской речи, а модель Hiformer достигла значительно более высокого результата, чем наше предыдущее исследование. В ходе тестирования с использованием модели Hiformer, добившейся наивысших показателей в распознавании казахской речи, ошибка в словах (WER) снизилась с 6,5 до 11,4 процента.

Опубликован

06-07-2025

Как цитировать

Құрметқан, Т. (2025). Особенности использования расширенных форм модели Transformer в распознавании казахской речи. Вестник ВКТУ, (2). извлечено от https://vestnik.ektu.kz/index.php/vestnik/article/view/1040