ОСОБЕННОСТИ ИСПОЛЬЗОВАНИЯ РАСШИРЕННЫХ ФОРМ МОДЕЛИ TRANSFORMER В РАСПОЗНАВАНИИ КАЗАХСКОЙ РЕЧИ
Ключевые слова:
автоматическое распознавание речи, преобразователь, Conformer, Hiformer, сверточная нейронная сеть, глубокое обучение, распознавание казахской речи.Выпуск
Раздел
Аннотация
В нашей статье представлен обзор технологий и моделей автоматического распознавания речи (ASR), используемых при распознавании казахской речи. Описано использование двух усовершенствованных типов модели Трансформера - моделей Конформер и Хиформер в распознавании казахской речи. Описана структура моделей Conformer и Hiformer и представлена архитектура. Для определения эффективности указанной модели ее сравнивали с моделями Transformer и CNN, которые ранее использовались при распознавании казахской речи. Согласно результатам исследования, модель Conformer превзошла модели Transformer и CNN в распознавании казахской речи, а модель Hiformer достигла значительно более высокого результата, чем наше предыдущее исследование. В ходе тестирования с использованием модели Hiformer, добившейся наивысших показателей в распознавании казахской речи, ошибка в словах (WER) снизилась с 6,5 до 11,4 процента.