русский АВТОМАТИЧЕСКИЙ ПОИСК МУЛЬТИЯЗЫЧНЫХ ДОКУМЕНТОВ АТТЕСТУЮЩИХСЯ УЧИТЕЛЕЙ ПОСРЕДСТВОМ ПОЛЕЙ ДАТЫ

RETRIEVING DATE FIELDS IN MULTIPLE LANGUAGES FOR AUTOMATIC SEARCHING OF CERTIFIED TEACHER DOCUMENTS

Авторы

  • Birzhan Sapuanov EKTU Serikbayev

Ключевые слова:

Индексирование на основе даты, академические сертификаты, определение даты, извлечение даты, процедура аттестации учителей, многоязычные документы, искусственный интеллект.

Аннотация

Различные школы проводят процессы сертификации учителей для продвижения, повышения и обновления их квалификации в соответствии с собственными правилами и процедурами. Данная процедура в Назарбаев Интеллектуальных школах (НИШ) Казахстана соблюдается без исключения. Важнейшим шагом в этом процессе является составление портфолио учителей, в котором содержатся многочисленные отсканированные документы, служащие доказательствами. В результате срок действия документов, предоставленных преподавателем, может быть просрочен и они больше не действительны в течение периода сертификации. Внедрение системы, основанной на методах распознавания текста, имеет жизненно важное значение для ускорения процесса проверки документов учителей. В статье описаны методы, такие как глубокое обучение, искусственный интеллект и другие новые методы для улучшения процессов компьютерного зрения и распознавания текста, что, несомненно, повысило эффективность, инновационность и практичность процесса проверки.

 

Каждый документ содержит ключевую информацию, такую как конкретное название сертификата, фамилия и имя. Цель данной статьи — представить систему автоматического извлечения полей даты из многоязычных письменных документов (казахский, английский и русский). Дата является одной из наиболее важной информации, которую можно использовать во многих автоматизированных приложениях для индексации/поиска документов на основе даты. Чтобы разработать эту систему, сначала был определен сценарий, который находится в документе, и для каждой строки текста, относящейся к определенному сценарию, мы классифицируем словесные единицы по месяцам, а также с немесячными классами, применяя характеристики уровня слова, извлечение и классификация. Затем выполняется сегментация немесячных слов на отдельные компоненты с последующей их маркировкой в виде цифр, текста, сокращений или знаков препинания. После этого в помеченных компонентах производится поиск возможных шаблонов дат, имеющихся в них. Для извлечения части даты использовались как регулярные выражения с числовыми, так и получисловыми частями. Классификация слов по месяцам и не по месяцам выполняется с использованием динамического искажения времени (DTW), а также подходов, основанных на признаках профиля. Цифры и знаки препинания в конечном итоге обнаруживаются с учетом подхода на основе градиентных характеристик и классификатора машины опорных векторов (SVM). Эксперименты с наборами данных документов на казахском, английском и русском языках показали многообещающие результаты, полученные от предлагаемого подхода, что указывает на его эффективность.

Опубликован

28-03-2025

Как цитировать

Sapuanov, B. (2025). русский АВТОМАТИЧЕСКИЙ ПОИСК МУЛЬТИЯЗЫЧНЫХ ДОКУМЕНТОВ АТТЕСТУЮЩИХСЯ УЧИТЕЛЕЙ ПОСРЕДСТВОМ ПОЛЕЙ ДАТЫ : RETRIEVING DATE FIELDS IN MULTIPLE LANGUAGES FOR AUTOMATIC SEARCHING OF CERTIFIED TEACHER DOCUMENTS. Вестник ВКТУ, (1). извлечено от https://vestnik.ektu.kz/index.php/vestnik/article/view/1038

Выпуск

Раздел

Информационно-коммуникационные технологии