русский АВТОМАТИЧЕСКИЙ ПОИСК МУЛЬТИЯЗЫЧНЫХ ДОКУМЕНТОВ АТТЕСТУЮЩИХСЯ  УЧИТЕЛЕЙ  ПОСРЕДСТВОМ ПОЛЕЙ ДАТЫ : RETRIEVING DATE FIELDS IN MULTIPLE LANGUAGES FOR AUTOMATIC SEARCHING  OF CERTIFIED TEACHER DOCUMENTS

Birzhan Sapuanov

РУССКИЙ АВТОМАТИЧЕСКИЙ ПОИСК МУЛЬТИЯЗЫЧНЫХ ДОКУМЕНТОВ АТТЕСТУЮЩИХСЯ УЧИТЕЛЕЙ ПОСРЕДСТВОМ ПОЛЕЙ ДАТЫ

RETRIEVING DATE FIELDS IN MULTIPLE LANGUAGES FOR AUTOMATIC SEARCHING OF CERTIFIED TEACHER DOCUMENTS

Авторы

Имя	Аффилированность
Birzhan Sapuanov	EKTU Serikbayev

Опубликован:

28-03-2025

Выпуск:

№ 1 (2025): "Вестник ВКТУ им.Д.Серикбаева"

Раздел:

Информационно-коммуникационные технологии

Язык статьи:

Русский

Ключевые слова:

Индексирование на основе даты, академические сертификаты, определение даты, извлечение даты, процедура аттестации учителей, многоязычные документы, искусственный интеллект.

Аннотация

Различные школы проводят процессы сертификации учителей для продвижения, повышения и обновления их квалификации в соответствии с собственными правилами и процедурами. Данная процедура в Назарбаев Интеллектуальных школах (НИШ) Казахстана соблюдается без исключения. Важнейшим шагом в этом процессе является составление портфолио учителей, в котором содержатся многочисленные отсканированные документы, служащие доказательствами. В результате срок действия документов, предоставленных преподавателем, может быть просрочен и они больше не действительны в течение периода сертификации. Внедрение системы, основанной на методах распознавания текста, имеет жизненно важное значение для ускорения процесса проверки документов учителей. В статье описаны методы, такие как глубокое обучение, искусственный интеллект и другие новые методы для улучшения процессов компьютерного зрения и распознавания текста, что, несомненно, повысило эффективность, инновационность и практичность процесса проверки.

Каждый документ содержит ключевую информацию, такую как конкретное название сертификата, фамилия и имя. Цель данной статьи — представить систему автоматического извлечения полей даты из многоязычных письменных документов (казахский, английский и русский). Дата является одной из наиболее важной информации, которую можно использовать во многих автоматизированных приложениях для индексации/поиска документов на основе даты. Чтобы разработать эту систему, сначала был определен сценарий, который находится в документе, и для каждой строки текста, относящейся к определенному сценарию, мы классифицируем словесные единицы по месяцам, а также с немесячными классами, применяя характеристики уровня слова, извлечение и классификация. Затем выполняется сегментация немесячных слов на отдельные компоненты с последующей их маркировкой в виде цифр, текста, сокращений или знаков препинания. После этого в помеченных компонентах производится поиск возможных шаблонов дат, имеющихся в них. Для извлечения части даты использовались как регулярные выражения с числовыми, так и получисловыми частями. Классификация слов по месяцам и не по месяцам выполняется с использованием динамического искажения времени (DTW), а также подходов, основанных на признаках профиля. Цифры и знаки препинания в конечном итоге обнаруживаются с учетом подхода на основе градиентных характеристик и классификатора машины опорных векторов (SVM). Эксперименты с наборами данных документов на казахском, английском и русском языках показали многообещающие результаты, полученные от предлагаемого подхода, что указывает на его эффективность.

Лицензия

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.

Скачать ссылку

Sapuanov, B. (2025). русский АВТОМАТИЧЕСКИЙ ПОИСК МУЛЬТИЯЗЫЧНЫХ ДОКУМЕНТОВ АТТЕСТУЮЩИХСЯ УЧИТЕЛЕЙ ПОСРЕДСТВОМ ПОЛЕЙ ДАТЫ : RETRIEVING DATE FIELDS IN MULTIPLE LANGUAGES FOR AUTOMATIC SEARCHING OF CERTIFIED TEACHER DOCUMENTS. Вестник ВКТУ, (1). извлечено от https://vestnik.ektu.kz/index.php/vestnik/article/view/1038