русский АВТОМАТИЧЕСКИЙ ПОИСК МУЛЬТИЯЗЫЧНЫХ ДОКУМЕНТОВ АТТЕСТУЮЩИХСЯ УЧИТЕЛЕЙ ПОСРЕДСТВОМ ПОЛЕЙ ДАТЫ
RETRIEVING DATE FIELDS IN MULTIPLE LANGUAGES FOR AUTOMATIC SEARCHING OF CERTIFIED TEACHER DOCUMENTS
Ключевые слова:
Индексирование на основе даты, академические сертификаты, определение даты, извлечение даты, процедура аттестации учителей, многоязычные документы, искусственный интеллект.Аннотация
Различные школы проводят процессы сертификации учителей для продвижения, повышения и обновления их квалификации в соответствии с собственными правилами и процедурами. Данная процедура в Назарбаев Интеллектуальных школах (НИШ) Казахстана соблюдается без исключения. Важнейшим шагом в этом процессе является составление портфолио учителей, в котором содержатся многочисленные отсканированные документы, служащие доказательствами. В результате срок действия документов, предоставленных преподавателем, может быть просрочен и они больше не действительны в течение периода сертификации. Внедрение системы, основанной на методах распознавания текста, имеет жизненно важное значение для ускорения процесса проверки документов учителей. В статье описаны методы, такие как глубокое обучение, искусственный интеллект и другие новые методы для улучшения процессов компьютерного зрения и распознавания текста, что, несомненно, повысило эффективность, инновационность и практичность процесса проверки.
Каждый документ содержит ключевую информацию, такую как конкретное название сертификата, фамилия и имя. Цель данной статьи — представить систему автоматического извлечения полей даты из многоязычных письменных документов (казахский, английский и русский). Дата является одной из наиболее важной информации, которую можно использовать во многих автоматизированных приложениях для индексации/поиска документов на основе даты. Чтобы разработать эту систему, сначала был определен сценарий, который находится в документе, и для каждой строки текста, относящейся к определенному сценарию, мы классифицируем словесные единицы по месяцам, а также с немесячными классами, применяя характеристики уровня слова, извлечение и классификация. Затем выполняется сегментация немесячных слов на отдельные компоненты с последующей их маркировкой в виде цифр, текста, сокращений или знаков препинания. После этого в помеченных компонентах производится поиск возможных шаблонов дат, имеющихся в них. Для извлечения части даты использовались как регулярные выражения с числовыми, так и получисловыми частями. Классификация слов по месяцам и не по месяцам выполняется с использованием динамического искажения времени (DTW), а также подходов, основанных на признаках профиля. Цифры и знаки препинания в конечном итоге обнаруживаются с учетом подхода на основе градиентных характеристик и классификатора машины опорных векторов (SVM). Эксперименты с наборами данных документов на казахском, английском и русском языках показали многообещающие результаты, полученные от предлагаемого подхода, что указывает на его эффективность.