ОРГАНИЗАЦИЯ ХРАНЕНИЯ КОРПУСОВ ПОЭТИЧЕСКИХ ТЕКСТОВ В ИНФОРМАЦИОННЫХ АНАЛИТИЧЕСКИХ СИСТЕМАХ С УЧЕТОМ СПЕЦИФИКИ ПРЕДМЕТНОЙ ОБЛАСТИ

Авторы

  • Ольга Юрьевна Кожемякина Федеральный исследовательский центр информационных и вычислительных технологий

Ключевые слова:

Обработка текстов на естественном языке, информационные системы, базы данных, хранение файлов

Аннотация

В настоящей работе рассматривается вопрос организации хранения корпусов поэтических текстов в информационных аналитических системах с учетом специфики структуры поэтического текста. В Федеральном исследовательском центре информационных и вычислительных технологий разработана и реализована оригинальная программная система автоматизированного комплексного анализа русских поэтических текстов. Информационная система, как соответствующий компонент программной системы, объединяет разнородную информацию о результатах анализа поэтических текстов. Поэтический текст – структура иерархичная по своей языковой природе, что необходимо учитывать при разработке информационных систем, предназначенных для хранения и обработки текстов на естественном языке. Вопрос иерархии текста равнозначно важен для процесса его анализа и для хранения корпусов текстов. Хранилище текстов является, как правило, центральным компонентом информационных аналитических систем и либо проектируется как база данных, либо представляет собой неструктурированный набор данных. Для экспертов-филологов, работающих с системой, принципиально качество данных, что наиболее достижимо при работе с правильно организованным материалом. В результате концептуального проектирования хранилища корпусов поэтических текстов, с учетом специфики объектов предметной области, обосновано целесообразное использование двух систем хранения и поиска данных: реляционной базы данных для хранения связей между объектами в системе, а также объектов, не являющихся частью корпуса, и хранилища файлов с инструментом полнотекстового поиска в корпусе текстов, что повышает качество анализа текстов и расширяет возможности применения системы в целом.

Опубликован

29-03-2024

Как цитировать

Кожемякина, О. Ю. (2024). ОРГАНИЗАЦИЯ ХРАНЕНИЯ КОРПУСОВ ПОЭТИЧЕСКИХ ТЕКСТОВ В ИНФОРМАЦИОННЫХ АНАЛИТИЧЕСКИХ СИСТЕМАХ С УЧЕТОМ СПЕЦИФИКИ ПРЕДМЕТНОЙ ОБЛАСТИ. Вестник ВКТУ, (1). извлечено от https://vestnik.ektu.kz/index.php/vestnik/article/view/648

Выпуск

Раздел

Статьи спецвыпуска CITech–2023