RUSSIAN
Published:
2024-03-29Section:
Information and communication technologiesArticle language:
RussianKeywords:
Обработка текстов на естественном языке, информационные системы, базы данных, хранение файловAbstract
В настоящей работе рассматривается вопрос организации хранения корпусов поэтических текстов в информационных аналитических системах с учетом специфики структуры поэтического текста. В Федеральном исследовательском центре информационных и вычислительных технологий разработана и реализована оригинальная программная система автоматизированного комплексного анализа русских поэтических текстов. Информационная система, как соответствующий компонент программной системы, объединяет разнородную информацию о результатах анализа поэтических текстов. Поэтический текст – структура иерархичная по своей языковой природе, что необходимо учитывать при разработке информационных систем, предназначенных для хранения и обработки текстов на естественном языке. Вопрос иерархии текста равнозначно важен для процесса его анализа и для хранения корпусов текстов. Хранилище текстов является, как правило, центральным компонентом информационных аналитических систем и либо проектируется как база данных, либо представляет собой неструктурированный набор данных. Для экспертов-филологов, работающих с системой, принципиально качество данных, что наиболее достижимо при работе с правильно организованным материалом. В результате концептуального проектирования хранилища корпусов поэтических текстов, с учетом специфики объектов предметной области, обосновано целесообразное использование двух систем хранения и поиска данных: реляционной базы данных для хранения связей между объектами в системе, а также объектов, не являющихся частью корпуса, и хранилища файлов с инструментом полнотекстового поиска в корпусе текстов, что повышает качество анализа текстов и расширяет возможности применения системы в целом.
License
Copyright (c) 2024 Вестник ВКТУ
This work is licensed under a Creative Commons Attribution 4.0 International License.