ОРГАНИЗАЦИЯ ХРАНЕНИЯ КОРПУСОВ ПОЭТИЧЕСКИХ ТЕКСТОВ В ИНФОРМАЦИОННЫХ АНАЛИТИЧЕСКИХ СИСТЕМАХ С УЧЕТОМ СПЕЦИФИКИ ПРЕДМЕТНОЙ ОБЛАСТИ
Ключевые слова:
Обработка текстов на естественном языке, информационные системы, базы данных, хранение файловАннотация
В настоящей работе рассматривается вопрос организации хранения корпусов поэтических текстов в информационных аналитических системах с учетом специфики структуры поэтического текста. В Федеральном исследовательском центре информационных и вычислительных технологий разработана и реализована оригинальная программная система автоматизированного комплексного анализа русских поэтических текстов. Информационная система, как соответствующий компонент программной системы, объединяет разнородную информацию о результатах анализа поэтических текстов. Поэтический текст – структура иерархичная по своей языковой природе, что необходимо учитывать при разработке информационных систем, предназначенных для хранения и обработки текстов на естественном языке. Вопрос иерархии текста равнозначно важен для процесса его анализа и для хранения корпусов текстов. Хранилище текстов является, как правило, центральным компонентом информационных аналитических систем и либо проектируется как база данных, либо представляет собой неструктурированный набор данных. Для экспертов-филологов, работающих с системой, принципиально качество данных, что наиболее достижимо при работе с правильно организованным материалом. В результате концептуального проектирования хранилища корпусов поэтических текстов, с учетом специфики объектов предметной области, обосновано целесообразное использование двух систем хранения и поиска данных: реляционной базы данных для хранения связей между объектами в системе, а также объектов, не являющихся частью корпуса, и хранилища файлов с инструментом полнотекстового поиска в корпусе текстов, что повышает качество анализа текстов и расширяет возможности применения системы в целом.