СОЗДАНИЕ СЛОВАРЯ КЛЮЧЕВЫХ СЛОВ ДЛЯ КЛАССИФИКАТОРА ТЕКСТОВ, СОДЕРЖАЩИХ ОПАСНЫЙ КОНТЕНТ В КИБЕРПРОСТРАНСТВЕ КАЗАХСТАНА
Ключевые слова:
обработка естественного языка, сентимент-анализ, машинное обучение, частота терминов, классификация текстаАннотация
Данная работа является частью исследования создания информационной системы для поиска опасного контента в киберпространстве Казахстана. Целью исследования является создания словаря ключевых слов для работы классификатора текстов, содержащих опасный контент, на примере задачи выявления наличия суицидального риска в текстах предсмертных записок и групп смертников. Для казахского языка не существует такой базы данных. В результате этого исследования был создан экспериментальный корпус и список ключевых слов на казахском языке. Ключевые слова были добавлены в базу данных с различными морфологическими формами.