КЛАСТЕРЛЕУ ӘДІСІ ҚОЛДАНЫП КОРЕФЕРЕНЦИЯНЫ ШЕШУ
Жарияланды:
2024-03-29Журналдың саны:
№ 1 (2024): "Вестник ВКТУ им.Д.Серикбаева"Бөлім:
СтатьиМақала тілі:
Қазақ тіліКілт сөздер:
кореференция, кластерлеу, томита-парсер, референция, анафора.Аңдатпа
Аңдатпа. Қазіргі кезде табиғи тілді өңдеу процессі соның ішінде сілтемелік қатынастарды өңдеу ең қин әрі қызықты тақырыпқа айналды. Осындай өңдеу процесстердің бірі сөйлем ішіндегі референциялық қатынастарды шығару.
Көбінесе cілтеменің шешімі ретінде пайда болатын референцияны шешу - бұл дискурстағы бұрынғы немесе кейінгі элементтерге сілтемелерді шешу мәселесі. референцияның шешімі-бұл мәтінді іздеу, мәтінді жалпылау, диалогтарды түсіндіру, ақпарат алу және т.б. сияқты белсенді зерттеу саласы.
Тіл білімінде референция– мәтіндік өрнекті қандай да бір тілдік емес объектімен нақты немесе дерексіз дүниедегі оқиғамен салыстыру. Дәстүрлі тіл білімі референция сөз тіркестерінің екі негізгі класын қарастырады: лексикалық толық формалар (атаулы сөз тіркестері және т.б.)және қысқартылған формалар (мысалы, есімдіктер, сілтеу есімдігі, жіктеу есімдігі, өздік есімдіктер). Рференцияны шешудің міндеті белгілі бір тілден тыс нысан туралы нақты мәтіндік сілтемені осы мәтіндегі басқа сілтемелермен анықтау. Тіл біліміндегі референциялық қатынасты шешу басқа тілдер үшін көптен зерттеліп келеді, ал қазақ тілі үшін әлі күнге дейін зерттеулер өте аз. Біз осы мәселелерді ескере отырып, қазақ тіліндегі сілтемелік қатынастарды шешу мақсатын қойдық.
Бұл мақалада біз қазақ тіліндегі кореференциялық қатынасты кластерлеу әдісін қолдана отырып шешуді қарасстырамыз. Бұндағы зерттелетін жүйенің мақсаты қазақ тіліндегі кореференциялық қатынастарды шешу яғни тұлғаларға қатысты жалқы есімдерді кластерлеу (Тұлға түрі). Басқаша айтқанда, тапсырма мәтінде бар есімнің барлық бөліктерін (яғни, мәтінде көрсетілген әрбір адамның лауазымы, аты, тегі, әкесінің аты) біріктіру болып табылады.
Мақсатқа жету үшін tomita-parser, кілттік сөздер сөздігі, толық атауды алуға арналған грамматика, сөздік атауларды шығаруға арналған грамматика, кластерлеу, жұптық модель, мүмкіндік векторы(Вектор признаков), жұптық салмақ векторын қолдандық.
Біздің алгоритм екі кезеңнен тұрады: бірінші кезең, Атаулы нысандарды шығару үшін Tomita- парсер талдаушысына (томита-парсер) грамматикаларды жазу . Екінші кезеңде алынған атаулы нысандарды мәні бойынша біріктіру үшін кластерлеуді қолдану.(жұмыстың архитектурасы 1-суретте).
Құрылған алгоритмді жүзеге асыру мақсатында сынақ деректері жинағы ретінде Tengrinews.kz- тен жаңалықтар топтамасын қолдандық.
Алгоритмінің Өнімділігін дәстүрлі бағалау метрикасының көмегімен бағаланды, мұнда томита- парсер және кластерлеу алгоритмдерін жеке - жеке бағалау жүзеге асырылды және нәтижелері кесте түрінде берілді. Алынған нәтижелер басқа әдістермен салыстырғанда томита -парсер алгоритмі 0.87%, ал кластерлеу алгоритмі 0.81%құрады, нәтижелер кесте түрінде белгіленді(3-кесте және 4-кестеде көрсетілінді).
Лицензия
Авторлық құқық (c) 2024 ШҚТУ Хабаршысы
Бұл жұмыс Creative Commons атрибуты бойынша лицензияланған. 4.0 Халықаралық лицензия.