АВТОМАТИЗОВАНЕ РЕФЕРУВАННЯ ТЕКСТІВ: ПРОБЛЕМИ ТА ПЕРСПЕКТИВИ ВИКОРИСТАННЯ
Ключові слова:
комп’ютерна лінгвістика, обробка природної мови, автоматизоване реферування, текст, жанрАнотація
Дану розвідку присвячено проблематиці автоматизованого реферування текстів (АР), аналізу пов’язаних з ним лінгвістичних проблем та способів їх подолання, а також дослідженню перспектив використання деяких комп’ютерних програм обробки природної мови.
У роботі проведено компаративний аналіз двох програм АР текстів літературного, публіцистичного та наукового жанру MSWord2003 та Pertinence Summarizer. Обрана методологія компаративного аналізу дозволила не лише виокремити особливості та обмеження кожної з програм, а й провести деякі узагальнення щодо наявних у процесі автоматизованого реферування проблем.
Наведений у статті аналіз текстів та результатів АР зосереджено на питанні взаємозалежності жанрової типології текстів та процесу/результату АР. Аналіз не бере до уваги такі фактори впливу на якість реферування тексту, як довжина вихідного тексту, мова оригіналу, тематика тощо. Первинна гіпотеза дослідження полягала у твердженні, що якість автоматичного реферування тексту напряму залежить від жанру цього тексту. Отримані результати дозволили підтвердити цю гіпотезу та продемонструвати взаємозалежність між рівнем формалізму в тексті, пов’язаним з його приналежністю до того чи іншого жанру, та семантичною відповідністю виконаного резюме.
Проведене дослідження показало, що обрані нами програми АР базуються, в першу чергу, на морфологічному і в меншій мірі на морфо-синтаксичному аналізі вихідного тексту. Крім того, питання обробки наявної в тексті імпліцитної інформації, на семантичному і прагматичному рівні зокрема, виглядає і досі невирішеним. Одним із можливих способів подолання цієї проблеми є динамічне реферування тексту, що передбачає більшу залученість користувача програми у процес створення автоматизованого резюме.