МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ имени М.В.ЛОМОНОСОВА
ФАКУЛЬТЕТ ВЫЧИСЛИТЕЛЬНОЙ МАТЕМАТИКИ и КИБЕРНЕТИКИ
КАФЕДРА СИСТЕМНОГО ПРОГРАММИРОВАНИЯ
Курсовая работа
Построение риторических деревьев текста на основе машинного обучения в рамках задачи автоматического реферирования.
Исполнитель:
Варламов Максим Игоревич
группа 427
Научный руководитель:
Майоров Владимир Дмитриевич
Москва, 2013
Содержание
2 Обзор существующих решений 8
3 Исследование и построение решения задачи 19
4 Практическая часть 33
Заключение 43
Литература 44
Аннотация
Данная курсовая работа исследует основанные на машинном обучении подходы к построению риторических деревьев текста в рамках Теории Риторической Структуры (Rhetorical Structure Theory). В работе описывается реализация такого подхода в контексте модификации существующей системы автоматического реферирования, использующей риторическую структуру текста для построения его реферата. Алгоритм построения RST-деревьев, используемый в этой системе, является сугубо эвристическим и не использует машинное обучение. Работа оценивает эффективность реализованного подхода по сравнению с исходной эвристикой как на уровне точности риторического анализа текстов, так и на уровне качества рефератов, полученных на его основе.
Введение
Задачей реферирования является составление краткого изложения материала одного или нескольких информационных источников. В условиях постоянного роста количества свободно доступной информации человеку все труднее ориентироваться в ней, поэтому реферативные техники, позволяющие автоматически выделять главное и отбрасывать несущественное, приобретают особое значение. Новостные сводки, аннотации научных статей, сниппеты веб-страниц, дайджесты журналов, обзоры книг, трейлеры фильмов, репортажи спортивных событий – примеры рефератов, с которыми мы встречаемся каждый день.
Данная работа посвящена автоматическому реферированию текстовых документов. В этом аспекте задачу реферирования можно переформулировать как составление текста-реферата по одному или нескольким исходным документам, вкратце отражающему их основные положения. В зависимости от того, для каких целей составляется реферат, на какого читателя рассчитан, какую часть исходных документов должен покрывать, а также от числа текстов-первоисточников, выделяется несколько смежных подзадач автоматического реферирования текстов. Конкретно в данной работе мы рассмотрим составление рефератов наиболее общего назначения по единственному документу-источнику.
Большинство методов автоматического реферирования направлены на выделение в тексте важных фрагментов и перенос их в реферат в практически не измененном виде. Для этого обычно строится некоторая модель исходного текста. Первые и простейшие техники реферирования, такие как [1, 2], использовали частоты употребления отдельных слов и авторскую разметку текста. Другие методы ([3, 4, 5]) используют более сложные модели, например, представление текста в виде графа, где две вершины-предложения связываются дугой, если предложения содержат общие слова. Однако ни те, ни другие модели не претендуют на представление целостной структуры текста в том виде, в котором ее представляет человек. В рамках задачи автоматического реферирования построение таких моделей позволило бы не просто более точно определять наиболее важные фрагменты текста, но и составлять более связные, качественные рефераты. Стремление приблизиться к этому рубежу обосновало появление различных теорий организации структуры дискурса и их использование для моделирования текста. Было предложено несколько различных теорий ([6, 7, 8, 9]), однако наибольшей популярностью пользуется Rhetorical Structure Theory (RST, [10, 11, 12]).
RST определяет набор риторических отношений для описания связей и зависимостей между фрагментами текста. Термин “риторический” здесь близок по смыслу к термину “функциональный”: использование определенных отношений определяется целью, с которой автор пишет текст. Большинство отношений бинарные и асимметричные – определяют связь между двумя фрагментами текста, один из которых (спутник) является зависимым от другого (ядра). Многоядерные, или симметричные, риторические отношения задают связи между двумя и более равнозначными элементами. Поскольку аргументы отношений – непересекающиеся, обычно смежные фрагменты текста – сами могут иметь определенную риторическую структуру, по сути аргументом одного риторического отношения может являться другое риторическое отношение. Данный факт позволяет описывать строение текста в виде иерархической структуры – RST-дерева. Листьям такого дерева соответствуют элементарные, риторически неделимые единицы текста, в роли которых обычно выступают клаузы.
В рамках исследовательского проекта ИСП РАН была разработана система автоматического реферирования текстовых документов, использующая для выделения значимых фрагментов текста его риторическую структуру. Данная система строит RST-дерево подаваемого ей на вход текста с помощью набора эвристик, основанных на синтаксическом анализе предложений. Структура дерева используется для назначения весов его листьям-клаузам, и из наиболее весомых клауз составляется реферат.
Тестирование данной системы выявило относительно низкое качество получаемых с ее помощью рефератов. В качестве тестовых данных использовался набор текстов на английском языке с вручную сделанными аннотациями на основе материалов конференции DUC [17] 2001-го года. Для относительной оценки качества были реализованы два простейших алгоритма автоматического реферирования, выделяющие в качестве реферата соответственно первый абзац исходного текста и набор из первых предложений каждого абзаца. Сгенерированные системой и baseline-алгоритмами рефераты сравнивались с экспертными аннотациями с помощью метрик ROUGE [18]. Результаты приведены в Таблица .
Тем не менее, работы [13, 14, 15, 16] показывают, что риторическая структура документов может быть эффективно использована для получения качественных рефератов. Применимость используемого в рассматриваемой системе алгоритма взвешивания обоснована в [19]. Логично предположить, что причиной неудовлетворительных результатов системы ИСП РАН является низкая корреляция RST-представлений текстов, выделяемых системой, с их реальной риторической структурой. Улучшение механизма построения RST-деревьев может быть достигнуто за счет значительного расширения и усложнения набора используемых эвристик. Однако более интересную альтернативу предлагают работы на основе машинного обучения ([20, 26, 27, 28, 29]), показывающие, что определение риторических отношений в тексте на основе автоматически выведенных правил может быть эффективнее вручную реализованных эвристик.
Таблица . Результаты предварительного тестирования системы автоматического реферирования ИСП РАН на данных DUC-2001 в сравнении с baseline-алгоритмами
|
|
Система ИСП РАН
|
Реферат - первый абзац текста
|
Реферат состоит из первых предложений каждого абзаца
|
ROUGE-1
|
Average recall
|
0.38252
|
0.20768
|
0.39090
|
Average precision
|
0.43041
|
0.58912
|
0.48388
|
Average F-measure
|
0.40461
|
0.29748
|
0.42928
|
ROUGE-2
|
Average recall
|
0.13678
|
0.09795
|
0.17627
|
Average precision
|
0.15380
|
0.29344
|
0.21822
|
Average F-measure
|
0.14463
|
0.14292
|
0.19359
|
ROUGE-L
|
Average recall
|
0.33035
|
0.19771
|
0.36961
|
Average precision
|
0.37180
|
0.56068
|
0.45733
|
Average F-measure
|
0.34946
|
0.28317
|
0.40585
|
|