Кафедра системного программирования


Скачать 467.83 Kb.
Название Кафедра системного программирования
страница 1/5
Тип Курсовая
rykovodstvo.ru > Руководство эксплуатация > Курсовая
  1   2   3   4   5
МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ имени М.В.ЛОМОНОСОВА

ФАКУЛЬТЕТ ВЫЧИСЛИТЕЛЬНОЙ МАТЕМАТИКИ и КИБЕРНЕТИКИ

КАФЕДРА СИСТЕМНОГО ПРОГРАММИРОВАНИЯ

Курсовая работа

Построение риторических деревьев текста на основе машинного обучения в рамках задачи автоматического реферирования.

Исполнитель:

Варламов Максим Игоревич

группа 427

Научный руководитель:

Майоров Владимир Дмитриевич

Москва, 2013

Содержание


2 Обзор существующих решений 8

3 Исследование и построение решения задачи 19

4 Практическая часть 33

Заключение 43

Литература 44



Аннотация


Данная курсовая работа исследует основанные на машинном обучении подходы к построению риторических деревьев текста в рамках Теории Риторической Структуры (Rhetorical Structure Theory). В работе описывается реализация такого подхода в контексте модификации существующей системы автоматического реферирования, использующей риторическую структуру текста для построения его реферата. Алгоритм построения RST-деревьев, используемый в этой системе, является сугубо эвристическим и не использует машинное обучение. Работа оценивает эффективность реализованного подхода по сравнению с исходной эвристикой как на уровне точности риторического анализа текстов, так и на уровне качества рефератов, полученных на его основе.

Введение


Задачей реферирования является составление краткого изложения материала одного или нескольких информационных источников. В условиях постоянного роста количества свободно доступной информации человеку все труднее ориентироваться в ней, поэтому реферативные техники, позволяющие автоматически выделять главное и отбрасывать несущественное, приобретают особое значение. Новостные сводки, аннотации научных статей, сниппеты веб-страниц, дайджесты журналов, обзоры книг, трейлеры фильмов, репортажи спортивных событий – примеры рефератов, с которыми мы встречаемся каждый день.

Данная работа посвящена автоматическому реферированию текстовых документов. В этом аспекте задачу реферирования можно переформулировать как составление текста-реферата по одному или нескольким исходным документам, вкратце отражающему их основные положения. В зависимости от того, для каких целей составляется реферат, на какого читателя рассчитан, какую часть исходных документов должен покрывать, а также от числа текстов-первоисточников, выделяется несколько смежных подзадач автоматического реферирования текстов. Конкретно в данной работе мы рассмотрим составление рефератов наиболее общего назначения по единственному документу-источнику.

Большинство методов автоматического реферирования направлены на выделение в тексте важных фрагментов и перенос их в реферат в практически не измененном виде. Для этого обычно строится некоторая модель исходного текста. Первые и простейшие техники реферирования, такие как [1, 2], использовали частоты употребления отдельных слов и авторскую разметку текста. Другие методы ([3, 4, 5]) используют более сложные модели, например, представление текста в виде графа, где две вершины-предложения связываются дугой, если предложения содержат общие слова. Однако ни те, ни другие модели не претендуют на представление целостной структуры текста в том виде, в котором ее представляет человек. В рамках задачи автоматического реферирования построение таких моделей позволило бы не просто более точно определять наиболее важные фрагменты текста, но и составлять более связные, качественные рефераты. Стремление приблизиться к этому рубежу обосновало появление различных теорий организации структуры дискурса и их использование для моделирования текста. Было предложено несколько различных теорий ([6, 7, 8, 9]), однако наибольшей популярностью пользуется Rhetorical Structure Theory (RST, [10, 11, 12]).

RST определяет набор риторических отношений для описания связей и зависимостей между фрагментами текста. Термин “риторический” здесь близок по смыслу к термину “функциональный”: использование определенных отношений определяется целью, с которой автор пишет текст. Большинство отношений бинарные и асимметричные – определяют связь между двумя фрагментами текста, один из которых (спутник) является зависимым от другого (ядра). Многоядерные, или симметричные, риторические отношения задают связи между двумя и более равнозначными элементами. Поскольку аргументы отношений – непересекающиеся, обычно смежные фрагменты текста – сами могут иметь определенную риторическую структуру, по сути аргументом одного риторического отношения может являться другое риторическое отношение. Данный факт позволяет описывать строение текста в виде иерархической структуры – RST-дерева. Листьям такого дерева соответствуют элементарные, риторически неделимые единицы текста, в роли которых обычно выступают клаузы.

В рамках исследовательского проекта ИСП РАН была разработана система автоматического реферирования текстовых документов, использующая для выделения значимых фрагментов текста его риторическую структуру. Данная система строит RST-дерево подаваемого ей на вход текста с помощью набора эвристик, основанных на синтаксическом анализе предложений. Структура дерева используется для назначения весов его листьям-клаузам, и из наиболее весомых клауз составляется реферат.

Тестирование данной системы выявило относительно низкое качество получаемых с ее помощью рефератов. В качестве тестовых данных использовался набор текстов на английском языке с вручную сделанными аннотациями на основе материалов конференции DUC [17] 2001-го года. Для относительной оценки качества были реализованы два простейших алгоритма автоматического реферирования, выделяющие в качестве реферата соответственно первый абзац исходного текста и набор из первых предложений каждого абзаца. Сгенерированные системой и baseline-алгоритмами рефераты сравнивались с экспертными аннотациями с помощью метрик ROUGE [18]. Результаты приведены в Таблица .

Тем не менее, работы [13, 14, 15, 16] показывают, что риторическая структура документов может быть эффективно использована для получения качественных рефератов. Применимость используемого в рассматриваемой системе алгоритма взвешивания обоснована в [19]. Логично предположить, что причиной неудовлетворительных результатов системы ИСП РАН является низкая корреляция RST-представлений текстов, выделяемых системой, с их реальной риторической структурой. Улучшение механизма построения RST-деревьев может быть достигнуто за счет значительного расширения и усложнения набора используемых эвристик. Однако более интересную альтернативу предлагают работы на основе машинного обучения ([20, 26, 27, 28, 29]), показывающие, что определение риторических отношений в тексте на основе автоматически выведенных правил может быть эффективнее вручную реализованных эвристик.
Таблица . Результаты предварительного тестирования системы автоматического реферирования ИСП РАН на данных DUC-2001 в сравнении с baseline-алгоритмами








Система ИСП РАН

Реферат - первый абзац текста

Реферат состоит из первых предложений каждого абзаца

ROUGE-1

Average recall

0.38252

0.20768

0.39090

Average precision

0.43041

0.58912

0.48388

Average F-measure

0.40461

0.29748

0.42928

ROUGE-2

Average recall

0.13678

0.09795

0.17627

Average precision

0.15380

0.29344

0.21822

Average F-measure

0.14463

0.14292

0.19359

ROUGE-L

Average recall

0.33035

0.19771

0.36961

Average precision

0.37180

0.56068

0.45733

Average F-measure

0.34946

0.28317

0.40585


  1   2   3   4   5

Похожие:

Кафедра системного программирования icon Математико-Механический Факультет Кафедра Системного Программирования...
Платформа IntelliJ эта бесплатная программная платформа с открытым исходным кодом, предназначенная для написания удобных и многофункциональных...
Кафедра системного программирования icon Кафедра системного программирования Разработка отладчика для программ...
Такие проекты как, Google Maps, Photoshop Express, Zoho доказали возможность создания качественных web-ориентированных программных...
Кафедра системного программирования icon Кафедра систем автоматизированного проектирования
Сформировать системное базовое представление, первичные знания, умения и навыки студентов по основам программирования на объектно-ориентированном...
Кафедра системного программирования icon Математико-механический факультет Кафедра системного программирования...
К ним можно отнести сегодня разве что db2 udb корпорации ibm и Oracle. Оба продукта обладают развитой функциональностью, необходимой...
Кафедра системного программирования icon Рабочая программа учебной дисциплины (модуля) Современные операционные системы
Целью изучения дисциплины является подготовка студентов в области системного программирования, использования, установки, проектирования...
Кафедра системного программирования icon Математико-механический факультет Кафедра системного программирования...
Поэтому на настоящий момент практически все распространенные форматы электронных обучающих курсов основываются на xml-технологиях:...
Кафедра системного программирования icon Кафедра системного программирования Разработка технологии взаимодействия...
Разработка технологии взаимодействия гетерогенных систем с использованием метапрограммирования
Кафедра системного программирования icon А. И. Аветисян «05» февраля 2018 г
Федеральное государственное бюджетное учреждение науки Институт системного программирования им. В. П. Иванникова Российской академии...
Кафедра системного программирования icon Кафедра системного программирования Рандомизированный алгоритм стохастической...
Рандомизированный алгоритм стохастической аппроксимации в задаче распознавания отдельных слов речи
Кафедра системного программирования icon Кафедра системного программирования Система анализа реконструктивных...
Система анализа реконструктивных хирургических операций при помощи Microsoft Kinect
Кафедра системного программирования icon Разработка модуля вычисления синдромов и восстановления утраченных...
Демьяненко И. И., студент кафедры системного программирования спбГУ, dii6@yandex ru
Кафедра системного программирования icon Библиотека системного программиста
В книге приведено описание методик программирования аппаратуры персональных компьютеров, выполненных с применением процессоров Intel,...
Кафедра системного программирования icon Экзаменационные вопросы по дисциплине «Инструментальные средства и технологии программирования»
Понятие технологии программирования. Основные задачи технологии программирования
Кафедра системного программирования icon Кафедра вычислительной техники Технологии программирования Курсовой...
Программа может применяться пользователями персональных компьютеров для преобразования растрового изображения в ascii-графику
Кафедра системного программирования icon Конспект лекций по предмету технология программирования базовая кафедра...
Оформление программной документации. Единая Система Программной Документации (еспд). 12
Кафедра системного программирования icon Конспект урока на тему «Языки программирования. Основы объектно-ориентированного...
Язык программирования это формальный язык для записи алгоритмов в виде, допускающем их автоматическую подготовку к выполнению на...

Руководство, инструкция по применению




При копировании материала укажите ссылку © 2024
контакты
rykovodstvo.ru
Поиск