Соискателя на степень магистра филологии Крастынь Валерии Валерьевны Научный руководитель к ф. н., доц. Хохлова М. В


Скачать 439.01 Kb.
Название Соискателя на степень магистра филологии Крастынь Валерии Валерьевны Научный руководитель к ф. н., доц. Хохлова М. В
страница 1/9
Тип Выпускная квалификационная работа
rykovodstvo.ru > Руководство эксплуатация > Выпускная квалификационная работа
  1   2   3   4   5   6   7   8   9
Санкт-Петербургский государственный университет

Кафедра математической лингвистики

Направление: «Лингвистика»
Образовательная программа: «Прикладная и экспериментальная лингвистика»
Профиль: «Компьютерная лингвистика и интеллектуальные технологии»

Исследование и разработка методов извлечения именованных сущностей
Выпускная квалификационная работа
соискателя на степень магистра филологии
Крастынь Валерии Валерьевны
Научный руководитель

к.ф.н., доц. Хохлова М.В.

Санкт-Петербург

2017
Содержание:



Введение 2

1. Особенности предметной области 3

2. Основные методы извлечения ИС 6

2.1 Подходы к извлечению именованных сущностей 6

2.2 Современные реализации инструментов извлечения именованных сущностей 13

3. Материал исследования - корпусы текстов 20

3.1 Корпус текстов микроблогов 20

3.2. Корпус новостных текстов 21

4. Практическое применение инструментов выделения именованных сущностей 25

4.1. Система GATE 25

4.2. Томита-парсер 30

5. Методика оценки результатов 33

6. Количественные результаты исследования 36

7. Выводы, направления дальнейшей работы 37

Библиография 39





Введение



Целью данного исследования является разработка системы для извлечения именованных сущностей из текстов микроблогов (Твиттер) на русском языке на основе анализа существующих методов и инструментов извлечения именованных сущностей.

Для решения заявленной цели были поставлены следующие задачи:

- исследовать существующие методы извлечения именованных сущностей;

- изучить особенности предметной области – текстов микроблогов;

- выбрать и доработать наиболее подходящие инструменты для анализа выбранной предметной области;

- собрать и разметить корпус текстов микроблогов;

- провести эксперименты на корпусе микроблогов и на фоновом корпусе новостных текстов;

- сравнить результаты по двум корпусам и по двум инструментам;

- сделать выводы о результативности систем и дальнейших направлениях работы.

Актуальность работы обусловлена как широким применением методов извлечения именованных сущностей в различных задачах прикладной лингвистики, так и особенностями предметной области. Выделение именованных сущностей является одной из важных задач автоматической обработки текста. Это обязательный этап во многих системах извлечения структурированной информации из неструктурированных данных: в задачах информационного поиска, при построении вопросно-ответных систем, автоматизированнм сборе и аннотировании новостей, анализе биологических и медицинских текстов. Извлечение именованных сущностей из текстов микроблогов находит применение в первую очередь в системах, используемых для анализа отзывов о товаре и упоминания бренда в сети.

Новизна исследования состоит в выборе и адаптации инструментов извлечения именованных сущностей к конкретному материалу исследования – текстам микроблога Твиттер на русском языке.

Практическая значимость исследования состоит, во-первых, в создании размеченного корпуса текстов микроблогов на русском языке; во-вторых, в экспериментальной оценке и сравнении результатов различных систем извлечения именованных сущностей. Полученные результаты могут быть использованы для дальнейшего совершенствования инструментов выделения именованных сущностей.

1. Особенности предметной области



По данным исследования Риттера [Ritter et al. 2011: 30] каждый день появляется более 100 миллионов новых сообщений в Твиттере. Социальные сети формата микроблога продолжают набирать популярность, в то время как более привычные текстовые блоги отошли на второй план. При подобном бурном росте объема свободно доступных современных текстов на множестве языков Твиттер, несомненно, является одним из важнейших источников данных для задач прикладной лингвистики. В то же время, ряд специфических характеристик данных заставляет исследователей искать нетрадиционные подходы к извлечению информации и в частности, к выделению именованных сущностей.

Работа Риттера и соавторов [30] показала характерные особенности текстов Твиттера, затрудняющие их обработку классическими средствами АОТ. Две основные причины затруднений: во-первых, при обилии в сообщениях-твитах различных ИС (названий компаний, продуктов, музыкальных групп, кинофильмов, сериалов и т.д.), почти все типы, кроме имен людей (Персона) и географических локаций (Локация) встречаются относительно редко, и таким образом даже большой корпус вручную размеченных твитов будет содержать недостаточно сущностей каждого типа для обучения модели. Нехватка должным образом размеченных корпусов является важным сдерживающим фактором развития моделей, основанных на методах машинного обучения в этой сфере. В данной работе исследователи собрали корпус из 2400 случайных твитов и разметили 10 типов сущностей в нем.

Во-вторых, в связи с ограничением в 140 символов, твиты не всегда обладают достаточным контекстом, позволяющим с уверенностью определить тип ИС даже эксперту-аннотатору. Кроме того, тексты Твиттера зачастую не позволяют с уверенностью использовать один из классических признаков для выделения ИС – паттерн капитализации, так как многие сообщения носят отрывистый, телеграфный характер, и их авторы не считают необходимым соблюдение принятых шаблонов капитализации. В силу того же ограничения длины сообщений и их особого формата может быть также затруднен синтаксический анализ (многие сообщения представляют собой неполные предложения, не встречающиеся в более формальных текстах). В дополнение ко всему вышесказанному, тексты Твиттера содержат гораздо большую долю аббревиатур, сленговых сокращений и орфографических ошибок, чем любой другой жанр.

Ссылаясь на сложную, полную «шумов» природу микроблогов, Шерман Малмази и Марк Драс [Malmasi, Dras, 2016: 47] предлагают для выделения в тексте упоминаний локаций опираться на поиск именных групп и n-граммы взамен традиционного подхода к извлечению именованных сущностей.

Леон Держински в работе [Derczynski et al., 2013: 35] также отмечает, что тексты Твиттера сопровождаются обилием метаданных (время, место написания), которые могут дать ключ к некоторым задачам семантической разметки.

В своем обзоре [Derczynski et al., 2014: 42] Держински отмечает помимо прочего, что сами сущности, упоминаемые в Твиттере отличаются от тех, что часто встречаются в новостных текстах. Если говорить о категории «Персона», то в то время как в новостях в нее попадают в основном политики, журналисты и представители бизнеса, микроблоги чаще говорят о спортсменах, актерах, персонажах кино и сериалов, а также о частных лицах – друзьях, родных. Для «Локаций» частотными в новостях будут названия стран, рек, городов, в Твиттере же часто говорят также ресторанах, барах, местных достопримечательностях – небольших объектах. То же характерно и для упоминаний организаций: вместо доминирования крупных в терминах капитализации и кадрового состава, международных или государственных организаций/корпораций, мы также можем часто встретиться с названиями музыкальных коллективов, небольших компаний, стартапов, спортклубов, как общеизвестных, так и местных.

Для твитов также характерно более частое по сравнению с новостями упоминание названий продуктов (примерно в 5% сообщений).

Таким образом, в условиях многообразия представленных типов сущностей усложняется задача обнаружения и классификации сущностей, не представленных на этапе обучения (или написания правил). Это негативно сказывается на результатах различных подходов, основанных как на газеттирах, так и на методах машинного обучения.

Кроме того, как отмечает Держински, для социальных сетей (и микроблогов в частности) характерно явление «смещения» (‘‘drift’’): набор сущностей, широко представленных в текстах микроблогов существенно меняется со временем. В результате система, подготовленная и обученная на корпусе текстов определенного временного периода может хорошо справляться с другими текстами того же периода, но с течением времени результаты станут менее впечатляющими.

О проблемах ненормативного написания в Твиттере и, как следствие, появления большого количества слов, не входящих в словарь (“out-of-vocabulary” - OOV), что делает менее эффективными все этапы обработки текста, также говорят Бо Хан и Тимоти Болдуин [Han, Baldwin, 2014: 24]. Авторы предлагают каскадный метод выявления и нормализации неверно написанных (“ill-formed”) слов, основанный на морфологической и фонетической близости. Однако авторы также признают, что лучшие результаты может дать подход, сочетающий данный спеллчекер с обширным словарем замен и списком «белых» OOV-cлов – не нуждающихся в замене.

  1   2   3   4   5   6   7   8   9

Похожие:

Соискателя на степень магистра филологии Крастынь Валерии Валерьевны Научный руководитель к ф. н., доц. Хохлова М. В icon Соискателя на степень магистра филологии Прохоровой Александры Алексеевны...
У таких инструментов есть ряд недостатков — ни одна из таких платформ, существующих в настоящее время, не является оптимальной с...
Соискателя на степень магистра филологии Крастынь Валерии Валерьевны Научный руководитель к ф. н., доц. Хохлова М. В icon Соискателя на степень магистра филологии Коноваловой Александры Владимировны...
Основными функциями языка являются коммуникативная (язык предназначен для взаимодействия людей), когнитивная (язык служит для передачи...
Соискателя на степень магистра филологии Крастынь Валерии Валерьевны Научный руководитель к ф. н., доц. Хохлова М. В icon Магистра филологии Егора Андреевича Инокова Научный к ф. н., ст преп....
Способы выражения просьбы в польском и немецком языках (в сопоставлении с русским)
Соискателя на степень магистра филологии Крастынь Валерии Валерьевны Научный руководитель к ф. н., доц. Хохлова М. В icon На соискание степени бакалавра филологии Научный к ф. н., доц. Сытнов...
I. Терминосистема: формирование, особенности, классификация
Соискателя на степень магистра филологии Крастынь Валерии Валерьевны Научный руководитель к ф. н., доц. Хохлова М. В icon Магистра лингвистики Научный к п. н., доц. Беликова Л. Г. Рецензент:...
Синтаксические средства передачи косвенных речевых актов в публицистических текстах
Соискателя на степень магистра филологии Крастынь Валерии Валерьевны Научный руководитель к ф. н., доц. Хохлова М. В icon Магистра лингвистики Научный к ф. н., доц., доц. Соколова Е. В рецензент:...
ОП, выражение конверсных отношений, выражение каузативных и фазисных действий, номинации действия при отсутствии в языке глагольной...
Соискателя на степень магистра филологии Крастынь Валерии Валерьевны Научный руководитель к ф. н., доц. Хохлова М. В icon Магистранта Санжиевой Сэсэг Зоригтуевны на тему: «языковая манипуляция...
Стратегии речевого воздействия в заголовках англоязычных новостных репортажей 47
Соискателя на степень магистра филологии Крастынь Валерии Валерьевны Научный руководитель к ф. н., доц. Хохлова М. В icon Магистра лингвистики Научный к ф. н., доц. Косарева Е. В. Рецензент:...
Охватывают также целые классы слов, единых по своей категориальной сущности (выражающие, например, значение предметности, признака,...
Соискателя на степень магистра филологии Крастынь Валерии Валерьевны Научный руководитель к ф. н., доц. Хохлова М. В icon Магистра филологии Научный к ф. н., доцент Ю. В. Каминская Рецензент:...
Философские основы, зарождение и развитие комплекса представлений о синтезе искусств. 8
Соискателя на степень магистра филологии Крастынь Валерии Валерьевны Научный руководитель к ф. н., доц. Хохлова М. В icon Научный руководитель к п. н., доц. Кабакчи М. К
Проблема сохранения художественно-эстетического своеобразия оригинала 6
Соискателя на степень магистра филологии Крастынь Валерии Валерьевны Научный руководитель к ф. н., доц. Хохлова М. В icon Магистра лингвистики Научный к ф. н., доц. Гулякова И. Г. Рецензент:...
Охватывает все аспекты семейной жизни: хозяйственные дела, работа, школа, досуг и т п
Соискателя на степень магистра филологии Крастынь Валерии Валерьевны Научный руководитель к ф. н., доц. Хохлова М. В icon Соискателя на степень бакалавра: Свиридовой Екатерины Георгиевны...
...
Соискателя на степень магистра филологии Крастынь Валерии Валерьевны Научный руководитель к ф. н., доц. Хохлова М. В icon Магистра филологии Научный к ф. н., доцент Митрофанова Ирина Анатольевна...
Заголовочный комплекс периодического издания в аспекте речевого воздействия (на материалах газеты "культура")
Соискателя на степень магистра филологии Крастынь Валерии Валерьевны Научный руководитель к ф. н., доц. Хохлова М. В icon Дипломная работа на тему: «Реализация сервисов многоцелевого поиска и заказа группы товаров»
Научный руководитель к ф м н., доц. Н. Г. Графеева
Соискателя на степень магистра филологии Крастынь Валерии Валерьевны Научный руководитель к ф. н., доц. Хохлова М. В icon Анализа и прогнозирования Тема номера: Управление устойчивым социо-эколого-экономическим...
Гордеев, руководитель Научно-образовательного центра «Развитие социально-экономических систем» Института экономики Уральского отделения...
Соискателя на степень магистра филологии Крастынь Валерии Валерьевны Научный руководитель к ф. н., доц. Хохлова М. В icon Магистра филологии Научный к ф. н., доцент А. А. Аствацатуров Рецензент:...
Точка зрения индивида, существующего в американском культурном пространстве, также в особом порядке рассматривается автором даже...

Руководство, инструкция по применению




При копировании материала укажите ссылку © 2024
контакты
rykovodstvo.ru
Поиск