Санкт-Петербургский государственный университет
Кафедра математической лингвистики
Направление: «Лингвистика»
Образовательная программа: «Прикладная и экспериментальная лингвистика»
Профиль: «Компьютерная лингвистика и интеллектуальные технологии»
Исследование и разработка методов извлечения именованных сущностей
Выпускная квалификационная работа
соискателя на степень магистра филологии
Крастынь Валерии Валерьевны
Научный руководитель
к.ф.н., доц. Хохлова М.В.
Санкт-Петербург
2017
Содержание:
Введение 2
1. Особенности предметной области 3
2. Основные методы извлечения ИС 6
2.1 Подходы к извлечению именованных сущностей 6
2.2 Современные реализации инструментов извлечения именованных сущностей 13
3. Материал исследования - корпусы текстов 20
3.1 Корпус текстов микроблогов 20
3.2. Корпус новостных текстов 21
4. Практическое применение инструментов выделения именованных сущностей 25
4.1. Система GATE 25
4.2. Томита-парсер 30
5. Методика оценки результатов 33
6. Количественные результаты исследования 36
7. Выводы, направления дальнейшей работы 37
Библиография 39
Введение
Целью данного исследования является разработка системы для извлечения именованных сущностей из текстов микроблогов (Твиттер) на русском языке на основе анализа существующих методов и инструментов извлечения именованных сущностей.
Для решения заявленной цели были поставлены следующие задачи:
- исследовать существующие методы извлечения именованных сущностей;
- изучить особенности предметной области – текстов микроблогов;
- выбрать и доработать наиболее подходящие инструменты для анализа выбранной предметной области;
- собрать и разметить корпус текстов микроблогов;
- провести эксперименты на корпусе микроблогов и на фоновом корпусе новостных текстов;
- сравнить результаты по двум корпусам и по двум инструментам;
- сделать выводы о результативности систем и дальнейших направлениях работы.
Актуальность работы обусловлена как широким применением методов извлечения именованных сущностей в различных задачах прикладной лингвистики, так и особенностями предметной области. Выделение именованных сущностей является одной из важных задач автоматической обработки текста. Это обязательный этап во многих системах извлечения структурированной информации из неструктурированных данных: в задачах информационного поиска, при построении вопросно-ответных систем, автоматизированнм сборе и аннотировании новостей, анализе биологических и медицинских текстов. Извлечение именованных сущностей из текстов микроблогов находит применение в первую очередь в системах, используемых для анализа отзывов о товаре и упоминания бренда в сети.
Новизна исследования состоит в выборе и адаптации инструментов извлечения именованных сущностей к конкретному материалу исследования – текстам микроблога Твиттер на русском языке.
Практическая значимость исследования состоит, во-первых, в создании размеченного корпуса текстов микроблогов на русском языке; во-вторых, в экспериментальной оценке и сравнении результатов различных систем извлечения именованных сущностей. Полученные результаты могут быть использованы для дальнейшего совершенствования инструментов выделения именованных сущностей.
1. Особенности предметной области
По данным исследования Риттера [Ritter et al. 2011: 30] каждый день появляется более 100 миллионов новых сообщений в Твиттере. Социальные сети формата микроблога продолжают набирать популярность, в то время как более привычные текстовые блоги отошли на второй план. При подобном бурном росте объема свободно доступных современных текстов на множестве языков Твиттер, несомненно, является одним из важнейших источников данных для задач прикладной лингвистики. В то же время, ряд специфических характеристик данных заставляет исследователей искать нетрадиционные подходы к извлечению информации и в частности, к выделению именованных сущностей.
Работа Риттера и соавторов [30] показала характерные особенности текстов Твиттера, затрудняющие их обработку классическими средствами АОТ. Две основные причины затруднений: во-первых, при обилии в сообщениях-твитах различных ИС (названий компаний, продуктов, музыкальных групп, кинофильмов, сериалов и т.д.), почти все типы, кроме имен людей (Персона) и географических локаций (Локация) встречаются относительно редко, и таким образом даже большой корпус вручную размеченных твитов будет содержать недостаточно сущностей каждого типа для обучения модели. Нехватка должным образом размеченных корпусов является важным сдерживающим фактором развития моделей, основанных на методах машинного обучения в этой сфере. В данной работе исследователи собрали корпус из 2400 случайных твитов и разметили 10 типов сущностей в нем.
Во-вторых, в связи с ограничением в 140 символов, твиты не всегда обладают достаточным контекстом, позволяющим с уверенностью определить тип ИС даже эксперту-аннотатору. Кроме того, тексты Твиттера зачастую не позволяют с уверенностью использовать один из классических признаков для выделения ИС – паттерн капитализации, так как многие сообщения носят отрывистый, телеграфный характер, и их авторы не считают необходимым соблюдение принятых шаблонов капитализации. В силу того же ограничения длины сообщений и их особого формата может быть также затруднен синтаксический анализ (многие сообщения представляют собой неполные предложения, не встречающиеся в более формальных текстах). В дополнение ко всему вышесказанному, тексты Твиттера содержат гораздо большую долю аббревиатур, сленговых сокращений и орфографических ошибок, чем любой другой жанр.
Ссылаясь на сложную, полную «шумов» природу микроблогов, Шерман Малмази и Марк Драс [Malmasi, Dras, 2016: 47] предлагают для выделения в тексте упоминаний локаций опираться на поиск именных групп и n-граммы взамен традиционного подхода к извлечению именованных сущностей.
Леон Держински в работе [Derczynski et al., 2013: 35] также отмечает, что тексты Твиттера сопровождаются обилием метаданных (время, место написания), которые могут дать ключ к некоторым задачам семантической разметки.
В своем обзоре [Derczynski et al., 2014: 42] Держински отмечает помимо прочего, что сами сущности, упоминаемые в Твиттере отличаются от тех, что часто встречаются в новостных текстах. Если говорить о категории «Персона», то в то время как в новостях в нее попадают в основном политики, журналисты и представители бизнеса, микроблоги чаще говорят о спортсменах, актерах, персонажах кино и сериалов, а также о частных лицах – друзьях, родных. Для «Локаций» частотными в новостях будут названия стран, рек, городов, в Твиттере же часто говорят также ресторанах, барах, местных достопримечательностях – небольших объектах. То же характерно и для упоминаний организаций: вместо доминирования крупных в терминах капитализации и кадрового состава, международных или государственных организаций/корпораций, мы также можем часто встретиться с названиями музыкальных коллективов, небольших компаний, стартапов, спортклубов, как общеизвестных, так и местных.
Для твитов также характерно более частое по сравнению с новостями упоминание названий продуктов (примерно в 5% сообщений).
Таким образом, в условиях многообразия представленных типов сущностей усложняется задача обнаружения и классификации сущностей, не представленных на этапе обучения (или написания правил). Это негативно сказывается на результатах различных подходов, основанных как на газеттирах, так и на методах машинного обучения.
Кроме того, как отмечает Держински, для социальных сетей (и микроблогов в частности) характерно явление «смещения» (‘‘drift’’): набор сущностей, широко представленных в текстах микроблогов существенно меняется со временем. В результате система, подготовленная и обученная на корпусе текстов определенного временного периода может хорошо справляться с другими текстами того же периода, но с течением времени результаты станут менее впечатляющими.
О проблемах ненормативного написания в Твиттере и, как следствие, появления большого количества слов, не входящих в словарь (“out-of-vocabulary” - OOV), что делает менее эффективными все этапы обработки текста, также говорят Бо Хан и Тимоти Болдуин [Han, Baldwin, 2014: 24]. Авторы предлагают каскадный метод выявления и нормализации неверно написанных (“ill-formed”) слов, основанный на морфологической и фонетической близости. Однако авторы также признают, что лучшие результаты может дать подход, сочетающий данный спеллчекер с обширным словарем замен и списком «белых» OOV-cлов – не нуждающихся в замене.
|