Санкт-Петербургский государственный университет
Кафедра математической лингвистики
Направление: «Лингвистика»
Образовательная программа: «Прикладная и экспериментальная лингвистика»
Профиль: «Компьютерная лингвистика и интеллектуальные технологии»
Параллельный конкорданс:
поиск и ранжирование переводных контекстов для иллюстрации переводов
в машинном словаре
Выпускная квалификационная работа
соискателя на степень магистра филологии
Протопоповой Екатерины Владимировны
Научный руководитель
к.ф.н., доц. Митрофанова О.А.
Рецензент: Тарелкин А.В.,
руководитель группы инструментов
оценки качества, «Яндекс»
Санкт-Петербург
2016
Оглавление
1)Компьютерная двуязычная лексикография 6
1.1.Основные задачи и направления работы в компьютерной лексикографии 6
1.2.Задачи и методы их решения, общие для корпусной лингвистики, машинного перевода и компьютерной лексикографии 8
1.3.Компьютерная двуязычная лексикография 9
1.4.Электронные двуязычные словари 9
1.5.Словари систем машинного перевода 15
1.6.Автоматически составленные (машинные) двуязычные словари: методология составления и применение 18
1.7.Параллельные конкордансы 23
1.8.Выводы 27
2)Иллюстративный блок одно- и многоязычных словарей 28
2.1.Принципы формирования иллюстративного блока в словарях 28
2.2.Практическая реализация иллюстративного блока в двуязычных словарях 35
Русско-английский словарь под общим руководством проф. А.И. Смирницкого 36
Англо-русский словарь В.К. Мюллера 36
Большой англо-русский словарь под общим руководством И.Р. Гальперина 37
The Oxford Russian dictionary : Russian-English, English-Russian 37
Большой англо-русский словарь Abbyy Lingvo 38
Новый большой англо-русский словарь под руководством Ю.Д. Апресяна 39
2.3.Выводы 40
3)Устойчивые сочетания различных типов и опыт их лексикографирования 41
3.1.Основные концепции устойчивых сочетаний 41
3.2.Представление коллокаций в словарях сочетаний 50
Толково-комбинаторный словарь русского языка 52
A Dictionary of English Collocations 53
Oxford Collocations Dictionary 54
Collins Cobuild English Collocations 55
The BBI Combinatory Dictionary Of English 56
Англо-русский фразеологический словарь 58
Англо-русский словарь глагольных словосочетаний 58
Macmillan Collocations Dictionary 59
Устойчивые словосочетания русского языка 60
Русские глаголы и предикативы 61
Пособие по лексической сочетаемости слов русского языка 61
Словарь сочетаемости слов русского языка 62
3.3.Выводы 63
4)Поиск и ранжирование контекстов для англо-русского машинного словаря 64
4.1.Материал и инструменты исследования 65
4.2.Описание процедуры поиска контекстов 66
4.3.Подготовка обучающей и тестовой выборки 68
4.4.Анализ ошибок в контекстах-кандидатах 72
4.5.Общий алгоритм ранжирования параллельных контекстов 74
4.6.Факторы (признаки) ранжирования 75
Оценка по языковой модели (группа LM) 75
Относительная частота контекста (RelF) 77
Взаимная информация (MI) 77
Векторные модели (WV) 79
Семантическая близость (Sim) 81
4.7.Методы классификации 82
Случайный лес (Random forest) 82
Нейронная сеть прямого распространения 83
Оценка мультиклассификации 85
4.8.Оценка качества классификации 86
4.9.Результаты классификации 87
4.10.Сравнение ранжирования с простыми эвристическими методами 88
4.11.Значимость признаков классификации 89
4.12.Выводы 90
Ранжирование контекстов на основе меры MI 104
Ранжирование контекстов на основе частоты перевода 108
Ранжирование 111
Ранжирование 115
Ранжирование 118
Ранжирование 122
Работа посвящена поиску и ранжированию переводных контекстов для иллюстрации переводов в машинном словаре. Создание словарей автоматическими методами – сравнительно молодое направление компьютерной лексикографии, поэтому неудивительно, что исследования, посвящённые автоматическому составлению иллюстративного блока, очень редки. Можно предположить, что машинные словари в этом отношении следуют принципам классических «бумажных» словарей, но в действительности словарь, создаваемый «с нуля» или на основе бумажного издания и предназначенный для той или иной системы автоматического понимания текстов, – это реализация модели семантического, морфологического, синтаксического и других уровней естественного языка, основанной на идеях искусственного интеллекта [Караулов и др. 1982].
С другой стороны, та же проблема наблюдается и в лексикографии в целом и связана с разрывом между лингвистической теорией и лексикографической практикой. Лингвистическая описательная и аналитическая работа направлена на регистрацию широкого спектра явлений – нормы и отклонения от нормы, кода и узуса. Особенно это касается грамматики, то есть явлений морфологии и синтаксиса.
В лексикографической работе также проводится анализ наблюдаемых явлений языка и речи, но регистрации и систематизации подлежит не всё, а определённый класс явлений. В одних случаях описывается только норма, которая может быть в некоторых случаях результатом сознательного выбора специалистов, в других – параметры, характеризующие единицу языка с определённой точки зрения. Так, в словарях может описываться слово и его значение, восстанавливаемое на основе наблюдений за употреблением слова с текстах, слово и его происхождение, слово и его прагматические характеристики, например, сфера употребления.
Словари предназначаются обычно для широкой аудитории (носителей языка, изучающих язык) и при создании рассчитываются на долговременное использование. Лингвистические теории, в том числе касающиеся лексикографических проблем, разрабатываются специалистами для специалистов. Кроме того, они часто охватывают лишь конкретное языковое явление или класс случаев, тогда как словарь (в первую очередь, общего типа) должен охватить всё разнообразие одного или нескольких языков. Сложность разработки лексикографических принципов обусловлена и трудностью создания словаря вообще (некоторые толковые словари создаются десятилетиями, например,
Словарь современного русского литературного языка издавался с 1948 по 1965 год, а работы по его созданию начались в 1937 году): словарь невозможно быстро переработать, чтобы принять во внимание новую трактовку какого-либо явления. Всё это приводит к тому, что составители словарей часто опираются либо на уже сложившуюся практику, либо на общепринятую теорию, а большинство теоретических разработок не используется вообще. Исключением является проект Толково-комбинаторного словаря, о котором подробнее будет сказано ниже. Следует лишь отметить, что в данном случае речь идёт о лексикографическом произведении, полностью основанном на лингвистической теории (модели «Смысл
Текст»).
Лингвистические теории, касающиеся сочетаемости лексем, практически не употребляются в лексикографической практике. Говоря же об иллюстративных контекстах в двуязычном словаре, неизбежно приходится упоминать понятие сочетаемости. Поэтому в дальнейшем мы будем рассматривать и теоретические работы, возможно, отчасти отражённые в существующих словарях, и особенности лексикографической практики (то есть существующие словари).
Целью работы является разработка алгоритма ранжирования иллюстрирующих контекстов для англо-русского машинного переводного словаря. Исходя из данной цели, а также учитывая указанные выше проблемы, формулируются следующие
задачи:
анализ принципов составления и особенностей существующих электронных словарей различных типов;
описание и анализ реализации иллюстративного блока в современной лексикографической практике;
описание подходов к сочетаемости и анализ их отражения в лексикографической практике;
выделение необходимых признаков для описания двуязычных контекстов, подходящих для иллюстрации статей в переводном словаре.
Предполагается также решение следующих
практических задач:
разметка потенциальных иллюстраций для создания обучающей выборки и дополнения набора признаков ранжирования;
реализация алгоритма ранжирования параллельных контекстов;
оценка качества ранжирования и релевантности выделенных признаков.
Для ранжирования параллельных контекстов, описанных с помощью набора признаков, используются такие
методы машинного обучения, как метод случайного леса и нейронная сеть прямого распространения.
Материалом для исследования реализации иллюстративного блока послужили существующие англо-русские словари и словари сочетаемости английского и русского языка. Параллельные контексты для машинного переводного словаря, которые используются при ранжировании, извлечены из параллельного англо-русского интернет-корпуса.
Актуальность работы обусловлена тем, что, как сказано выше, проблема иллюстративного блока практически не разработана в машинной лексикографии вообще, а особенно – в двуязычной. С другой стороны, компьютерная лексикография практически не учитывает опыт «безмашинной» лексикографии и многочисленные лингвистические исследования. Наша работа направлена на восполнение этого пробела.
Практические результаты работы используются в рамках сервиса «Яндекс. Переводчик» и обсуждались в статье [Protopopova и др. 2015], а также в докладе на конференции «Диалог’2015».