Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии»




НазваниеОбразовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии»
страница1/28
ТипОбразовательная программа
rykovodstvo.ru > Руководство ремонт > Образовательная программа
  1   2   3   4   5   6   7   8   9   ...   28

Санкт-Петербургский государственный университет

Кафедра математической лингвистики

Направление: «Лингвистика»
Образовательная программа: «Прикладная и экспериментальная лингвистика»
Профиль: «Компьютерная лингвистика и интеллектуальные технологии»

Параллельный конкорданс:

поиск и ранжирование переводных контекстов для иллюстрации переводов

в машинном словаре
Выпускная квалификационная работа
соискателя на степень магистра филологии
Протопоповой Екатерины Владимировны
Научный руководитель

к.ф.н., доц. Митрофанова О.А.
Рецензент: Тарелкин А.В.,

руководитель группы инструментов

оценки качества, «Яндекс»

Санкт-Петербург

2016

Оглавление


1)Компьютерная двуязычная лексикография 6

1.1.Основные задачи и направления работы в компьютерной лексикографии 6

1.2.Задачи и методы их решения, общие для корпусной лингвистики, машинного перевода и компьютерной лексикографии 8

1.3.Компьютерная двуязычная лексикография 9

1.4.Электронные двуязычные словари 9

1.5.Словари систем машинного перевода 15

1.6.Автоматически составленные (машинные) двуязычные словари: методология составления и применение 18

1.7.Параллельные конкордансы 23

1.8.Выводы 27

2)Иллюстративный блок одно- и многоязычных словарей 28

2.1.Принципы формирования иллюстративного блока в словарях 28

2.2.Практическая реализация иллюстративного блока в двуязычных словарях 35

Русско-английский словарь под общим руководством проф. А.И. Смирницкого 36

Англо-русский словарь В.К. Мюллера 36

Большой англо-русский словарь под общим руководством И.Р. Гальперина 37

The Oxford Russian dictionary : Russian-English, English-Russian 37

Большой англо-русский словарь Abbyy Lingvo 38

Новый большой англо-русский словарь под руководством Ю.Д. Апресяна 39

2.3.Выводы 40

3)Устойчивые сочетания различных типов и опыт их лексикографирования 41

3.1.Основные концепции устойчивых сочетаний 41

3.2.Представление коллокаций в словарях сочетаний 50

Толково-комбинаторный словарь русского языка 52

A Dictionary of English Collocations 53

Oxford Collocations Dictionary 54

Collins Cobuild English Collocations 55

The BBI Combinatory Dictionary Of English 56

Англо-русский фразеологический словарь 58

Англо-русский словарь глагольных словосочетаний 58

Macmillan Collocations Dictionary 59

Устойчивые словосочетания русского языка 60

Русские глаголы и предикативы 61

Пособие по лексической сочетаемости слов русского языка 61

Словарь сочетаемости слов русского языка 62

3.3.Выводы 63

4)Поиск и ранжирование контекстов для англо-русского машинного словаря 64

4.1.Материал и инструменты исследования 65

4.2.Описание процедуры поиска контекстов 66

4.3.Подготовка обучающей и тестовой выборки 68

4.4.Анализ ошибок в контекстах-кандидатах 72

4.5.Общий алгоритм ранжирования параллельных контекстов 74

4.6.Факторы (признаки) ранжирования 75

Оценка по языковой модели (группа LM) 75

Относительная частота контекста (RelF) 77

Взаимная информация (MI) 77

Векторные модели (WV) 79

Семантическая близость (Sim) 81

4.7.Методы классификации 82

Случайный лес (Random forest) 82

Нейронная сеть прямого распространения 83

Оценка мультиклассификации 85

4.8.Оценка качества классификации 86

4.9.Результаты классификации 87

4.10.Сравнение ранжирования с простыми эвристическими методами 88

4.11.Значимость признаков классификации 89

4.12.Выводы 90

Ранжирование контекстов на основе меры MI 104

Ранжирование контекстов на основе частоты перевода 108

Ранжирование 111

Ранжирование 115

Ранжирование 118

Ранжирование 122

Работа посвящена поиску и ранжированию переводных контекстов для иллюстрации переводов в машинном словаре. Создание словарей автоматическими методами – сравнительно молодое направление компьютерной лексикографии, поэтому неудивительно, что исследования, посвящённые автоматическому составлению иллюстративного блока, очень редки. Можно предположить, что машинные словари в этом отношении следуют принципам классических «бумажных» словарей, но в действительности словарь, создаваемый «с нуля» или на основе бумажного издания и предназначенный для той или иной системы автоматического понимания текстов, – это реализация модели семантического, морфологического, синтаксического и других уровней естественного языка, основанной на идеях искусственного интеллекта [Караулов и др. 1982].

С другой стороны, та же проблема наблюдается и в лексикографии в целом и связана с разрывом между лингвистической теорией и лексикографической практикой. Лингвистическая описательная и аналитическая работа направлена на регистрацию широкого спектра явлений – нормы и отклонения от нормы, кода и узуса. Особенно это касается грамматики, то есть явлений морфологии и синтаксиса.

В лексикографической работе также проводится анализ наблюдаемых явлений языка и речи, но регистрации и систематизации подлежит не всё, а определённый класс явлений. В одних случаях описывается только норма, которая может быть в некоторых случаях результатом сознательного выбора специалистов, в других – параметры, характеризующие единицу языка с определённой точки зрения. Так, в словарях может описываться слово и его значение, восстанавливаемое на основе наблюдений за употреблением слова с текстах, слово и его происхождение, слово и его прагматические характеристики, например, сфера употребления.

Словари предназначаются обычно для широкой аудитории (носителей языка, изучающих язык) и при создании рассчитываются на долговременное использование. Лингвистические теории, в том числе касающиеся лексикографических проблем, разрабатываются специалистами для специалистов. Кроме того, они часто охватывают лишь конкретное языковое явление или класс случаев, тогда как словарь (в первую очередь, общего типа) должен охватить всё разнообразие одного или нескольких языков. Сложность разработки лексикографических принципов обусловлена и трудностью создания словаря вообще (некоторые толковые словари создаются десятилетиями, например, Словарь современного русского литературного языка издавался с 1948 по 1965 год, а работы по его созданию начались в 1937 году): словарь невозможно быстро переработать, чтобы принять во внимание новую трактовку какого-либо явления. Всё это приводит к тому, что составители словарей часто опираются либо на уже сложившуюся практику, либо на общепринятую теорию, а большинство теоретических разработок не используется вообще. Исключением является проект Толково-комбинаторного словаря, о котором подробнее будет сказано ниже. Следует лишь отметить, что в данном случае речь идёт о лексикографическом произведении, полностью основанном на лингвистической теории (модели «Смысл Текст»).

Лингвистические теории, касающиеся сочетаемости лексем, практически не употребляются в лексикографической практике. Говоря же об иллюстративных контекстах в двуязычном словаре, неизбежно приходится упоминать понятие сочетаемости. Поэтому в дальнейшем мы будем рассматривать и теоретические работы, возможно, отчасти отражённые в существующих словарях, и особенности лексикографической практики (то есть существующие словари).

Целью работы является разработка алгоритма ранжирования иллюстрирующих контекстов для англо-русского машинного переводного словаря. Исходя из данной цели, а также учитывая указанные выше проблемы, формулируются следующие задачи:

  1. анализ принципов составления и особенностей существующих электронных словарей различных типов;

  2. описание и анализ реализации иллюстративного блока в современной лексикографической практике;

  3. описание подходов к сочетаемости и анализ их отражения в лексикографической практике;

  4. выделение необходимых признаков для описания двуязычных контекстов, подходящих для иллюстрации статей в переводном словаре.

Предполагается также решение следующих практических задач:

  1. разметка потенциальных иллюстраций для создания обучающей выборки и дополнения набора признаков ранжирования;

  2. реализация алгоритма ранжирования параллельных контекстов;

  3. оценка качества ранжирования и релевантности выделенных признаков.

Для ранжирования параллельных контекстов, описанных с помощью набора признаков, используются такие методы машинного обучения, как метод случайного леса и нейронная сеть прямого распространения.

Материалом для исследования реализации иллюстративного блока послужили существующие англо-русские словари и словари сочетаемости английского и русского языка. Параллельные контексты для машинного переводного словаря, которые используются при ранжировании, извлечены из параллельного англо-русского интернет-корпуса.

Актуальность работы обусловлена тем, что, как сказано выше, проблема иллюстративного блока практически не разработана в машинной лексикографии вообще, а особенно – в двуязычной. С другой стороны, компьютерная лексикография практически не учитывает опыт «безмашинной» лексикографии и многочисленные лингвистические исследования. Наша работа направлена на восполнение этого пробела.

Практические результаты работы используются в рамках сервиса «Яндекс. Переводчик» и обсуждались в статье [Protopopova и др. 2015], а также в докладе на конференции «Диалог’2015».
  1   2   3   4   5   6   7   8   9   ...   28

Похожие:

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconОбразовательная программа: «Прикладная и экспериментальная лингвистика»...
Кластеризация языковых выражений в корпусе текстов на основе стохастического ранжирования

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconПрограмма дисциплины Теоретическая и прикладная лексикография для...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и бакалавров направления подготовки 035800....

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconОбразовательная программа "Прикладная лингвистика"
Современные тенденции изменения датской произносительной нормы на примере гласного «шва»

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconУчебно-методический комплекс дисциплина: квантитативная лингвистика...
Программа дисциплины «квантитативная лингвистика и новые информационные технологии» 4

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconПаспорт программы дисциплины Область применения программы рабочая...
Лингвистика профиль (45. 03. 02. 02 Перевод и переводоведение) в соответствии с фгос впо по направлению подготовки 45. 03. 02 лингвистика...

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconПрограмма дисциплины «Литература стран изучаемого языка» для направления...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов, обучающихся по направлению...

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconПрограмма научно-исследовательской практики (2 курс) Направление...

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconПрограмма практики (производственной) по направлению 031100. 62 «Лингвистика»
Программа практики (производственной), для студентов, обучающихся по направлению 031100. 62 «Лингвистика». М.: Ноу впо мгта, 2012....

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconВ. П. Захаров Корпусная лингвистика
Оно включает также программу учебной дисциплины «Корпусная лингвистика», которая изучается студентами отделения структурной и прикладной...

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconПрограмма практики учебно-производственная практика направление подготовки 035700 «Лингвистика»
Профиль подготовки «Теория и методика преподавания иностранных языков и культур» и «Перевод и переводоведение»

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconДипломной практики «Методы и средства проектирования прикладных интеллектуальных систем»
Фгос во с учетом рекомендаций и Прооп во по направлению 02. 04. 02 «Фундамен­та­льная информатика и инфор­ма­ционные технологии»....

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» icon«лингвистике» на 2016/2017 год в магистратуру по направлению «лингвистика»
Программа предназначена для подготовки абитуриентов к вступительному экзамену по лингвистике в магистратуру факультета иностранных...

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconРабочая программа учебной дисциплины (рпуд) инженерные web-технологии...
Рабочая программа составлена в соответствии с требованиями федерального государственного образовательного стандарта высшего образования,...

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconПрограмма дисциплины
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направлений 231300. 62 «Прикладная...

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconОсновная образовательная программа высшего профессионального образования...
Основная образовательная программа (описание структуры, целей и задач образовательной программы)

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconУчебно-методический комплекс для студентов направления подготовки 031100. 62 «Лингвистика»
Фгбоу впо «Российская академия народного хозяйства и государственной службы при Президенте Российской Федерации»


Руководство, инструкция по применению






При копировании материала укажите ссылку © 2018
контакты
rykovodstvo.ru
Поиск