Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии»




Скачать 2.26 Mb.
Название Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии»
страница 4/28
Тип Образовательная программа
rykovodstvo.ru > Руководство ремонт > Образовательная программа
1   2   3   4   5   6   7   8   9   ...   28

1.5.Словари систем машинного перевода


Словарями систем машинного перевода (фразовыми таблицами, моделями перевода, phrase table) обычно называют автоматически составленные таблицы переводов последовательностей слов с весами, которые затем учитываются при машинном переводе текста. Переводы извлекаются из параллельного корпуса на основании выравнивания предложений. Для построения модели перевода были предложены алгоритмы, известные как модели IBM [Brown и др. 1993]. Они оценивают вероятности перевода с помощью EM-алгоритма, который позволяет итеративно оценить модель на неполных данных. Он состоит из двух шагов, которые обычно повторяются до сходимости:

  • E-шаг (expectation), на котором имеющаяся модель применяется к данным;

  • M-шаг (maximization), на котором из данных выводится новая модель (корректируется старая).

Итак, IBM model 1 действует следующим образом. Пусть есть корпус, состоящий из трёх параллельных фраз (см. Рисунок 3):



Рисунок . Пример параллельного корпуса для обучения модели IBM.

Изначально в корпусе нет информации о пословном выравнивании, веса задаются равномерно (0.25 для каждого перевода). Для оценки вероятности того или иного пословного выравнивания и используется ЕМ-алгоритм. На каждом М-шаге для каждого перевода (пары) суммируются все веса. На первом шаге сначала инициализируются вероятности всех возможных выравниваний, а затем по имеющимся данным для каждого слова в каждом входном предложении суммируются веса различных вариантов его выравнивания. Так, например, по первому предложению вероятность выравнивания и вес буду равны 0.5. Затем для каждого входного слова e (в данном случае на русском языке) и всех вариантов его перевода f (на английском) вычисляется итоговый вес , равный отношению вероятности выравнивания к весу слова на языке перевода. На первом шаге это значение 0.5.

Приведём псевдокод алгоритма оценки весов модели IBM-1 по [Koehn 2010]:

Вход: набор пар предложений

Выход: вероятность перевода

Задать равномерно

Пока не сходится

// инициализация

для всех

для всех

для всех предложений

// вычислим нормализацию

для всех слов е в е



для всех слов в



// суммируем

для всех слов в

для всех слов f в f





// оценим вероятности

для всех слов

для всех слов



Следующие модели являются усовершенствованиями первой. Основные дополнения следующие:

  • IBM Model 2 определяет вероятность всего выравнивания;

  • IBM Model 3 добавляет так называемую fertility model – как много переводов возможно для каждого входного слова;

  • IBM Model 4 добавляет модель относительного выравнивания;

  • IBM Model 5 регулирует заполнение только свободных позиций при выравнивании.

Подробное сравнение моделей IBM можно найти в [Och, Ney 2003].

Эти модели могу применяться как на уровне пословного перевода (word-based translation), так и на уровне перевода фраз (phrase-based translation). С этим связано и основное отличие словарей систем машинного перевода от классических словарей – помимо слов и многословных выражений (обычно устойчивых) в них включаются словосочетания, а также последовательности слов (n-граммы), которые синтаксически не связаны между собой. Соответственно, в таких словарях отсутствует понятие нормальной формы: для каждой формы слова существуют свои варианты перевода.

За прошедшие 20 лет были предложены различные улучшения и новые способы подбора параметров для моделей IBM [Turkato 1998; Och, Ney 2000; Tsunakawa и др. 2008; Huck и др. 2011; Luo, Lepage 2015]. Кроме того, одним из актуальных направлений остаётся фильтрация машинных лексиконов, полученных путём автоматического выравнивания [Melamed 1996]. Улучшенные модели анализируются и сравниваются в [Huck и др. 2011].

Морфологическая и синтаксическая информация также может быть использована при построении моделей перевода, в частности, для фильтрации шумных переводов. Некоторые авторы предлагают извлечение переводных эквивалентов по структурам зависимостей [Yamamoto, Matsumoto 2000].
1   2   3   4   5   6   7   8   9   ...   28

Похожие:

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» icon Образовательная программа: «Прикладная и экспериментальная лингвистика»...
Кластеризация языковых выражений в корпусе текстов на основе стохастического ранжирования
Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» icon Программа дисциплины Теоретическая и прикладная лексикография для...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и бакалавров направления подготовки 035800....
Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» icon Образовательная программа "Прикладная лингвистика"
Современные тенденции изменения датской произносительной нормы на примере гласного «шва»
Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» icon Учебно-методический комплекс дисциплина: квантитативная лингвистика...
Программа дисциплины «квантитативная лингвистика и новые информационные технологии» 4
Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» icon Паспорт программы дисциплины Область применения программы рабочая...
Лингвистика профиль (45. 03. 02. 02 Перевод и переводоведение) в соответствии с фгос впо по направлению подготовки 45. 03. 02 лингвистика...
Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» icon Программа дисциплины «Литература стран изучаемого языка» для направления...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов, обучающихся по направлению...
Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» icon Программа научно-исследовательской практики (2 курс) Направление...

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» icon Программа практики (производственной) по направлению 031100. 62 «Лингвистика»
Программа практики (производственной), для студентов, обучающихся по направлению 031100. 62 «Лингвистика». М.: Ноу впо мгта, 2012....
Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» icon В. П. Захаров Корпусная лингвистика
Оно включает также программу учебной дисциплины «Корпусная лингвистика», которая изучается студентами отделения структурной и прикладной...
Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» icon Программа практики учебно-производственная практика направление подготовки 035700 «Лингвистика»
Профиль подготовки «Теория и методика преподавания иностранных языков и культур» и «Перевод и переводоведение»
Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» icon Дипломной практики «Методы и средства проектирования прикладных интеллектуальных систем»
Фгос во с учетом рекомендаций и Прооп во по направлению 02. 04. 02 «Фундамен­та­льная информатика и инфор­ма­ционные технологии»....
Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» icon Направление подготовки 45. 04. 02 «Лингвистика» Образовательная программа...
Языковая картина мира как предмет изучения лингвокультурологии. Методы и процедуры лингвистического анализа 7
Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» icon «лингвистике» на 2016/2017 год в магистратуру по направлению «лингвистика»
Программа предназначена для подготовки абитуриентов к вступительному экзамену по лингвистике в магистратуру факультета иностранных...
Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» icon Рабочая программа учебной дисциплины (рпуд) инженерные web-технологии...
Рабочая программа составлена в соответствии с требованиями федерального государственного образовательного стандарта высшего образования,...
Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» icon Программа дисциплины
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направлений 231300. 62 «Прикладная...
Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» icon Основная образовательная программа высшего профессионального образования...
Основная образовательная программа (описание структуры, целей и задач образовательной программы)

Руководство, инструкция по применению






При копировании материала укажите ссылку © 2024
контакты
rykovodstvo.ru
Поиск