Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии»




Скачать 2.26 Mb.
Название Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии»
страница 5/28
Тип Образовательная программа
rykovodstvo.ru > Руководство ремонт > Образовательная программа
1   2   3   4   5   6   7   8   9   ...   28

1.6.Автоматически составленные (машинные) двуязычные словари: методология составления и применение


С 1990 годов начинаются многочисленные исследования, посвящённые автоматическому извлечению переводных эквивалентов из параллельных корпусов.

Полученные словари обозначали как machine-readable dictionaries (MRD) или bilingual lexicons. Однако, поначалу такие словари использовались в системах машинного перевода (см. выше) или в качестве вспомогательных источников для лексикографов. Подобные ресурсы обычно содержат только информацию о возможных переводных эквивалентах, вероятности перевода (или просто частоте конкретного перевода в корпусе); иногда входные слова и словосочетания снабжаются морфологической информацией.

В противоположность традиционным бумажным словарям, которым присущи «универсальность, всеобъемлемость и мультиприложимость» [Марчук 1976: 2], машинный словарь строго ориентирован на заданную совокупность текстов. Отбор материала для машинного словаря происходит на протяжении всего времени его функционирования в системе автоматической обработки текстов. Принципы формирования словника машинных словарей основываются в большей степени на точных методах, и в меньшей – на логико-интуитивных методах, которыми руководствуются разработчики традиционных словарей. Можно сказать, что традиционный бумажный словарь представляет собой статическое описание, существующее в диахронии, тогда как машинный словарь – динамическое описание, существующее в строгой синхронии.

Развитие интернет-технологий, увеличение объёма доступных параллельных корпусов текстов сделали возможным построение машинных словарей, сопоставимых по размеру с традиционными бумажными или электронными словарями. Кроме того, существует большое количество инструментов автоматической обработки текста, которые позволяют преобразовать информацию из машинного словаря, предназначенного, например, для системы машинного перевода, в электронный словарь, ориентированный на пользователя.

Как уже было сказано, технология извлечения переводных эквивалентов из корпуса разрабатывается довольно давно, и одним из наиболее значимых результатов многолетних исследований явился класс разнообразных методов фильтрации шумных переводов из фразовых таблиц. Таким образом, главной задачей при создании автоматических переводных словарей является включение в них вспомогательной информации: группировка переводов в синонимические ряды, иллюстрация особенностей употребления, грамматические и стилистические пометы.

Первая задача – группировка переводов из фразовой таблицы – несмотря на кажущуюся очевидность её трактовки, имеет лишь несколько известных прикладных решений. В [Bansal 2012] описывается реализация алгоритма группировки переводных эквивалентов, основанная на кластеризации методом K-средних. В качестве факторов кластеризации используются информация об обратном переводе и контекстные представления переводных эквивалентов. Полученные «кластеры смыслов» сравниваются со смыслами из WordNet. Небольшая часть статьи посвящена иллюстрации различных вариантов перевода, оказавшихся в одной группе.

Другой возможный подход описан в [Antonova, Misyurev 2014]: группировка смыслов опирается на предварительно собранный словарь синонимов. Этот словарь генерируется автоматически на основании дистрибутивной векторной модели [см. также Antonova и др. 2016] и сходстве переводов слова. В этой статье [Antonova, Misyurev 2014] описывается создание машинного словаря сервиса Яндекс.Переводчик (http://translate.yandex.ru), который будет использован в практической части данной работы. Рассмотрим на этом примере технологию создания машинного словаря в общем виде. Автоматическое построение переводного словаря предполагает следующие этапы:

  1. Предобработка параллельного корпуса (извлечение фразовой таблицы, морфосинтаксический анализ, лемматизация, фильтрация «шумных» переводных эквивалентов).

  2. Объединение переводных эквивалентов для каждого слова в ряды синонимов.

  3. Добавление грамматических помет.

  4. Генерация обратных переводов, то есть синонимов входного слова. В данном случае этот этап производится на основании полученных прямых переводов.

  5. Иллюстрация каждой группы переводов примерами употребления из параллельного корпуса.

В результате формируется словарная статья, пример который представлен на рис. 4.



Рисунок . Пример словарной статьи из машинного словаря сервиса Яндекс.Переводчик.

Качество параллельного корпуса представляет определённую проблему в развитии автоматической переводной лексикографии. Поэтому в некоторых работах по автоматическому построению двуязычных словарей в качестве параллельных корпусов используются специфические источники. Так, в [Tyers, Pienaar 2008] описывается метод создания словаря на основе заголовков статей Википедии, которым авторы предлагают пользоваться в частности для языков, для которых нет корпусов достаточного объёма – так называемых under-resourced languages.

Последним направлением, активно развивающимся в последнее десятилетие, является построение переводного словаря по данным сопоставимого (comparable) корпуса. С одной стороны, задача оказывается более актуальной, поскольку для многих пар языков параллельные корпуса доступны в ограниченном объёме (если вообще доступны). С другой стороны, извлечение переводных эквивалентов из похожих корпусов требует более сложных методов. Все эти методы используют начальный словарь, состоящий из небольшого набора переводных эквивалентов для заданной языковой пары, а затем осуществляется поиск «похожих» слов входного языка и их переводов в сопоставимом корпусе. Часто применяются графовые модели: в [Sadat и др. 2002; Laws и др. 2010; Yu, Tsujii 2009; Fung 2000; Chatterjee и др. 2010] используется сходство синтаксических деревьев для предложений на разных языках, при условии, что имеется исходный словарь небольшого размера. Возможны разные подходы в зависимости от используемой метрики сходства, способа построения контекстных векторов и так далее. Авторы [Tamura и др. 2012] предлагают улучшения для методов, основанных на сходстве, которое заключается в использовании непрямых отношений между словами (когда вершины графа связаны более чем через одно ребро). Для близких языков предлагаются методы, которые используют не специальный начальный словарь, а, например, слова, общие для обоих языков [Fiser, Ljubesic 2011]. В [Ismail, Manandhar 2010] сначала извлекаются наиболее близкие и относящиеся к одной теме слова, для которых перевод будет наиболее надёжным. Улучшение словаря также может достигаться за счёт добавления параллельного корпуса [Morin, Prochasson 2011] или использования методов разрешения лексической неоднозначности [Bouamor 2013]. Отдельные работы посвящаются проблеме состава начального словаря [Hazem, Morin 2012].
1   2   3   4   5   6   7   8   9   ...   28

Похожие:

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» icon Образовательная программа: «Прикладная и экспериментальная лингвистика»...
Кластеризация языковых выражений в корпусе текстов на основе стохастического ранжирования
Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» icon Программа дисциплины Теоретическая и прикладная лексикография для...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и бакалавров направления подготовки 035800....
Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» icon Образовательная программа "Прикладная лингвистика"
Современные тенденции изменения датской произносительной нормы на примере гласного «шва»
Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» icon Учебно-методический комплекс дисциплина: квантитативная лингвистика...
Программа дисциплины «квантитативная лингвистика и новые информационные технологии» 4
Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» icon Паспорт программы дисциплины Область применения программы рабочая...
Лингвистика профиль (45. 03. 02. 02 Перевод и переводоведение) в соответствии с фгос впо по направлению подготовки 45. 03. 02 лингвистика...
Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» icon Программа дисциплины «Литература стран изучаемого языка» для направления...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов, обучающихся по направлению...
Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» icon Программа научно-исследовательской практики (2 курс) Направление...

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» icon Программа практики (производственной) по направлению 031100. 62 «Лингвистика»
Программа практики (производственной), для студентов, обучающихся по направлению 031100. 62 «Лингвистика». М.: Ноу впо мгта, 2012....
Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» icon В. П. Захаров Корпусная лингвистика
Оно включает также программу учебной дисциплины «Корпусная лингвистика», которая изучается студентами отделения структурной и прикладной...
Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» icon Программа практики учебно-производственная практика направление подготовки 035700 «Лингвистика»
Профиль подготовки «Теория и методика преподавания иностранных языков и культур» и «Перевод и переводоведение»
Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» icon Дипломной практики «Методы и средства проектирования прикладных интеллектуальных систем»
Фгос во с учетом рекомендаций и Прооп во по направлению 02. 04. 02 «Фундамен­та­льная информатика и инфор­ма­ционные технологии»....
Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» icon Направление подготовки 45. 04. 02 «Лингвистика» Образовательная программа...
Языковая картина мира как предмет изучения лингвокультурологии. Методы и процедуры лингвистического анализа 7
Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» icon «лингвистике» на 2016/2017 год в магистратуру по направлению «лингвистика»
Программа предназначена для подготовки абитуриентов к вступительному экзамену по лингвистике в магистратуру факультета иностранных...
Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» icon Рабочая программа учебной дисциплины (рпуд) инженерные web-технологии...
Рабочая программа составлена в соответствии с требованиями федерального государственного образовательного стандарта высшего образования,...
Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» icon Программа дисциплины
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направлений 231300. 62 «Прикладная...
Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» icon Основная образовательная программа высшего профессионального образования...
Основная образовательная программа (описание структуры, целей и задач образовательной программы)

Руководство, инструкция по применению






При копировании материала укажите ссылку © 2024
контакты
rykovodstvo.ru
Поиск