2.3 Параллельный корпус как средство исследования перевода
«Параллельный корпус представляет электронный аналог параллельных текстов, состоящий, как правило, из множества блоков "текст-оригинал и один/несколько его переводов". Электронные тексты в корпусе могут представлять собой целое оригинальное словесное произведение или какую-либо его часть» (Потемкин 2012: 138).
Терминологически возникает проблема с определением такого вида корпуса, при котором тексты языка оригинала находятся в соответствие с текстами языка перевода. С одной стороны, данный вид корпусов называется переводческим корпусом (Johansson, Hofland 1994; Altenberg, Granger 2002(a), Krein-Kühle 2003), с другой, параллельным (Baker 1995). Интересным представляется утверждение о том, что прилагательное «параллельный» традиционно использовалось в сочетании «параллельные тексты», что обозначает тексты одного типа и жанра на языке оригинала и на языке перевода (Krein-Kühle 2003:45). Таким образом, термин «параллельный текст» не обязательно говорит о каком-то строгом структурном соответствии между ИЯ и ПЯ.
Понятие параллельного корпуса напрямую связано с понятием параллельного текста. Параллельный текст использовался задолго до появления первых электронных машин (Johansson 2007). Считается, одним из первых параллельных текстов является Розеттский камень, где надписи представлены на древнеегипетском языке при помощи древнеегипетских иероглифов и египетского демотического письма, а также на древнегреческом языке. Знание последнего помогло лингвистам дешифровать египетскую иероглифику.
В современной лингвистике идея параллельного текста принадлежит Хэррисону (Harrison 1988), который впервые описал это явление. Учёный пользуется термином «битекст» и понимает под ним документ, состоящий из версий соответствующего текста на исходном и целевом языке.
Параллельные тексты представляют собой важный источник лингвистической информации, который помогает решать проблемы лексико-грамматической сочетаемости, преодолевать орфографические, пунктуационные, лексические трудности и трудности, связанные с выбором оптимальной грамматической конструкции в ПЯ (Груздев 2013: 5).
В.П. Захаров выделяет два типа параллельных корпусов:
1) корпусы, представляющие множество текстов-оригиналов, написанных на каком-либо исходном языке, и текстов-переводов этих исходных текстов на один или несколько других языков;
2) корпусы, объединяющие тексты из одной и той же тематической области, независимо написанные на двух или нескольких языках (Захаров 2011: 25).
Оба типа корпусов используются для сравнительных лексикологических, грамматических, стилистических исследований, а также для подготовки эффективных способ перевода.
При подготовке параллельных корпусов текстов первого типа и разработке программного обеспечения для их обработки возникает проблема, которая заключается в установлении соответствий между текстом оригинала и его переводами. Данная проблема решается при помощи метода автоматического выравнивания текстов (text alignment) – параллельной сегментации текста на ИЯ и его перевода по грамматическим конструкциям, словам, словосочетаниям и предложениям. Как отмечает Л.Н. Беляева выравнивание текстов по предложениям представляет собой сложную задачу, часто с множественными решениями, возникающими в результате:
неоднозначности решения самой задачи сегментации текста на предложения (многозначности точки как знака препинания, особенностей описания прямой речи в текстах художественной литературы и публицистики, отсутствии фиксации конца предложения в случае заголовка и т.д.);
несовпадения деления входного и выходного текстов на предложения, такое несовпадение возникает при ручном переводе текстов и выражается в следующих шести вариантах несовпадения границ предложений (Беляева 2004: 2).
На практике существуют различные программы выравнивания, которые автоматически производят сопоставление на основе совпадения относительных длин предложений, членение текста на абзацы, пунктуационный анализ и других факторов. Следует отметить, что, как правило, за автоматическим выравниванием следует этап постредактирования, где исследователь просматривает полученную двуязычную сегментацию и корректирует случаи неверного членения. Для осуществления подобной процедуры можно выделить такие виды программного обеспечения как LingvoAligner, Trados, Omega и др.
В современном переводоведении активно ставится вопрос необходимости корпусного подхода к процессу перевода. Корпус рассматривается как один из эффективных переводческих инструментов, позволяющих в целом ряде случаев решить некоторые проблемы, например, проблемы поиска эквивалентов, неразрешимые при помощи словарей (Ачкасов 2009: 42).
Параллельные корпусы текстов позволяют получить большой объем информации. С их помощью можно:
строить двуязычные и многоязычные переводные словари;
создавать и пополнять словари для систем машинного перевода;
устранять полисемию лексических единиц путем использования компьютером контекстного окружения многозначного слова, превышающего по длине предложение;
переводить фразеологические и терминологические единицы текста;
осуществлять полностью автоматический перевод в рамках новых систем машинного перевода, называемых системами с переводческой памятью, путем накопления в памяти компьютера корпусов исходных текстов и их переводов, выровненных между собой на различных уровнях.
В процессе перевода такая система пытается отыскать переводимое предложение или его фрагмент в массиве исходных параллельных текстов. Если оно найдено в исходном массиве текстов-оригиналов, то система выбирает перевод такого предложения или его части в массиве переведенных текстов (Зубов, Зубова 2004).
При исследовании параллельных корпусов могут успешно применяться инструменты автоматической классификации лексики. Автоматическая классификация лексики является одной из ключевых процедур автоматического понимания текстов (Беляева 2004). Она осуществляется в рамках формализации структуры текста и количественной оценки семантических связей между элементами текста (словами, представленными леммами и словоформами). Сравнительный анализ количественных данных об употреблении слов, о степени их семантической близости помогает устанавливать распределение лексических единиц разных языков внутри лексико-семантических и тематических групп. Информация о соотношении элементов кластеров, полученная при параллельной обработке текстов оригинала и перевода в параллельных корпусах второго типа, имеет высокую ценность в определении адекватности перевода и при проведении контрастивных исследований. Применение модулей автоматической классификации лексики повышает эффективность поиска в параллельных корпусах, позволяет извлекать данные для пополнения и корректировки многоязычных словарей, для проверки качества работы систем машинного перевода и их обучения.
На сегодняшний день можно выделить следующие параллельные корпусы, используемые для прикладных лингвистических исследований: EUROPARL – открытый корпус Европарламента, англо-норвежский параллельный корпус, INTERSECT – англо-немецкий параллельный корпус и др.
|