1.3.Компьютерная двуязычная лексикография
В области компьютерной двуязычной лексикографии постепенно выделилось несколько направлений:
создание традиционных двуязычных словарей с помощью компьютерных технологий,
разработка алгоритмов составления переводных эквивалентов для систем машинного перевода,
автоматическое составление словарей, надстройки к параллельным и сопоставимым корпусам, параллельные конкордансы.
Рассмотрим каждое направление подробнее.
1.4.Электронные двуязычные словари
Технология создания двуязычных компьютерных словарей наследует основные идеи работы над одноязычными лексикографическими ресурсами, поэтому начнём анализ существующих проектов с одноязычных компьютерных словарей. Зарождение компьютерной лексикографии в 60х годах 20 века связано именно с электронными версиями словарей. Так, Webster’s Seventh New Collegiate Dictionary (1967) и New Merriam-Webster Pocket Dictionary стали первыми словарями, электронная версия которых была подготовлена параллельно с бумажной. Как уже отмечалось, компьютерный набор тогда был ещё недостаточно развит, поэтому электронные словари создавались на основе оцифрованных бумажных препринтов.
В 70-е годы компьютерные технологии развивались по большей части в направлении автоматизации подготовки к изданию бумажных словарей. Компьютерный набор и некоторые другие средства подготовки статей использовались в Longman Dictionary of Contemporary English (1978) и первом издании Collins English Dictionary (1979). В то же время ведутся разработки по созданию так называемых карманных словарей и переводчиков (hand held dictionaries) – специализированных устройств, выполняющих поиск по словарю, представленному в машиночитаемом виде. Первые гаджеты появились в 1978 году (LK-3000, Craig M100), а технология оставалась популярной до первого десятилетия 21 века. Основными функциями карманных словарей был перевод заданного слова и озвучивание его произношения. Более продвинутые модели использовали распознавание речи и позволяли осуществлять поиск путём голосового ввода.
В 80-е годы, благодаря росту популярности и сокращению стоимости электронных носителей, появляются первые словари на дисках. Такой формат позволял мгновенно устанавливать словарь на любой компьютер и быстро распространять его. Среди многочисленных изданий словарей на CD-дисках нужно отметить издание Oxford English Dictionary (1988, использовалось издание 1928 года), The American Heritage Dictionary of the English Language (1992). Словари на электронных носителях улучшались с развитием технологий гипертекстовой разметки и вскоре ничем не уступали соответствующим бумажным изданиям. Кроме того, их пользователи могли задействовать такие функции, как озвучивание произношения, просмотр истории поиска, использование словаря непосредственно при чтении текста и т.п.
Развитие интернет-технологий привело к тому, что к 1998 году [Li 1998] в сети можно было найти около четырёхсот словарей английского языка, однако большинство были копиями, не защищёнными в соответствии с нормами авторского права. В 1999 году издательство Oxford University Press выложило в интернет с доступом по подписке Oxford English Dictionary Online, а вслед за ними многие другие издатели начали публиковать в интернете сокращённые версии словарей, предлагая купить подписку на расширенные версии. Затем стало понятно, что онлайн-словари могут приносить доход наряду с бумажными, поэтому сейчас многие популярные словари доступны без ограничений.
Создатели электронных словарей привлекают пользователей к дополнению и исправлению он-лайн версий или созданию новых словарных статей. Самый крупный полностью коллаборативный проект – это Викисловарь, который объединяет различные возможности лексикографического описания, в том числе, функционируя как многоязычный словарь. Описание слова включает фонетическую, этимологическую, синтаксическую, семантическую, сочетаемостную информацию о слове. В [Крижановский 2009] описывается разработка машиночитаемого словаря на основе данных русского Викисловаря. Русский Викисловарь является крупнейшим среди существующих викисловарей, его характерной особенностью является чёткая структура словарной статьи [Крижановский 2011].
Что касается англо-русских словарей, необходимо прежде всего упомянуть электронные словари ABBYY Lingvo. Первая версия, которая тогда называлась LINGuist Volume, v1.0 была выпущена в 1990 году и содержала 35 тысяч словарных статей.
С 2008 года под названием ABBYY Lingvo выпускаются версии x3, x5, x6, содержащие одно- и двуязычные словари, общее количество статей достигает 1,5 миллионов. Некоторые из них составлены лексикографами компании ABBYY, другие представляют собой электронные версии бумажных словарей (Большой толковый словарь русского языка Т.Ф. Ефремовой, Англо-русский словарь под редакцией В.К. Мюллера и т.п.). Возможности электронных словарей Lingvo включают:
поиск слова по заголовкам словарных статей, поиск по неначальной форме слова, поиск по всем доступным языкам;
полнотекстовый поиск, в том числе, по примерам употребления;
озвучивание транскрипции;
перевод по наведению курсора в браузере, текстовых документах;
сохранение и просмотр избранных словарных статей.
На данный момент доступен также онлайн-сервис LingvoLive (https://lingvolive.ru), где пользователи могут не только осуществлять поиск по словарям, но и комментировать словарные статьи, добавлять свои примеры употребления и сохранять историю поиска.
Хранение информации электронном словаре осуществляется в базах данных или в специально разработанных для этой цели форматах представления, основанных на XML. Например, рекомендации Text Encoding Initiative (TEI) содержат отдельную главу, посвященную хранению лексикографических данных (http://www.tei-c.org/release/doc/tei-p5-doc/en/html/DI.html). Элемент entry позволяет хранить разнообразную информацию, содержащуюся в словарной статье, причём возможно сохранение словарной статьи в различных видах:
типографическое представление – позволяет восстановить статью в том виде, в котором она должна быть напечатана;
«редакторское» (editorial) представление – хранит текст без специфической мета-информации;
лексическое представление – содержит структурированную информацию из словарной статьи безотносительно особенностей типографии, однако сохраняет лингвистические категории (поле грамматических помет, особенностей употребления и т.п.)
Статья entry может содержать отдельные разделы для омографов (hom), внутри каждого из которых возможны описания форм слова (form), грамматических помет (gramGrp), толкования (def), примеры употребления с отсылкой к источнику (cit), информацию об особенностях употребления (usage), перекрёстные ссылки на другие статьи (xr, re), этимологическую информацию (etym). Возможности хранения лексикографической информации в формате TEI рассматриваются, например, в работах [Захаров и др. 2011; Захаров 2013, Буторова и др. 2016].
Другой вариант представления – Lexical markup formal (LMF) – использует только последний тип (лексическое представление), поскольку он предназначен в первую очередь для хранения всевозможных словарей систем обработки текстов. Этот детально разработанный формат используется в сложных системах хранения лингвистических данных, например, CLARIN (http://www.clarin-d.de/en/).
Вторая, не менее важная составляющая электронного словаря – программа, отвечающая за отображение словарных статей, поиск, редактирование. Как уже было сказано, многие электронные словари предоставляют веб-интерфейс, в котором взаимодействие между пользователем и словарём осуществляется обычно с помощью запросов к базе данных. Программы, устанавливаемые на компьютер или портативное устройство, часто имеют возможность подключения дополнительных словарей и расширений. Среди программ, содержащих англо-русские словари, наиболее популярны ABBYY Lingvo, GoldenDict, AtomicDict и другие.
Обычно главными элементами интерфейса являются окно поиска и окно отображения словарной статьи (см. Рис. 1):
Рисунок . Окно поиска ABBYY Lingvo x5.
Электронные двуязычные словари также используются при создании широкомасштабных лексических баз данных. Например, в проекте многоязычного словаря PanDictionary [Mausam и др. 2009; Mausam и др. 2010] было объединено около 600 онлайн-словарей, в частности из Викисловарей, причём переводы из разных словарей были автоматически сгруппированы по смыслу с помощью графового алгоритма. В статье приводится объём полученной базы – 10 миллионов слов для тысячи языков, однако эти результаты не были опубликованы в открытом доступе. Проект Linguee (http://www.linguee.ru, рис. 2) также объединяет материалы различных словарей в рамках одного онлайн-ресурса, причём эти словари пополняются на основе данных, собранных по большому параллельному корпусу. Этот же корпус служит источником для построения параллельного конкорданса (см. ниже).
Рисунок . Пример статьи из электронного словаря системы Linguee.
|