Получение полнотекстовых баз данных
Текстовые документы в электронную библиотеку могут поступать из разных источников - некоторые могли быть созданы для онлайнового использования, некоторые получены конверсией печатных материалов, некоторые могут быть оцифрованными звуковыми дорожками к фильмам и телепрограммам.
Наполнение полнотекстовых баз данных производится двумя способами. Первый заключается в сканировании печатных оригиналов и получении электронных копий документов, выполненных в большинстве случаев в формате PDF. Эти документы воспроизводятся (читаются) с использованием бесплатно распространяемой программы Adobe Acrobat. Сканирование печатных оригиналов применяется при оцифровывании существующих тематически и логически законченных собраний, хранящихся, как правило, в фондах библиотек или архивов. При этом масштабы и темпы оцифровки документальных массивов в рамках коммерческих проектов в разных странах дают все основания полагать, что уже в ближайшие годы будет оцифровано большинство значимых для человечества материалов. Для пользователей станет принципиально возможным получить доступ к любым источникам - от германских старопечатных книг XVI века до заметки в завтрашнем номере японской газеты.
Второй метод - покупка электронных копий книг, газет или журналов непосредственно в издательствах. По предварительному договору издательства передают электронную версию документа (чаще всего готовый оригинал-макет) поставщику и получают определенный процент от средств, полученных за обращение к поставленным файлам. Загрузка документов в систему осуществляется, как правило, в момент опубликования печатного оригинала или даже ранее. После физической загрузки в базу информационный массив индексируется, после чего электронные документы становятся доступными для поиска и выгрузки. Подобный способ "комплектования" применяется при работе с современными периодическими изданиями и сообщениями агентств новостей.
В профессиональных базах данных полные тексты предстают перед пользователем в виде HTML-документов или PDF-файлов. Особенностью последних является способность представлять документ именно в том виде, как он существует в печатной копии, с сохранением колонок, таблиц, иллюстраций и т.д. В тоже время все содержание такого документа может быть доступно для поиска (проиндексировано). Источники в PDF можно не только просматривать (читать) в онлайновом режиме, но и сохранять на собственном компьютере для дальнейшей работы.
Модель доступа к информации становится основной характеристикой электронной библиотеки. Только доступ к электронным ресурсам через специально организованные электронные библиотеки может обеспечить необходимую полноту информирования. Только проблемно-ориентированные электронные библиотеки, в которых ресурсы систематизированы на основе детальных иерархических классификаций, могут обеспечить оперативный и качественный поиск необходимого ресурса.
Несмотря на то, что бумажные издания были и остаются для большинства людей основным источником информации, полнотекстовые базы данных являются перспективным видом хранения библиографических материалов.
Часть 2. Способы описания электронных ресурсов
Описание мета-информация информации
Логическим компонентом любой электронной библиотеки является система метаданных. Подобно тому, как библиотечный каталог организует все множество единиц хранения в систему библиотечных фондов, вокруг которой строятся все библиотечные технологии, система метаданных организует совокупность электронных информационных ресурсов (или цифровых объектов) электронной библиотеки.
Соответственно вокруг системы метаданных и на ее основе строятся основные технологические процессы электронной библиотеки, а именно:
навигация в информационном пространстве;
поиск отдельных цифровых объектов (информационных ресурсов) или их совокупностей;
ввод, обработка и организация хранения цифровых объектов, а также их исключение (изъятие);
управление правами доступа к цифровым объектам, включая защиту авторских прав, организация платы за доступ и пр.
Метаданные находятся рядом с нами с тех пор, как первый библиотекарь сделал список хранящихся на полке рукописных свитков. Термин "мета (meta)" появился из греческого слова, которое означает "рядом, с, после, следующий". Более позднее латинское и английское употребление использует термин "мета" для определения чего-то абстрактного или сверхъестественного. Метаданные, кроме того, могут быть интерпретированы как данные о других данных. Это термин века Интернет, определяющий информацию, которую библиотекари традиционно организовывали в виде каталогов и которая чаще всего используется для описания Web-ресурсов. Запись метаданных состоит из набора атрибутов или элементов, необходимых для описания данного ресурса. Например, наиболее часто встречающаяся в библиотеках система метаданных - библиотечный каталог - содержит набор записей метаданных с элементами, которые описывают книгу либо другую библиотечную единицу: автор, заглавие, дата создания или публикации, предметный охват и шифр, определяющий местонахождение единицы на полке.
В сущности, понятие метаданные, придуманное информационными специалистами компьютерных технологий, не является новым по значению для библиотечного, музейного или архивного специалиста. Библиографическая карточка есть не что иное, как набор метаданных на книгу или статью из журнала, построенная по правилам библиографического описания.
Изначально метаданные возникли как вспомогательная структура для автоматической индексации цифровых ресурсов. Иными словами, в код html-страницы, в области заголовков (между тегами html и ) вносятся в определенном порядке данные, описывающие определенные параметры. Любая информация, внесенная в эту область html-документа не отображается браузером (компьютерной программой, предназначенной для показа html-файлов) на экране компьютера и пользователь может даже не подозревать, что просматриваемый им документ несет в себе еще какую-то дополнительную информацию, однако программные роботы, да и сам браузер извлекают эти данные, полезные для решения определенных задач.
Дальнейшее развитие сети привело к созданию других наборов метаданных, предназначенных не только для оперирования ими роботами, но и для решения более широкого круга задач.
Сейчас таких наборов метаданных существуют десятки. Это могут быть узкоспецифические наборы, предназначенные для описания ресурсов какой-то определенной отрасли или тематики, имеются также и метаданные более общего, универсального характера: набор метаданных VRA4, Ассоциации Визуальных ресурсов, предназначенный для описания цифровых ресурсов, содержащих графические изображения; набор метаданных GILS - Глобальный Информационный Указатель-Сервис, предназначенный для упрощения поиска и доступа к ресурсам, издаваемым в США государственными и индустриальными компаниями в сети Интернет; инициатива университета Беркли EAD, Кодирование архивных описаний, призванная обеспечить методы описания, сохранения и доступа к цифровым ресурсам библиотек, музеев и архивов на основе языка SGML и многие другие. Исчерпывающую информацию по которым можно получить (на английском языке) на сайте ИФЛА по адресу: http://www.ifla.org/II/metadata.htm
Распространенные категории метаданных включают "описательные (descriptive) метаданные" (например, библиографическая информация), "структурные (structural) метаданные" (информация о форматах и структурах), и "административные (administrative) метаданные" (которые включают права, разрешения и другую информацию, используемую для управления доступом). Еще одна разновидность метаданных - идентификатор (identifier), который однозначно представляет объект для внешнего мира.
Вопрос о соотношении типов метаданных в рамках конкретной системы метаданных является принципиальным для выбора системы.
|