Скачать 6.4 Mb.
|
Глава 1. Информационно-поисковые тезаурусыИнформационно-поисковые тезаурусы появились в 60-е годы 20 века. В это время большинство информационно-поисковых систем не являлись полнотекстовыми, а хранили достаточно ограниченный набор информации о документе: библиографические данные, реферат. Добавление списка ключевых слов, характеризующих основное содержание документа, существенно расширяли возможности поиска документов. С начала семидесятых годов создаются национальные и международные стандарты разработки информационно-поисковых тезаурусов. В соответствии с определениями стандартов информационно-поисковый тезаурус – это нормативный словарь, явно указывающий отношения между терминами и предназначенный для описания содержания документов и поисковых запросов. Основными целями разработки информационно-поисковых тезаурусов являются следующие:
Информационно-поисковые тезаурусы создавались как инструмент для ручного описания документов специалистами-индексаторами. Поисковый запрос также предполагалось формулировать на основе единиц тезауруса. Появление полнотекстовых информационно-поисковых систем, а также возможностей поиска по всем словам текста с помощью методов ранжированного информационного поиска (см. раздел 11.1) значительно снизило значимость разработки и использования информационно-поисковых тезаурусов, поскольку давало возможность поиска текста неподготовленному пользователю в любых предметных областях, без предварительных затрат на разработку тезаурусов. Многочисленные исследования по определению эффективности различных методов представления документов при информационном поиске показали, что эффективность пословного индексирования сравнима с эффективностью поиска, использующего ручное индексирование по качественному тезаурусу (Salton, 1986; Sparck Jones, 1981), для создания которого нужно было еще затратить достаточно много средств и усилий, кроме того, нужно было еще осуществлять качественное ручное индексирование документов по этому тезаурусу. Эксперименты по автоматическому индексированию документов и запросов на базе информационно-поисковых тезаурусов не привели к практическому использованию созданных информационно-поисковых тезаурусов в процессе автоматической обработки текстов. В данной главе мы рассмотрим основные структурные особенности информационно-поисковых тезаурусов, методы их создания и использования, а также обсудим, как эти особенности ограничивают применение информационно-поисковых тезаурусов в процессе автоматической обработки текстов. 1.1. Единицы информационно-поисковых тезаурусовОсновными единицами тезаурусов являются термины предметной области. Большинство версий стандартов по информационно-поисковым тезаурусам указывают на связь терминов с понятиями предметной области. Американский стандарт указывает, что термин является одним или большим числом слов, обозначающих понятие. Стандарт ISO-2788 подчеркивает, что индексирующий термин - это представление понятия предпочтительно в форме существительного или именной группы. При этом понятие рассматривается как единица мысли, формируемая мысленно для отражения всех или некоторых свойств конкретного или абстрактного, реально существующего или мысленного объекта. Понятия существуют как абстрактные сущности, независимо от терминов, которые их выражают. Российский ГОСТ рассматривает понятие как форму мышления, отражающую существенные свойства, связи и отношения предметов и явлений, а термином в определении ГОСТа является слово или словосочетание, являющееся точным обозначением определенного понятия какой-либо области знания. При этом, определяя единицы тезауруса, ГОСТ 7.74-96 не опирается на определение термина, а определяет единицы тезауруса как лексические единицы информационно-поискового языка – то есть обозначения отдельного понятия, принятые в информационно-поисковом языке и неделимые в этой функции. Стоит отметить, что не все разработчики тезаурусов четко разделяли понятия и термины. Так, разработчики тезауруса AGROVOC характеризуют его как термино-ориентированный (term-oriented), что находит свое проявление в том, что к термину невозможно добавить синонимы. Эта особенность тезауруса рассматривается авторами как недостаток, который необходимо исправить (Soergel и др., 2004). Таким образом, разработчики тезаурусов предполагают, что понятие предметной области обычно имеет несколько возможных вариантов лексического представления в тексте, которые рассматриваются как синонимы. Среди таких синонимов выбирается дескриптор – термин, который рассматривается как основной способ ссылки на понятие в рамках тезауруса. Другие термины из синонимического ряда, включенные в тезаурус, называются аскрипторы или недескрипторы. Они используются как вспомогательные элементы, текстовые входы, помогающие найти подходящие дескрипторы. Поскольку информационно-поисковые тезаурусы обычно создаются для конкретных предметных областей, то их построение существенным образом базируется на таких сущностях как «понятие» и «термин», под которым обычно понимается слово или словосочетание, номинирующее понятие определенной области знания или деятельности (Суперанская и др., 2003, Гринев, 1993; Лейчик, 1994; Володина, 1996). Именно такое понимание термина является основанием рассматривать информационно-поисковые тезаурусы как вид онтологических ресурсов (см. раздел 4.1). |
Тезаурусы в задачах информационного поиска Правила индексирования документов дескрипторами информационно-поискового тезауруса 39 |
Тезисы представленные на Внимание! Для поиска своей фамилии или ключевого слова в тексте нажмите Ctrl+F и введите искомое слово в окно поиска!! |
||
Инструкция по заполнению документов на регистрацию информационного ресурса Настоящая инструкция определяет порядок заполнения и представления документов для регистрации информационного ресурса в Реестре государственных... |
Лекция №11 В этом разделе будет приведен обзор одних из первых систем поиска информации, насчитывающих к настоящему моменту времени многолетнюю... |
||
Конспект лекций по дисциплине «Информационные системы и технологии в науке и образовании» Введение. Содержание дисциплины и порядок ее изучения. Фактографический поиск. Математические модели фактографического поиска. Информационная... |
Инструкция по сверке Планов финансово-хозяйственной деятельности В параметрах поиска в строке Наименование учреждения вводим инн, либо название учреждения. Нажать кнопку Найти. Внизу экрана загрузится... |
||
Алгоритмы поиска. Линейный поиск. Двоичный поиск Также, линейный поиск часто используется в виде линейных алгоритмов поиска максимума/минимума |
Рабочая инструкция по настройке представлений в hp sm Удалены не используемые номера рисунков. Добавлено описание создания представления из Поиска и описание требований для удаления Представления.... |
||
Задачах на 2014 год Итоги работы Отдела социальной защиты населения г. Рошаль Отдела социальной защиты населения г. Рошаль Министерства социальной защиты населения Московской области и подведомственных учреждений... |
Общая характеристика информационного ресурса Целью оказания услуг является формирование и сопровождение картографического информационного ресурса «Шельфовые проекты» (далее ир... |
||
Отчёт о результатах деятельности отдела загс администрации Лужского... Во исполнение поручения главы администрации Лужского муниципального района Малащенко Олега Михайловича предоставляем отчет о результатах... |
Инструкция по поиску и спасанию в зоне авиационно-космического поиска... Организация поисково-спасательного обеспечения полетов в Южной зоне авиационно-космического поиска и спасания (акпс) |
||
Универсальный телевизионный пульт дистанционного управления «умного» поиска и сохранения канала, что избавляет вас от необходимости поиска и сохранения каналов вручную. Своевременная замена... |
Инструкция по работе с программным комплексом единого информационного ресурса При входе в программный комплекс единого информационного ресурса (далее – пк еир) пользователю необходимо пройти авторизацию в меню,... |
||
Регламент информационного взаимодействия Настоящий Регламент информационного взаимодействия (далее Регламент) разработан в целях реализации требований следующих документов:... |
Приказ от 3 июня 2014 г. N 148 об утверждении требований к подготовке... Федеральных авиационных правил поиска и спасания в Российской Федерации, утвержденных постановлением Правительства Российской Федерации... |
Поиск |