Тезаурусы в задачах информационного поиска


Скачать 6.4 Mb.
Название Тезаурусы в задачах информационного поиска
страница 3/45
Тип Задача
rykovodstvo.ru > Руководство эксплуатация > Задача
1   2   3   4   5   6   7   8   9   ...   45

Глава 1. Информационно-поисковые тезаурусы


Информационно-поисковые тезаурусы появились в 60-е годы 20 века. В это время большинство информационно-поисковых систем не являлись полнотекстовыми, а хранили достаточно ограниченный набор информации о документе: библиографические данные, реферат. Добавление списка ключевых слов, характеризующих основное содержание документа, существенно расширяли возможности поиска документов. С начала семидесятых годов создаются национальные и международные стандарты разработки информационно-поисковых тезаурусов.

В соответствии с определениями стандартов информационно-поисковый тезаурус – это нормативный словарь, явно указывающий отношения между терминами и предназначенный для описания содержания документов и поисковых запросов.

Основными целями разработки информационно-поисковых тезаурусов являются следующие:

  • обеспечение перевода естественного языка документов и пользователей на один и тот же словарь, используемый для индексирования и поиска, таким образом, различия в лексическом составе документа и запроса пользователя сводились к одним и тем же единицам тезауруса,

  • обеспечение последовательного использования единиц индексирования,

  • обеспечение отношений между терминами - отношения между единицами тезауруса позволяют найти оптимальный термин для описания документа или запроса,

  • использование как поискового средства при поиске документов.

Информационно-поисковые тезаурусы создавались как инструмент для ручного описания документов специалистами-индексаторами. Поисковый запрос также предполагалось формулировать на основе единиц тезауруса.

Появление полнотекстовых информационно-поисковых систем, а также возможностей поиска по всем словам текста с помощью методов ранжированного информационного поиска (см. раздел 11.1) значительно снизило значимость разработки и использования информационно-поисковых тезаурусов, поскольку давало возможность поиска текста неподготовленному пользователю в любых предметных областях, без предварительных затрат на разработку тезаурусов.

Многочисленные исследования по определению эффективности различных методов представления документов при информационном поиске показали, что эффективность пословного индексирования сравнима с эффективностью поиска, использующего ручное индексирование по качественному тезаурусу (Salton, 1986; Sparck Jones, 1981), для создания которого нужно было еще затратить достаточно много средств и усилий, кроме того, нужно было еще осуществлять качественное ручное индексирование документов по этому тезаурусу.

Эксперименты по автоматическому индексированию документов и запросов на базе информационно-поисковых тезаурусов не привели к практическому использованию созданных информационно-поисковых тезаурусов в процессе автоматической обработки текстов.

В данной главе мы рассмотрим основные структурные особенности информационно-поисковых тезаурусов, методы их создания и использования, а также обсудим, как эти особенности ограничивают применение информационно-поисковых тезаурусов в процессе автоматической обработки текстов.

1.1. Единицы информационно-поисковых тезаурусов


Основными единицами тезаурусов являются термины предметной области.

Большинство версий стандартов по информационно-поисковым тезаурусам указывают на связь терминов с понятиями предметной области. Американский стандарт указывает, что термин является одним или большим числом слов, обозначающих понятие. Стандарт ISO-2788 подчеркивает, что индексирующий термин - это представление понятия предпочтительно в форме существительного или именной группы.

При этом понятие рассматривается как единица мысли, формируемая мысленно для отражения всех или некоторых свойств конкретного или абстрактного, реально существующего или мысленного объекта. Понятия существуют как абстрактные сущности, независимо от терминов, которые их выражают.

Российский ГОСТ рассматривает понятие как форму мышления, отражающую существенные свойства, связи и отношения предметов и явлений, а термином в определении ГОСТа является слово или словосочетание, являющееся точным обозначением определенного понятия какой-либо области знания.

При этом, определяя единицы тезауруса, ГОСТ 7.74-96 не опирается на определение термина, а определяет единицы тезауруса как лексические единицы информационно-поискового языка – то есть обозначения отдельного понятия, принятые в информационно-поисковом языке и неделимые в этой функции.

Стоит отметить, что не все разработчики тезаурусов четко разделяли понятия и термины. Так, разработчики тезауруса AGROVOC характеризуют его как термино-ориентированный (term-oriented), что находит свое проявление в том, что к термину невозможно добавить синонимы. Эта особенность тезауруса рассматривается авторами как недостаток, который необходимо исправить (Soergel и др., 2004).

Таким образом, разработчики тезаурусов предполагают, что понятие предметной области обычно имеет несколько возможных вариантов лексического представления в тексте, которые рассматриваются как синонимы. Среди таких синонимов выбирается дескриптор – термин, который рассматривается как основной способ ссылки на понятие в рамках тезауруса. Другие термины из синонимического ряда, включенные в тезаурус, называются аскрипторы или недескрипторы. Они используются как вспомогательные элементы, текстовые входы, помогающие найти подходящие дескрипторы.

Поскольку информационно-поисковые тезаурусы обычно создаются для конкретных предметных областей, то их построение существенным образом базируется на таких сущностях как «понятие» и «термин», под которым обычно понимается слово или словосочетание, номинирующее понятие определенной области знания или деятельности (Суперанская и др., 2003, Гринев, 1993; Лейчик, 1994; Володина, 1996).

Именно такое понимание термина является основанием рассматривать информационно-поисковые тезаурусы как вид онтологических ресурсов (см. раздел 4.1).
1   2   3   4   5   6   7   8   9   ...   45

Похожие:

Тезаурусы в задачах информационного поиска icon Тезаурусы в задачах информационного поиска
Правила индексирования документов дескрипторами информационно-поискового тезауруса 39
Тезаурусы в задачах информационного поиска icon Тезисы представленные на
Внимание! Для поиска своей фамилии или ключевого слова в тексте нажмите Ctrl+F и введите искомое слово в окно поиска!!
Тезаурусы в задачах информационного поиска icon Инструкция по заполнению документов на регистрацию информационного ресурса
Настоящая инструкция определяет порядок заполнения и представления документов для регистрации информационного ресурса в Реестре государственных...
Тезаурусы в задачах информационного поиска icon Лекция №11
В этом разделе будет приведен обзор одних из первых систем поиска информации, насчитывающих к настоящему моменту времени многолетнюю...
Тезаурусы в задачах информационного поиска icon Конспект лекций по дисциплине «Информационные системы и технологии в науке и образовании»
Введение. Содержание дисциплины и порядок ее изучения. Фактографический поиск. Математические модели фактографического поиска. Информационная...
Тезаурусы в задачах информационного поиска icon Инструкция по сверке Планов финансово-хозяйственной деятельности
В параметрах поиска в строке Наименование учреждения вводим инн, либо название учреждения. Нажать кнопку Найти. Внизу экрана загрузится...
Тезаурусы в задачах информационного поиска icon Алгоритмы поиска. Линейный поиск. Двоичный поиск
Также, линейный поиск часто используется в виде линейных алгоритмов поиска максимума/минимума
Тезаурусы в задачах информационного поиска icon Рабочая инструкция по настройке представлений в hp sm
Удалены не используемые номера рисунков. Добавлено описание создания представления из Поиска и описание требований для удаления Представления....
Тезаурусы в задачах информационного поиска icon Задачах на 2014 год Итоги работы Отдела социальной защиты населения г. Рошаль
Отдела социальной защиты населения г. Рошаль Министерства социальной защиты населения Московской области и подведомственных учреждений...
Тезаурусы в задачах информационного поиска icon Общая характеристика информационного ресурса
Целью оказания услуг является формирование и сопровождение картографического информационного ресурса «Шельфовые проекты» (далее ир...
Тезаурусы в задачах информационного поиска icon Отчёт о результатах деятельности отдела загс администрации Лужского...
Во исполнение поручения главы администрации Лужского муниципального района Малащенко Олега Михайловича предоставляем отчет о результатах...
Тезаурусы в задачах информационного поиска icon Инструкция по поиску и спасанию в зоне авиационно-космического поиска...
Организация поисково-спасательного обеспечения полетов в Южной зоне авиационно-космического поиска и спасания (акпс)
Тезаурусы в задачах информационного поиска icon Универсальный телевизионный пульт дистанционного управления
«умного» поиска и сохранения канала, что избавляет вас от необходимости поиска и сохранения каналов вручную. Своевременная замена...
Тезаурусы в задачах информационного поиска icon Инструкция по работе с программным комплексом единого информационного ресурса
При входе в программный комплекс единого информационного ресурса (далее – пк еир) пользователю необходимо пройти авторизацию в меню,...
Тезаурусы в задачах информационного поиска icon Регламент информационного взаимодействия
Настоящий Регламент информационного взаимодействия (далее Регламент) разработан в целях реализации требований следующих документов:...
Тезаурусы в задачах информационного поиска icon Приказ от 3 июня 2014 г. N 148 об утверждении требований к подготовке...
Федеральных авиационных правил поиска и спасания в Российской Федерации, утвержденных постановлением Правительства Российской Федерации...

Руководство, инструкция по применению




При копировании материала укажите ссылку © 2024
контакты
rykovodstvo.ru
Поиск