Конспект лекций Краткий курс

Конспект лекций Краткий курс


Скачать 0.97 Mb.
Название Конспект лекций Краткий курс
страница 1/11
Тип Конспект
rykovodstvo.ru > Руководство эксплуатация > Конспект
  1   2   3   4   5   6   7   8   9   10   11
группа 14Конспект лекций
Краткий курс




МЕТОДЫ РАБОТЫ С ИНФОРМАЦИЕЙ


Лекция 1

Базовые понятия об информации

Такие понятия, как: «понятие», «информация», «факты», «данные», «знания» являются базовыми, априорными – не зависящими от их жизненного опыта и известными всем людям в бытовом смысле. Попробуем формализовать эти понятия.

Понятие (в научном смысле) это логически расчленённая общая мысль о предмете, включающая ряд взаимосвязанных признаков.

Понятие, или образ в кибернетическом смысле – это [Турчин, феномен науки 1, глава 2.1 «Понятие понятия»] множество допустимых ситуаций в кибернетической системе, множество допустимых состояний системы.

Распознавание образов в кибернетике – распознавание и классификация системой допустимых состояний во внешнем мире. При этом составляется классификатор понятий, и в результате работы распознавания большое множество состояний объектов внешнего по отношению к системе мира отображается на небольшое множество состоянии (образ) системы из классификатора.

Распознавание ситуаций в кибернетике – динамическое распознавание образов во времени. По результатам распознавания образов определяется текущее состояние объекта управления, система вырабатывает управляющее воздействие и переходит в новое состояние. Ситуацией называется определённое состояние системы и новое, оптимальное воздействие. Распознавание ситуаций применяется для тактического управления системой: на стратегическом уровне управления определяются цели системы, на тактическом – ситуации и воздействия.

Понятия онтологии, таксономии, классификации знаний и понятий.

Понятия можно представить в виде иерархической системы понятий (классификатора). Пример такой системы: система классификации животного и растительного мира по Карлу Линнею (виды и роды).

В общем виде, такая система понятий называется онтологией.

Научная онтология – точная спецификация некоторой предметной области. Онтология содержит определения понятий и их иерархическую организацию (отношения между понятиями: класс — вид, часть — целое и т.п.).

Сам набор отношений зависит от используемой онтологии, задаётся ею.

Классификация – разновидность онтологии, в которой система разбита на непересекающиеся подмножества, полное покрытие (объединение) которых равно всему множеству, всей системе понятий.

В классификации одно понятие не может входить в несколько различных классов. В произвольной онтологии – может. Такая онтология называется таксономией.

Примеры онтологий:

– онтология предметной области (описание и классификация используемых в предметной области понятий в виде выбранной иерархии);

– навигация по тегам и категориям в блогах в интернет, «облако тегов». Здесь теги помечают понятия, категории – множество тегов.

Понятие может быть:

– конкретным или абстрактным (относящимся к одному объекту или к множеству объектов);

– эмпирическим (выработанным на основе непосредственного сравнения общих свойств доступных объектов) или теоретическим (выработанным на основе опосредованного анализа некоторого класса явлений при помощи других понятий, концепций и формализмов);

– составным (из других понятий) или элементарным;

Научное понятие характеризуется содержанием и объёмом. Совокупность предметов, обобщённых в понятии, называется объёмом понятия, а совокупность существенных признаков, по которым обобщаются и выделяются предметы в понятии, — его содержанием. Так, например, содержанием понятия «параллелограмм» является геометрическая фигура, плоская, замкнутая, ограниченная четырьмя прямыми, имеющая взаимно параллельные стороны, а объёмом — множество всех возможных параллелограммов. Развитие понятия предполагает изменение его объёма и содержания.

Информация – имеет несколько определений, на бытовом и научном уровне.

Например, таких:

– сведения, знания, передаваемые, хранимые или получаемые системой, например человеком; то, что некто сообщает или рассказывает; сообщения, новости;

– Информация — это различие, которое создаёт различие. (Г. Батесон);

– информация как отраженное разнообразие,

– информация как устранение неопределенности (энтропии),

– информация как связь между управляющей и управляемой системами,

– информация как преобразование сообщений,

– информация как единство содержания и формы (например, мысль — содержание, а само слово, звук — форма),

– информация — это мера упорядоченности, организации системы в ее связях с окружающей средой.

Общее понятие информации должно непротиворечиво охватывать все определения информация, все виды информации. К сожалению. такого универсального понятия информации еще не разработано.

Понятие информации в кибернетике уточняется в математических «теориях информации». Это теории статистической, комбинаторной, топологической, семантической информации.

Оно непрерывно связано с оценкой количества информации, необходимой для передачи состояния кибернетической системы.

Информация может характеризоваться понятиями достоверности, противоречивости, полноты и неопределённости, необходимости и достаточности (нужная в данный момент или не нужная этой системе информация).

Также существуют факты, данные, знания.

Факт – это истинное событие, происшествие, явление, то, что действительно было, имело место (свершившееся событие).

Научный факт – это событие, явление, которое используется для изучения темы, подтверждения выводов.

Научный факт является элементом научного знания, отражающим объективные свойства вещей и процессов.

На основании научных фактов определяются свойства и закономерности явлений, выводятся теории и законы.

Научные факты характеризуются объективностью, достоверностью, точностью. При использовании научного факта большое значение имеет его новизна. В силу значимости научного факта исследователь подвергает его критической оценке, выявляет его объективность, достоверность. Достоверность определяется на основании его первоисточников. Если достоверность научного факта не установлена, он, во-первых, не может быть назван научным, во-вторых, не может быть использован в научном труде, каким является диссертация.

Официальное издание, публикуемое от имени государственных организаций, содержит материалы, точность которых не должна вызывать сомнения. Вместе с тем исследователи правильно поступают, когда подвергают перепроверке факты, взятые даже из официальных изданий.

К достоверным источникам научного факта относят также монографии и другие научные труды, в которых должен быть представлен первоисточник научного факта, обосновывается его достоверность. Факт, приводимый в монографии без ссылки на источник, не может в последующем использоваться как научный факт без выявления и подтверждения его достоверности.

Факт в информатике – единичное значение данных, созданное или использованное бизнес-процессом.

Данные – совокупность сведений, информация. Но это уже «актуальная информация». Например, такая как новости: новости имеют для слушателя фактор новизны, актуальности, и могут устаревать со временем, становиться неактуальными. В отличие, например от телефонного справочника, в котором перечислены свершившиеся, известные события (факты), или теории научных знаний, которые могут содержать свершившиеся или нет явления (информации в общем виде).

Знания – данные плюс метаданные. То есть, данные плюс данные, описывающие сами данные. Знания характеризуются активным характером: это результат выполнения какого-то действия, выполненного активным субъектом.

Таким образом, все вместе информация, факты, данные, знания составляют общее понятие информации.

Жизненный цикл обработки информации выглядит следующим образом:

– определяются базовые понятия и сведения (информация);

– выясняются факты;

– собираются актуальные данные;

– выясняется новая закономерность: открытое знание, то есть, данные + метаданные.

Научные знания представляются в виде моделей и теорий.

Здесь модель – это отображение некоторого объекта, с достаточной для работы с объектом точностью представляющей сам объект.

Теория в научном смысле – cовокупность обобщённых положений, являющаяся основанием какой-либо науки или её раздела.

Или в бытовом смысле, спекуляции, рассуждения, мнение, предположение о причинах или возможных последствиях чего-либо, выработанные на основе наблюдений.

Существует раздел математики (метаматематики), который называется «теория моделей», где теории и модели рассматриваются аналогично алгебре в особой системе понятий, вводятся операции и преобразования моделей и теорий.

В других разделах науки, научные модели в основном воспринимаются как эмпирические и формальные.

К научной модели предъявляются дополнительные требования для обеспечения корректности модели: модель должна быть корректна (непротиворечивость), адекватна (представляемому объекту в статике) и устойчива (оставаться корректной и адекватной при динамическом развитии системы).

В научной среде к фактам, знаниям, методам работы с информацией (выявления закономерностей) предъявляются особые требования, призванные обеспечить объективность (интерсубъективность) научного знания (такие, как научный метод, рациональный метод мышления). Это позволяет обеспечить верификацию и валидацию полученного научного знания любым учёным, имеющим подобающее оборудование, материалы, исходные данные и знания.

Знания, такие как исследование, характеризуются субъектом, объектом и предметом.

Субъект исследования – кто выполняет исследование.

Объект исследования – что исследует субъект.

Предмет исследования – основная суть и метод, цель, задача исследования.

Цель исследования должна быть конкретна и измерима, достижима. Задача исследования должна быть корректно поставлена и выполнима, или должно быть доказано о невозможности её выполнить (в переформулированной исходной постановке задачи).

Понятия субъективности, объективности и интерсубъективности знания, информации, наблюдений.

Субъективность – свойство знания зависеть от субъекта знания (примеры: парадокс наблюдателя в квантовой механике, предвзятое мнение о чём-то, экспертные знания, трудно формализуемый личный опыт субъекта).

Объективность исследования – свойство исследования не зависеть от субъекта исследования.

Интерсубьективность — понятие, означающее 1) особую общность; 2) определенную совокупность людей, обладающих общностью установок и воззрений; 3) обобщенный опыт представления предметов.

Например: сложившийся в данной компании опыт работы команды специалистов. Он является субъективным в первом случае, когда знания одного специалиста трудно отчуждаемы, передаваемы как общий опыт всем остальным участником команды. Во втором случае – объективным: если команда работает строго по научному подходу. В итоге, любая другая команда с тем же оборудованием, навыками, исходными знаниями, действуя по задокументированной в ходе исследования методикой исследования может эти знания воспроизвести и прийти к тем же результатам и выводам. Или интерсубъективным, когда опыт понятен членам команды, но трудно передаваем вовне другой команде с другим опытом.

Развитие научного знания состоит в переходе от интерсубъективного исследования (частного решения проблемы, применения какой-то теории и метода к конкретной ситуации) к объективным исследованиям ( открытию новой теории, обобщению закономерности и т.п.)

Новое полученное научное знание, такое, как исследование проходит peer review, «обзор и критику равных», где другие учёные могут проверять полученные знания на противоречивость и корректность, область применения, воспроизводимость.

В ходе этой процедуры происходит верификация (проверка того, что знание работает и не противоречиво) и валидация исследования (проверка того, что знание воспроизводимо, адекватно и получено научным методом).

Смысл этих процедур – обеспечить воспроизводимость научного знания, любым учёным с достаточными навыками, оборудованием, процедурами и методами.

Воспроизводимое научное знание (движение reproducible research) – движение за автоматизацию этих процедур. При таком подходе, по аналогии с подходом Д. Кнута для написания документации под названием «грамотное программирование» (literate programming) разрабатывается «из единого исходного документа» одновременно и описание работы исследования, применённого метода, и процедуры сбора данных, составление программы, которая осуществляет обработку исходных данных и результатов экспериментов, рисует графики. В результате чего чтобы прийти к тем же выводам, что и автор исследования – любой учёный может взять прилагающийся к исследованию репозиторий с программой и исходными данными, скомпилировать и выполнить её. Анализ её исходного текста (распространение с открытыми исходниками) позволяет убедиться, что исследование выполнено корректно, методика исследования автоматически проходит верификацию и валидацию в ходе анализа этой программы.

Для обеспечения reproducible research применяются специальные среды разработки, например на основе Emacs режима org-mode babel, R в среде Sweave, StatWeave, weave/tangle инструменты из подхода «грамотного программирования» и т. п. [http://www.reproducibleresearch.net/index.php/Main_Page 2], пример настройки Emacs org-mode babel в [http://www.jstatsoft.org/v46/i03 3].

Для более общих теорий применяются подходы такие, как научный метод, фальсифицируемость по К. Попперу и т.п.

Лекция 2

Методы научного познания

Не только результат исследования, но и путь, ведущий к нему должен быть истинным. Метод - это совокупность правил поведения и требований к деятельности, сформулированных на основе знаний о свойствах объективной реальности.

Существуют различные типы классификации методов, в совокупности образующих методологию, которая понимается и как система принципов и способов организации и построения теоретической и практической деятельности, и как учение об этой системе [Новиков, методология 4].

Классификация методов обычно проводится по двум основаниям:

I. По сфере применения и универсальности методов:

1) конкретные методики, универсальность которых не может перейти границу отдельных научных проблем;

2) частнонаучные методы обладают большей степенью универсальности в смысле применимости к достаточно широкому кругу проблем в рамках одной науки;

3) общенаучные методы (междисциплинарные методы), которые могут быть использованы в различных отраслях научного знания;

4) всеобщие методы познания, обладающие наибольшей универсальностью (прежде всего, методы логического познания).

II. По области применения методов с точки зрения основных уровней логического познания (эмпирического и теоретического) достаточно четко выделяются:

1) методы эмпирического познания, с помощью которых осуществляется процесс накопления и проверки фактов;

2) методы теоретического познания – по сути, методы построения теории;

3) методы, которые могут быть использованы как на эмпирическом, так и на теоретическом уровне; основу этих методов составляют так называемые общелогические методы познания.

Основные методы эмпирического познания.

Научное наблюдение должно быть четко, строго организовано, продуманы средства наблюдения и т. д. Строгое соблюдение всех требований может обеспечить высокий уровень достоверности полученных результатов.

Описание должно осуществляться на основе строгого научного языка в терминах той науки, в которой оно используется.

Методы эмпирического познания:

Измерение – важный метод. Наука разработала очень точный инструментарий измерений, который позволяет получать максимально точные характеристики изучаемых предметов и процессов. Необходимы также измерительные эталоны (СИ).

Эксперимент – основа современного естествознания. С помощью эксперимента удается повысить достоверность полученных знаний. Он позволяет многократно воспроизводить одни и те же взаимодействия и более четко фиксировать закономерности, обнаруживаемые в ходе этих взаимодействий. Но эксперимент, несмотря на свою эффективность, имеет свои пределы. Не все объекты удается подвергнуть эксперименту. С другой стороны, всегда есть вопрос о последствиях эксперимента, о финансовой стороне. Серьезные ограничения эксперимент имеет в социальной сфере, где он заключает в себе большую опасность.

Методы теоретического познания (методы построения теорий) довольно многообразны в зависимости от предмета наук и определяются его спецификой.

Дедуктивно-аксиоматический метод. Из набора аксиом дедуктивно выводится теория. Изменение какого - либо одного постулата в корне изменяет теорию.

Исторический метод – описание исторического процесса возникновения, становления, развития какого - либо объекта – лежит в основе исторических наук.

Логический метод – это тот же исторический, но очищенный, рафинированный. Он выявляет самое существенное, главное в каком - либо процессе.

Метод восхождения от абстрактного к конкретному был сформулирован К. Марксом.

Общелогические методы и приемы исследования.

Анализ – реальное или мысленное разделение объекта на составные часта.

Синтез – их объединение в единое целое.

Абстрагирование – процесс отвлечения от ряда свойств и отношений изучаемого явления с одновременным выделением интересующих исследователя свойств.

Идеализация – мыслительная процедура, связанная с образованием абстрактных (идеализированных) объектов, принципиально не осуществимых в действительности. Данные объекты – весьма сложное и очень опосредованное выражение реальных процессов, некоторые их предельные случаи, служащие средством их анализа и построения теоретических представлений о них.

Индукция – движение мысли от единичного к общему.

Дедукция – восхождение процесса познания от общего к единичному.

Аналогия – установление сходства в некоторых сторонах, свойствах и отношениях между нетождественными объектами, на основании чего делается соответствующий вывод – умозаключение по аналогии. Аналогия дает вероятностное знание.

Моделирование – метод исследования определенных объектов путем воспроизведения их характеристик на др. объекте – модели, аналоге того или иного фрагмента действительности (вещного или мыслительного) – оригинала модели. Между моделью и объектом должно быть известное подобие – в физических характеристиках, структуре, функциях и др. Формы моделирования весьма разнообразны –предметное (физическое) и знаковое, важная форма которого – математическое (компьютерное) моделирование.

Системный подход – совокупность общенаучных методологических принципов (требований), в основе которых лежит рассмотрение объектов как систем:

1) выявление зависимости каждого элемента от его места и функций в системе с учетом того, что свойства целого несводимы к сумме свойств его элементов;

2) анализ того, насколько поведение системы обусловлено как особенностями ее отдельных элементов, так и свойствами ее структуры;

3) исследование механизма взаимодействия системы и среды;

4) изучение характера иерархичности, присущего данной системе;

5) обеспечение всестороннего многоаспектного описания системы;

6) рассмотрение системы как динамичной, развивающейся целостности.

Среди философских методов наиболее древними являются диалектический и метафизический. К их числу также относятся аналитический, интуитивный, феноменологический, герменевтический (понимание) и др.

В ходе научного метода, рационального метода познания составляются гипотезы, проводятся эксперименты, подтверждаются основания гипотез (подробнее см. 7 лекцию, научный метод)

Предпринимаются попытки соединить разные методы:

– синтез, анализ, и синтез-анализ;

– методы развития творческого мышления (методы мозгового штурма, ТРИЗ, АРИЗ, синектика);

– творческий метод (артистизм, раскрытие художественного выступления, педагогические методы);

– системный подход;

– синергетика (совместное применение нескольких методов на основе системного подхода: один метод помогает применению другого, и наоборот);

Лекция 3

Методы работы с научной информацией

Методы систематизации и хранения научной информации.

Научная информация – это знания, представленные в виде статей, публикаций в журналах и монографиях, докладов на конференциях и симпозиумах, научных работ (дипломных работ, кандидатских и докторских диссертаций).

Публикации журналах, монографиях в виде статей и книг получают код согласно классификатору УДК (универсальный десятичный классификатор). Этот код широко используется во всём мире для систематизации произведений науки, литературы и искусства, при организации картотек в библиотеках.

Согласно теме публикации ей присваивается один или несколько (если публикация по нескольким темам) кодов в соответствии с разделами:

0. Общий отдел. Наука и знание. Информация. Документация. Библиотечное дело. Организации. Публикации в целом

1. Философия. Психология

2. Религия. Богословие

3. Общественные науки

4. (Резерв для будущего применения.) Свободен с 1962 г., содержание перенесено в отдел 8.

5. Математика. Естественные науки

6. Прикладные науки. Медицина. Технология

7. Искусство. Фотография. Музыка. Игры. Спорт

8. Языкознание. Лингвистика. Художественная литература. Литературоведение

9. География. Биографии. История

Коды соединяются знаками соединения (+ , / , : , :: , [] , * , А/Я ).

Далее используются определители, присваивающие код по подразделам.

Таким образом, целиком присвоенный публикации код выглядит, например, следующим образом:

061.1(100):[54+66] Международный союз теоретической и прикладной химии

Подробнее см. ГОСТ 7.90—2007. Система стандартов по информации, библиотечному и издательскому делу. Универсальная десятичная классификация. Структура, правила введения и индексирования : издание официальное.

Для различных видов публикаций используются другие дополнительные классификаторы, такие как:

ДКД — Десятичная классификация Дьюи

ББК — библиотечно-библиографическая классификация (для поиска в библиотеке)

Дублинское ядро

Комплексный книготорговый индекс-шифр

ISBN (англ. International Standard Book Number) — международный стандартный номер книги

ISSN (англ. International Standard Serial Number) — международный стандартный серийный номер

ГРНТИ — Государственный рубрикатор научно-технической информации (по состоянию на 2001 год)

По месту публикации она получает выходные данные, такие как город, издательство, год издания, формат (ISBN, ISSN, УДК), количество страниц, авторы, переводчики. Подробнее см. ГОСТ Р 7.0.4-2006

Научные работы в виде дипломов и курсовых хранятся на кафедре ВУЗа, в течение 5 лет минимум;

кандидатские и докторские диссертации – в виде трёх экземпляров на кафедре ВУЗа, где происходила защита, в центральной библиотеке им. Ленина в отделе диссертаций, в архиве. В электронном виде диссертации доступны для ознакомления в Российской Государственной Библиотеке (РГБ, http://www.rsl.ru ), на сайте кафедры ВУЗа или автора диссертации, в электронных архивах ( http://arxiv.org , http://dl.acm.org/ , аналогом УДК является DOI, идентификатор цифрового объекта ), в библиотеке ВУЗа по запросу из другого ВУЗа.

Совместно с кандидатской и докторской диссертацией, подробной работой подготавливается автореферат (abstract) – краткая аннотация основных тезисов, защищаемых положений, используемого метода и сути выполненной работы.

Для научных работ важнейшим является понятие «индекс цитирования». Так, статья, на которую ссылаются чаще в списке литературы другой работы получает больший индекс цитирования. Согласно индексу цитирования работ, защищённых в этом ВУЗе и другим рейтингам составляется общий рейтинг ВУЗа.

Публикации научных работ, статей должны осуществляться в списке научных журналов, утверждённых ВАК (Высшей Аттестационной Комиссией), или эквивалентных списках международно признаваемых научных журналов, чтобы они получили индекс цитирования.

Методы поиска научной информации.

Первоначальный метод поиска – определившись с темой исследования, составить список научных работ, имеющих отношение к теме исследования. Провести первичный отбор полезных для вашей работы. Проанализировать список литературы этих работ, где конкретные моменты могут быть раскрыты более подробно. Проанализировать и эти литературные источники.

Существует определённый уровень доверия к источникам информации:

так, наиболее строгие, серьёзные требования предъявляются к монографиям (книгам большого объёма, где данная конкретная тема раскрыта наиболее подробно), затем идут докторские, кандидатские диссертации, статьи в журналах, доклады и выступления на конференциях, семинарах и симпозиумах, книги, презентации на выставках, мастерских, тренингах, затем в обычной, бытовой литературе (научно-популярные журналы, книги), затем полевые исследования и наблюдения, интернет-ресурсы, рефераты и аннотации.

Реферат содержит краткое, обзорное состояние дел в предметной области выполненных другими работ.

Методы обработки научной информации.

Отобранные источники литературы цитируются в Вашей работе таким образом, чтобы сослаться на полученные результаты, подтверждающие ключевые моменты Вашего исследования. Цитирование допускается ограниченного объёма (несколько предложений), основную суть Вашей работы должны составлять оригинальные умозаключения (original content), в подтверждение которых приводятся ссылки на источники; цитаты не должны составлять основной объём Вашей работы.

Выполняются наблюдения, опрос и анкетирование целевой для исследования группы, постановка и выполнение экспериментов. Результаты наблюдений, опросов и экспериментов обрабатываются статистически, с учётом соответствующих шкал классификации (см. [Новиков, методология]).

Формулируется научная закономерность, выводы результатов статистической обработки и заключение работы.

Лекция 4

Работа с поисковыми системами.

Механизм работы.

В сети Интернет находится множество информационных ресурсов, доступных по различным адресам (www.site.net) и протоколам (http:// , https:// ftp:// и т.п.).

Выложенные на веб-сервер (по протоколам http:// и https://) документы представлены в форматах html с картинками (jpg, png, gif, jpeg2000, webm), xml, pdf, djvu, doc, ppt и прочих.

Документы могут быть выложены на сайт заранее, статически либо формироваться динамически из баз данных.

Документы содержат гиперссылки на другие документы этого или другого сайта.

В корне виртуального хоста веб-сервера находится файл robots.txt, описывающий правила индексирования и соответствия User-Agent. Этот файл разрешает или запрещает индексировать сайт поисковым системам, веб-паукам (crawler).

В ходе индексирования паук, или бекенд поисковой системы рекурсивно обходит все документы, доступные по ссылкам из корневого ( http://www.site.net который в зависимости от используемого веб-сервера и его настроек отображается на документ index.html, index.htm,default.htm виртуального хоста www.site.net ) . Все документы, рекурсивно доступные по ссылкам из этого заносятся в индекс поисковой системы.

Фронтэнд поисковой системы (страничка с полем ввода для поиска, например http://ya.ru или http://www.google.com ) выполняет на сервере поисковой системы поиск по этим индексам в его базе данных.

Проблемы поиска.

Поиск может осуществляться по содержанию документа, по ключевым словам, по классификации или таксономии, «по смыслу запроса».

Основной проблемой при обработке информации на компьютере является то, что компьютер не понимает сути и смысла обрабатываемых данных: хранится «мгновенный снимок» состояния отдельных файлов.

Для того чтобы иметь возможность понимать смысл данных (что эта таблица содержит ключевые важные данные, этот логический раздел книги соответствует такому-то разделу структуры и т.п.) в общем случае требуется решение задачи распознавания образов. Это задачи распознавания текстов на естественном языке (ЕЯ): NLP или Natural Language Processing.

Это вычислительно сложные задачи, поэтому в выдаче поисковой системы может содержаться не та информация, которую подразумевал пользователь.

Эта страница могла попасть в выдачу из-за того, что в ней встретилось это ключевое слово, или цитата, в любом произвольном контексте.

В итоге, страница из выдачи может быть релевантна запросу или нет, то есть иметь отношение к теме подразумеваемого поиска и исследования или нет.

Либо страница может попасть в 10500 место в выдаче поисковой системы, и в этом случае автор сайта может заняться поисковой оптимизацией, чтобы повысить её место в выдаче. За счёт того, что страница будет «оптимизирована» под запрос, т.е. автор сайта проанализирует по каким запросам от поисковой системы к нему на сайт приходят пользователи, и переделает содержимое статьи.

Также существуют «нечестные» методы «чёрной» поисковой оптимизации (SEO, search engine optimization), которые могут повысить место в выдаче за счёт нерелевантных ключевых слов (поискового спама), сайтов-однодневок, ссылающихся на данный и повышающих его «индекс цитирования», надписей белым по белому с ключевыми словами и т.п. Некорректные методы SEO оптимизации очень похожи на методы распространения spam-рассылок по почте.

В итоге, пользователь поисковой системы в общем случае должен вручную перебрать страницы выдачи, чтобы понять смысл этих статей, имеют ли они отношение к теме его запроса или нет.

Методы повышения результативности поиска:

использование аггрегаторов поиска (таких, как поисковая система Nigma.ru, десктоп приложение CopernicSearch, WebResearch, WebSiteWatcher, новостных аггрегаторов вроде RSS).

Аггрегатор отправляет запросы сразу на несколько поисковых систем одновременно, сортируя результаты от нескольких поисковых систем в общий, аггрегированный. Эти результаты должны быть более достоверны, чем от одной поисковой системы.

RSS технология позволяет получать обновления на сайте в виде только изменений, а не всех страниц целиком. Существуют аггрегаторы RSS наподобие Google Reader (закрывшегося недавно), feedburner.com и т.п., сводящие информацию с разных сайтов в одну сводную страницу.

уточнение запроса, модификаторы запроса.

По умолчанию выполняется запрос по содержимому: текст запроса должен встречаться в тексте страницы. На страницах помощи поисковых систем описаны ключевые слова модификаторов запроса, которые позволяют искать:

– по протоколу ( url: ) или по конкретному сайту (site: )

  • по типу файла ( filetype: pdf для публикаций или filetype: conf для настроек)

  • по размеру (size: )

  • точное совпадение ( “foo” )

  • регулярные выражения, объединение И, ИЛИ и т.п. ( foo | bar)

  • косвенные ссылки ( ссылки на данном сайте, ссылающиеся на другой заданный, ссылки в странице по ссылке с этой, и т.п.)

  • и т.п.

В случае некорректно сконфигурированных серверов таким образом удаётся найти информацию, которую администратору сайта нежелательно выкладывать: закрытую конфиденциальную информацию в виде doc, pdf документов, настройки CMS сайта, форума ( .conf), бекапы текстового редактора программ сайта (*.php~, #*.php#), пароли пользователей форума и т.п. Подробнее см. книгу Google Hacking.

Для предотвращения распространения подобной информации, которая должна оставаться конфиденциальной, администратор сайта должен закрыть доступ командой Disallow к нужному разделу в файле robots.txt и/или закрыть доступ на чтение в настройках виртуального хоста сервера.

оптимизация и уточнение поискового запроса ищущим пользователем

Проводится поиск одного понятия, чтобы примерно понять, в каком направлении искать дальше. Например, поиск по «наводящим вопросам».

Или, например, поиск сначала более широкого понятия, потом уточнение до более конкретного (ректификация, refinement).

Или, наоборот, сначала ищем более конкретное, и не найдя в выдаче требуемого, ослабляем понятие на более общее, широкое.

Затем вручную отбираем нужное.

Помогает для оптимизации понимание принципа работы поисковой системы: назначение рейтингов статей. Как правило, поисковые системы не публикуют полностью весь алгоритм, по которому осуществляется присваивание рейтинга странице (например, Yandex; что приводило в 90-е года к разным сайтам-рейтингам вроде Top100 сайтов Рунета, каталог-поисковик вроде rambler.ru и тп.)

Исключением здесь является поисковая система Google, принцип работы которой опубликован в виде научной работы. Суть алгоритма PageRank, по которому осуществляется ранжирование страниц – в применении алгоритма расчёта индекса цитирования научных публикаций (без учёта «рейтинга ВУЗа», только индекс цитирования) ко всем страницам Сети.

поиск «по смыслу» и технологии семантического веба;

Пример такой поисковой системы: Wolfram Alpha, Nigma.ru, freecbbb.org, WikiData. Эта система старается понять логику запроса с возможностью дальнейшего его уточнения по найденным классификациям. Например, задав в запросе Вена поисковая система сама определит все омонимы (слова с разным смыслом, звучащие одинаково): Вена, город в Австрии; Вена, река; вена кровеносный сосуд; Вена имя собственное и т.п. В дальнейшем, можно уточнить поиск по найденным категориям. Либо, можно написать запрос типа “30 USD in RUB”, “10 feets in inches”, “8 miles in centimeters”. Выполнится «калькулятор». Подобные запросы можно делать и в Google, но в Wolfram Alpha можно формулировать запросы на естественном языке, и система будет стараться понять их смысл.

Технологии Semantic Web – технологии поиска знаний по документам, аннотированным в некоторых общедоступных (по URL ресурсам) онтологиях, в заданной типовой системе понятий. Будут подробно разобраны в 6 лекции. Суть технологии – облегчить поиск «по смыслу» данных автономными интеллектуальными агентами.

Специализированные поисковые системы.

– Интернет-кеш (сайты http://archive.org и т.п. )

Информация в интернете динамична, и хотя если владелец сайта не контролирует распространение, копирование информации с его сайта (он принципиально не может ограничить его чисто техническими методами на своей стороне: авторская информация, такая как книги, программы, предмет авторского права должна защищаться комплексными методами взаимодействия, включая организационные), нельзя надеяться, что страница с таким-то содержимым найденная на этом сайте вчера будет там оставаться впредь. Во-первых, сам автор мог её убрать, удалив физически либо изменив настройки сервера виртуального хоста сайта, запретить доступ всем либо по ряду критериев. Во-вторых, информация могла быть сгенерирована запросом к базе данных, состояние которой изменилось. В-третьих, сайт сам может выдавать содержимое только зарегистрированным на сайте пользователям, как, например, на форумах.

Хочется узнать состояние сайта на какой-то момент времени, или поискать старое состояние страницы до удаления. Интернет-кеши позволяют это сделать.

Интернет-кеш – это поисковая система, которая автоматически индексирует и хранит все страницы сайта с изменением во времени.

Интернет-кеш содержит не все сайты, и не все страницы всех сайтов.

Так например, динамическое содержимое (форумы, специализированные закрытые базы данных) им обычно не индексируется. Или автор сайта может вручную удалить страницы из этого кеша тоже.

В итоге это приводит к тому что мы имеем фрагментацию, два интернета в одном:

– обычный, открытый Web;

– закрытый, только для своих, зарегистрированных (DeepWeb).

– закрытые форумы;

– extranet, VPN сети и базы данных из этих сетей;

– специализированные поисковые системы;

– peer-to-peer сети (см. F2F, Friend-to-Friend сети, DarkNet, FOAF, cети доверия).

Существуют исследования структуры DeepWeb по косвенным признакам. В русском сегменте сети по разным оценкам DeepWeb представляет собой в 2-3 раза больше доступных документов, чем в открытых источниках.

Также старая версия информации могла остаться в кеше поисковой системы (Яндекс, Google).

Специализированные закрытые поисковые системы.

В отличие от общедоступных, эти поисковые системы недоступны извне, из обычного интернета. Как правило, это IntraNet (в пределах локальной сети) или ExtraNet (в пределах распределённой виртуальной частной локальной сети (VPN), связывающей через общедоступный интернет сегменты разных филиалов; как правило, применяется шифрование трафика).

Примеры таких баз данных и поисковых систем:

– ведомственные базы данных милиции, МЧС, налоговой (по номерам машин, по ЕГРЮЛ);

– кредитная история в банковских системах;

– база данных контрафактных товаров (штрихкоды + сервис по SMS + PKA);

– закрытые базы знаний и порталы «для разработчиков» корпораций;

– медицинские базы данных и базы знаний (LEXIS/NEXYS: поиск диагноза по симптомам, электронные медицинские карточки пациентов, процедуры лечения);

– поиск по научным публикациям:

По темам:

– медицинские исследования (MedPub), лабораторные, фармакология (ЛИС системы);

  • физика, математика, инженерные науки (Electrical Engineering) http://arxiv.org ;

  • математика, метаматематика и компьютерные науки (Сomputer Science, Software Engineering, Systems Engineering: INCOSE) http://dl.acm.org

  • Российская Государственная Библиотека им. Ленина, отдел диссертаций http://rsl.ru

  • межвузовские университетские закрытые сети (у нас это RUNNet и т.п.)

  • сети издательств, в т.ч. научной и технической литературы

  1   2   3   4   5   6   7   8   9   10   11

Похожие:

Конспект лекций Краткий курс icon Кафедра фармации Органические лекарственные препараты. Ароматические...
Органические лекарственные препараты. Ароматические соединения. Краткий конспект лекций – Нижний Новгород: Изд-во Нижегородской государственной...
Конспект лекций Краткий курс icon Конспект лекций
Ш 39 Метрология, стандартизация, сертификация: Конспект лекций / О. А. Шейфель; Кемеровский технологический институт пищевой промышленности....
Конспект лекций Краткий курс icon Краткий курс лекций Производственная безопасность. Часть 3
Пламя возникает в результате сложного взаимодействия химических и физических процессов
Конспект лекций Краткий курс icon Конспект лекций (Гилевский Ю. Х.) по высшей геодезии за 3 курс обучения...
Конспект лекций (Гилевский Ю. Х.) по высшей геодезии за 3 курс обучения в Санкт-Петербургском техникуме Геодезии и картографии. Примерно...
Конспект лекций Краткий курс icon Конспект лекций для студентов всех форм обучения специальности 080110...
Налоги и налогообложение: Конспект лекций / Составитель Н. А. Леончик. – Кемерово, 2006. – 80 с
Конспект лекций Краткий курс icon Технические средства автоматизации конспект лекций
Конспект лекций предназначен для студентов дневной, вечерней, заочной и дистанционной форм обучения по специальности 220301 «Автоматизация...
Конспект лекций Краткий курс icon Курс лекций ббк20. 1 я7 к 17 Калыгин В. Г
К а л ы г и н В. Г. Промышленная экология. Курс лекций. М.: Изд-во мнэпу, 2000. 240 с
Конспект лекций Краткий курс icon Краткий курс лекций по дисциплине «безопасность жизнедеятельности»...
Загрязнение продуктов питания примесями, мигрирующими из оборудования, инвентаря, тары и упаковочных материалов
Конспект лекций Краткий курс icon Конспект лекций Владимир 2010 Министерство образования Российской...
Автоматизированные системы бухгалтерского и управленческого учета. Часть 1: Конспект лекций / Владим гос ун-т; Сост.: Д. Н. Васильев...
Конспект лекций Краткий курс icon Конспект лекций лаконично раскрывает содержание и структуру учебной...
Безопасность жизнедеятельности : конспект лекций для студентов очной и заочной форм обучения / сост. В. М. Домашко; Южный федеральный...
Конспект лекций Краткий курс icon Курс лекций по дисциплине: «Санитария и гигиена» 2015г
Курс лекций предназначен для изучения дисциплины «Санитария и гигиена» обучающимися 1 курса специальности «Парикмахер»
Конспект лекций Краткий курс icon Курс лекций, прочитанный для студентов Московской Духовной Академии «Духовная Библиотека»
Когда я по благословению церковных властей читал курс лекций в Академии, то не предполагал, что они когда-нибудь будут изданы
Конспект лекций Краткий курс icon Курс лекций по дисциплине оп. 13 «автомобильные эксплуатационные материалы» 2016 г
Курс лекций содержит основные сведения по производству и применению автомобильных эксплуатационных материалов. В данном курсе рассмотрены...
Конспект лекций Краткий курс icon Полный курс лекций по русской истории Петроград. 5 Августа 1917 г
Печатный источник: С. Ф. Платонов. Полный курс лекций по русской истории. Издание 10-е
Конспект лекций Краткий курс icon Курс-конспект лекций и контрольные задания Рига 2006. Методическое...
Современная психодиагностика определяется как психологическая дисциплина, разрабатывающая методы выявления и изучения индивидуально...
Конспект лекций Краткий курс icon Конспект лекций по дисциплине Общий курс железных дорог
Функционирование железнодорожного транспорта осуществляется, исходя из следующих принципов: устойчивость его работы; доступность,...

Руководство, инструкция по применению




При копировании материала укажите ссылку © 2024
контакты
rykovodstvo.ru
Поиск