МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
ВЛАДИВОСТОКСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ЭКОНОМИКИ И СЕРВИСА
ИНСТИТУТ ИНФОРМАТИКИ, ИННОВАЦИЙ И БИЗНЕС СИСТЕМ
КАФЕДРА ИНФОРМАЦИОННЫХ СИСТЕМ И ПРИКЛАДНОЙ ИНФОРМАТИКИ
Хранилища данных
Рабочая программа учебной дисциплины
230400.62_Информационные системы и технологии
Владивосток
Издательство ВГУЭС
2014
ББК **.**
Рабочая программа учебной дисциплины «Хранилища данных» составлена» в соответствии с требованиями ООП: 230400.62 Информационные системы и технологии на базе ФГОС ВПО.
Составитель: _Кригер А.Б.__ доцент кафедры _Информационных систем и технологий.
Утверждена на заседании кафедры ИСПИ от 22.04.2014 г., протокол № 10,
Утверждена на заседании Ученого совета Института ИИБС от 03.06.2014 г., протокол № 8.
© Издательство Владивостокский
государственный университет
экономики и сервиса, 2014
ВВЕДЕНИЕ
Современные корпоративные информационные системы содержат приложения, предназначенные для комплексного анализа данных, поддержки принятия решения, извлечения знаний.
Принятия эффективного управленческого решения невозможно, без консолидированных отчетов и глубинного анализа результатов. Для этого необходимо создание хранилищ данных (Data warehouses), специальных систем хранения, обеспечивающих загрузку предварительно извлеченных и обработанных данных и оперативный доступ к ним.
Основные требования к хранилищам данных:
поддержка высокой скорости доступа к данным;
поддержка внутренней непротиворечивости данных;
возможность манипулирования данными;
полнота и достоверность хранимых данных;
поддержка процессов обновления данных.
В отличие от оперативных баз данных, на основе которых строятся учетные информационные системы, хранилища данных предназначены исключительно для аналитической обработки данных. Данные загружаются в хранилище из оперативных баз данных.
-
ОРГАНИЗАЦИОННО-МЕТОДИЧЕСКИЕ УКАЗАНИЯ
Цели освоения учебной дисциплины
получение базовых знаний о системах хранения данных, особенностях Хранилищ данных и их назначении;
формирование умений и навыков проектирования Хранилищ данных и систем бизнес-анализа;
знакомство с технологиями интеллектуального анализа.
Место учебной дисциплины в структуре ООП (связь с другими дисциплинами): профессиональный цикл, вариативная часть.
1.3 Компетенции обучающегося, формируемые в результате освоения учебной дисциплины.
В результате изучения дисциплины будут сформированы следующие компетенции:
ПК-11 – способность к проектированию базовых и прикладных информационных технологий;
ПК- 22 – готовность осуществлять организацию контроля качества входной информации;
ПК- 26 – готовность использовать математические методы обработки, анализа и синтеза результатов профессиональных исследований;
Таблица. Формируемые знания, умения, владения
Название ООП (сокращенное название ООП)
|
Цикл/
раздел
|
Компетенции
|
Знания/ умения/ владения (ЗУВ)
|
Прикладная информатики (бакалавр)
|
М.№
|
ПК-11
|
Знания:
|
Современные информационные технологии хранения и обработки данных
|
Умения:
|
Разрабатывать оперативные БД и современные системы хранения данных – хранилища данных
|
Владение:
|
Инструментальными средствами проектирования и реализации систем хранения данных
|
ПК-22
|
Знания:
|
Методов анализа качества исходных данных
|
Умения:
|
Выбирать методы предварительной обработки данных
|
Владение:
|
Инструментальными средствами анализа данных
|
|
ПК-26
|
Знания:
|
Математических методов анализа бизнес-информации
|
Умения:
|
Выбирать методы извлечения и анализа данных
|
Владение:
|
Инструментальными средствами разработки приложений
|
Основные виды занятий и особенности их проведения
Объем и сроки изучения дисциплины: 5 семестр, аудиторные занятия – 51 час, самостоятельное изучение дисциплины 34 часа. Итоговая аттестация по курсу — зачет.
1.5 Виды контроля и отчетности по дисциплине
Контроль успеваемости студентов осуществляется в соответствии с рейтинговой системой оценки знаний студентов.
Текущий контроль предполагает:
- проверку уровня теоретической подготовки студента;
- Итоговый контроль предусматривает реализацию учебного проекта хранилища данных.
СТРУКТУРА И СОДЕРЖАНИЕ УЧЕБНОЙ ДИСЦИПЛИНЫ
2.1 Темы лекций
-
Введение в курс «Хранилища данных»
Архитектуры данных: история развития. Эволюция задач сбора и обработки информации. Понятие архитектуры данных. Развитие систем хранения и обработки данных. Системы оперативной обработки информации – OLTP. Системы консолидации и аналитической обработки информации – ELT.
-
Модели данных, системы хранения данных
Архитектуры данных: Базы данных и модели данных. Иерархическая модель данных, условия целостности иерархической модели данных. Сетевая модель данных, условия целостности сетевой модели данных. Реляционная модель данных, реляционные базы данных. Хранилища данных – системы хранения данных, ориентированная на аналитическую обработку.
Многомерные данные. OLAP-технология. Задачи OLAP-систем: представление данных, процессы обработки. Концепция многомерного представления данных – гиперкубы. Базовые понятия: измерения и факты. Формализация многомерного представления данных: метки, иерархии, ячейки, меры.
Концепция хранилищ данных (ХД). OLAP как ключевой компонент ХД. Построение информационных систем на основе архитектур хранилищ данных. Операции над многомерными данными. Методы обработки агрегированных данных.
-
Архитектуры хранилищ данных.
Архитектуры хранилищ данных. Современное представление. Классификация архитектур хранилищ данных. Многомерные, реляционные и гибридные хранилища данных. Различие концепций и особенности построения.
Реляционные хранилища данных. Применение реляционной модели для создания хранилищ данных (ХД). Архитектуры реляционных ХД: «звезда», снежинка». Особенности реализации реляционных ХД.
Реализация реляционных хранилищ данных. Анализ и преобразование исходных данных. Выбор архитектуры реляционной ХД. Метаданные. Этапы реализации проекта. Реализация аналитической обработки загруженных в ХД данных.
-
Использование хранилищ данных.
Виртуальные хранилища данных.
Использование хранилищ данных. Различные архитектурные решения ХД, реализация процедур ETL.
2.2 Перечень тем практических/лабораторных занятий
-
Технология многомерного анализа данных – OLAP-технология.
-
Формирование необходимых навыков работы с Deductor – мастер-класс:
Архитектура и назначение аналитической платформы Deductor;
Главное меню и элементы управления;
Загрузка массивов данных;
Создание метаданных;
Инструменты визуализации;
Краткий обзор видов анализа.
-
Многомерные наборы данных – использование платформы Deductor.
Загрузка многомерных массивов данных;
Задание структуры метаданных;
Формирование представления исходных данных – таблицы, диаграммы, отчеты по загрузке;
-
Агрегированные показатели – использование платформы Deductor
Формирование OLAP-кубов: выбор измерений, выбор агрегированных показателей.
Создание иерархических измерений.
-
Разработка реляционного хранилища данных средствами платформы Deductor
Изучение концепции реляционного хранилища данных используя учебный пример разработчика.
Реализация РХД архитектуры «звезда».
Реализация РХД архитектуры «снежинка» и загрузка данных.
Использование РХД: анализ многомерных данных из данных из РХД.
-
Реляционная модель данных.
-
Разработка экономической учетной информационной системы на основе реляционной базы данных.
Проанализировать задачу учета для предложенного объекта автоматизации. Определить минимально необходимые атрибуты. Провести нормализацию. Предусмотреть таблицу типа «журнал регистрации». Разработать консолидирующие запросы. Сформировать отчеты по результат запросов в диаграммной форме.
-
Разработка РХД средствами СУБД
Реализация РХД архитектуры «звезда» (средствами СУБД) – пробный проект. Ставится задача «трансформировать» базу данных учетной информационной системы до ХД. Сформировать срезы OLAP–кубов средствами запросов.
-
Проект ХД для выбранной предметной области. Работа в малых группах
-
Анализ данных для загрузки в ХД:
Выбор данных необходимых исследования и анализа предметной области;
Разработка многомерной структуры, выбор измерений и фактов;
Выбор показателей пригодных для агрегирования, формирования агрегированных данных.
-
Разработка модели ХД:
Формирование метаданных;
Разработка логической модели ХД;
-
Реализация РХД:
Разработка физической модели ХД;
Реализация реляционного хранилища данных средствами доступной СУБД;
-
Загрузка данных в ХД. Проверка работоспособности
Загрузка данных в таблицы ХД;
Проверка целостности данных;
Формирование срезов гиперкуба;
Подготовка отчета по проекту
2.3 Самостоятельная работа студентов
Самостоятельная работа студентов (СРС) подразумевает изучение литературы, подготовку контрольным мероприятиям, освоение пользовательского интерфейса приложений используемых на лабораторных занятиях.
-
ОБРАЗОВАТЕЛЬНЫЕ ТЕХНОЛОГИИ
ООП
|
Семестр/
модуль
|
Вид занятия, аттестация1
|
Используемые образовательные технологии
|
БИС
|
5/1
|
Лекция
|
Мультимедийные технологии: слайд-шоу, специальные диаграммы. Демонстрация работы с ППО
|
Лабораторные занятия
|
компьютерное моделирование
|
СРС – самостоятельная работа студента
|
компьютерное моделирование
|
КО
|
решение тестовых задач
|
А1/А2
|
Выполнение контрольных заданий
|
МЕТОДИЧЕСКИЕ РЕКОМЕНДАЦИИ ПО ИЗУЧЕНИЮ КУРСА
Перечень и тематика самостоятельных работ студентов по дисциплине
Раздел 1.
Работа с платформой Deductor Academic. Освоение загрузки данных и методов визуализации.
Методы предварительной обработки данных, реализованные в Deductor Academic. Рассмотреть назначение с методов, составить таблицу, отражающую технологию предварительной обработки и соответствующий математический метод.
Аналитическая обработка данных средствами Deductor Academic.
Раздел 2.
Изучение учебной РХД (поставляется разработчиком платформы)
Раздел 3
Разработка ER-модели для заданной предметной области.
Раздел 4.
Анализ выбранной предметной области.
Подготовка данных из открытых источников – извлечение исходных данных – для дальнейшей загрузки в РХД.
Разработка логической модели РХД бля выбранной предметной области.
Контрольные вопросы для самостоятельной оценки качества освоения учебной дисциплины.
Понятие архитектуры данных. Понятие модели данных.
Понятие целостности данных
Системы оперативной обработки информации – OLTP. Архитектура и назначение.
Системы консолидации и аналитической обработки информации – ELT. Архитектура и назначение.
Иерархическая модель данных. Условие целостности
Сетевая модель данных. Условие целостности
Реляционная модель данных.
Простые и агрегированные показатели.
Концепция многомерного представления данных – гиперкубы.
Измерения и факты в гиперкубах. Правил выбора измерений и фактов.
Формализация многомерного представления данных: метки, иерархии, ячейки, меры.
Операции над данными в гиперкубах: вращение, сечение (срез), свертка и детализация.
Агрегация в гиперкубах: виды агрегации.
Агрегация в гиперкубах – оценка числа агрегатов для двумерного случая.
Концепция хранилищ данных.
Понятие метаданных.
Классификация архитектуры хранилищ данных.
Многомерные хранилища данных.
Различие концепций и особенности построения.
Реляционные хранилища данных. Применение реляционной модели для создания хранилищ данных (ХД).
Виртуальные хранилища данных.
Витрины данных. Назначение, использование в системах хранения данных.
Методические рекомендации по организации СРС
Самостоятельные задания рекомендуется выполнять поэтапно, в соответствующей последовательности.
Теоретическая подготовка к выполнению заданий. Рекомендуется использовать материалы лекций, рекомендованную литературу и источники.
Углубленное изучение пользовательского интерфейса эксплуатируемы приложений. Рекомендуется изучить примеры проектов, инструкции пользователя и инструкции администратора.
Выполнение самостоятельного задания, получение необходимых результатов.
Подготовка ответов на контрольные вопросы.
УЧЕБНО-МЕТОДИЧЕСКОЕ И ИНФОРМАЦИОННОЕ ОБЕСПЕЧЕНИЕ ДИСЦИПЛИНЫ
5.1 Основная литература
Туманов В.Е. Проектирование хранилищ данных для систем бизнес-аналитики Учебное пособие М.: БИНОМ. Лаборатория знаний, Интернет-университет информационных технологий - ИНТУИТ.ру, 2010
Паклин Н.Б., Орешков В.И. Бизнес-аналитика: от данных к знаниям – СПб.: Питер, 2009
5.2 Дополнительная литература
Архипенков С., Голубев Д., Максименко О. Хранилища данных. От концепции до внедрения. – М.: Диалог-МИФИ, 2002. – 528 с.
Инмон Б. Типы хранилищ данных. Перевод Intersoftlab, 2001, http://www.iso.ru/journal/articles/181.html.
Кузнецов С., Артемьев В. Обзор возможностей применения ведущих СУБД для построения хранилищ данных (DataWarehouse). http://www.citforum.ru/database/kbd98/glava15.shtml
В. П. Божко, А. В. Хорошилов, В. А. Благодатских и др., Предметно-ориентированные экономические информационные системы: учебник для студ. вузов. / М. : Финансы и статистика, 2007. - 224 с. : ил.
Конноллн, Томас, Бегг, Карелии. Базы данных. Проектирование, реализация и сопровождение. Теория и практика. 3-е издание.: Пер. с англ. - М.: Издательский дом "Вильяме", 2003. - 1440 с. : ил. - Парал. тит. англ.
Маклаков С.В. Моделирование бизнес-процессов с BPwin 4.0. М.:«Диалог-МИФИ», 2002. – с. 224. – ISBN 5-86404-165-3
5.3 Полнотекстовые базы данных – нет
5.4 Интернет
http://www.citforum.ru/database/kbd98/glava15.shtml
http://www.basegroup.ru/
МАТЕРИАЛЬНО-ТЕХНИЧЕСКОЕ ОБЕСПЕЧЕНИЕ ДИСЦИПЛИНЫ
а) программное обеспечение:
MS Power Point;
MS SQL Server / MS Access;
Аналитическая платформа Deductor - версия Academic 5.3 (распространяется разработчиком компанией BaseLab свободно);
б) техническое и лабораторное обеспечение
мультимедийное оборудование;
рабочие станции – персональные компьютеры.
СЛОВАРЬ ОСНОВНЫХ ТЕРМИНОВ источник [электронный ресурс], режим доступа http://www.osp.ru/cio/2002/03/172082/
Агрегирование данных (Data Aggregation)
Операция над кубом данных, которая строит куб меньшей размерности путем замены совокупностей значений элементов одного или нескольких измеренийзначениями элементов более высоких уровней и формирования в качестве содержимого ячеек результирующего куба соответствующих суммарных значений показателей.
Анализ данных глубинный (Data Mining)
Технология анализа данных в базах данных или хранилищах данных, основанная на статистических методах и служащая для выявления заранее неизвестных закономерностей. Широко распространена на практике для поддержки принятия стратегически важных решений. В отечественной литературе Data Mining часто переводится как «добыча данных», «исследование данных», «интеллектуальный анализ данных», «разведка данных» и т. п.
Анализ данных с последовательным огрублением (Roll-Up Analysis)
Метод анализа данных в хранилищах данных, предусматривающий пошаговый переход к уровням более агрегированного представления данных с целью получения огрубленных оценок исследуемых процессов или явлений в таких условиях, когда более точные оценки не требуются или не могут быть определены.
Анализ данных с последовательным уточнением (Drill-Down Analysis)
Метод анализа данных в хранилищах данных, предусматривающий пошаговый переход к уровням более детализированного представления данных для получения возможно более точных оценок исследуемых процессов или явлений.
Атрибут элемента измерения (Dimension Element Attribute)
Именованный домен значений, соответствующий некоторому элементу измерения в многомерной базе данных.
База данных многомерная (Multi-Dimensional Database)
База данных, основанная на многомерной модели данных. Обычно используется для целей анализа. Основным ее структурным компонентом является куб данных.
Витрина данных (Data Mart)
См. Хранилище данных специализированное.
|