Скачать 101.86 Kb.
|
Хранилища данных Методические рекомендации для выполнения практических заданий (продолжение) Работа в программе Deductor Studio Программа Deductor Studio поставляется в нескольких вариантах. Для целей обучения имеется бесплатная версия Deductor Studio Academic. Основное ограничение этой версии заключается в том, что для хранилищ данных можно использовать только СУБД FireBird (входит в поставку программы), а загружать данные извне можно только из текстовых файлов. Перед тем как начинать работу в Deductor Studio, настоятельно рекомендуется прочитать руководство «Базовые навыки работы в Deductor Studio 5.2.pdf». Этап 6: Загрузка данных в Deductor Studio из текстовых файлов (5 баллов), создание хранилища данных в СУБД FireBird (10 баллов). Как уже упоминалось в 5 задании, можно выбрать один из двух вариантов загрузки данных в Deductor Studio. Первый вариант (простой) предполагает загрузку данных из одного текстового файла, созданного на предыдущем этапе и представляющего собой многомерную таблицу. Настоящее хранилище данных не создается. За этот вариант можно получить максимум 5 баллов. Второй вариант (сложный) предполагает создание настоящего хранилища данных и загрузку информации из нескольких текстовых файлов, соответствующих таблицам SQL server. Этот вариант оценивается максимум в 15 баллов. Рассмотрим сначала первый вариант. У нас есть текстовый файл fullRealisation.txt, полученный на 5 этапе и представляющий собой общую информацию о продажах в аптеках и о бесплатной реализации лекарств льготникам. Этот файл содержит многомерные данные и выглядит примерно следующим образом: Запускаем Deductor Studio, щелкаем по кнопке «Мастер импорта» и выбираем в качестве источника текстовые файлы. На 2-м шаге выбираем наш файл: После выбора файла первые несколько строк отобразятся в окне. Обратите внимание на флажок «Первая строка является заголовком». На 3-м шаге можно установить некоторые параметры форматирования. В качестве разделителя целой и дробной части числа следует указать точку (по умолчанию – запятая). Формат даты, в принципе, можно не менять. На 4-м шаге обязательно нужно указать верный формат разделителя полей (у нас – точка с запятой). Данные из файла отображаются в таблице. Сразу можно увидеть, правильно ли воспринимаются числа (они выравниваются по правому краю) и даты. На 6-м шаге (5-го шага не было?) можно задать типы столбцов таблицы. Здесь (в основном) можно оставить предлагаемые значения. Единственное замечание – все числовые типы по умолчанию предлагаются вещественными. Имеет смысл поменять тип на «Целый» и вид на «Дискретный» для столбцов, которые действительно содержат только целочисленные значения. В нашем случае это Чек и Количество. Назначение у всех полей пока «Информационное», отнести поля к измерениям и фактам можно будет потом. На следующем шаге нажимаем на кнопку «Пуск»: Импорт данных успешно выполнен. Далее выбираем способ отображения информации. Оставим пока только способ «Таблица», остальные визуализаторы рассмотрим позже. На следующей странице можем задать содержательное имя для нашего сценария импорта: Сценарий выполнен, его результаты можно увидеть на экране в форме таблицы. Сценарии отображаются в виде иерархии в окне проекта Deductor Studio (у проектов тип файла ded). Теперь рассмотрим более сложный вариант работы. Будем создавать хранилище данных в СУБД FireBird. Но предварительно загрузим данные из текстовых файлов. В текстовых файлах нужно задать строку заголовков. Поскольку данные будут загружаться в СУБД FireBird, а русские буквы в названиях столбцов использовать нельзя, названия столбцов напишем латинскими буквами: Итак, создадим 6 сценариев загрузки из текстовых файлов: для типов лекарств, фирм, аптек, товаров, чеков и продаж: Теперь будем создавать хранилище данных. На вкладке «Подключения» создадим новое хранилище данных с помощью мастера подключений. (Тип файлов у хранилищ данных gdb.) На 3-м шаге мастера нужно задать имя файла для хранилища данных (любое), а также указать логин: sysdba и пароль:masterkey и отметить флажок «Сохранять пароль»: Тест подключения пока не сработает, потому что мы ещё физически не создали файл для базы данных. Это создание происходит на 5-м шаге: нужно нажать на кнопку «Создать файл базы данных с необходимой структурой метаданных»: Примечание: для создания нового подключения к уже существующему хранилищу данных (например, при переносе хранилища, т.е. файла gdb на другой компьютер) на кнопку «Создать файл базы данных с необходимой структурой метаданных» нажимать не нужно, а все остальные шаги подключения идентичны. Далее для создания таблиц нужно щелкнуть правой кнопкой мыши по имени хранилища данных и в контекстном меню выбрать «Редактор»: Впоявившемся окне редактора следует нажать на кнопку «Разрешить редактировать»: Теперь можно создавать измерения, затем процессы. Структура измерений и процессов должна соответствовать данным в текстовых файлах, которые мы выгрузили из SQL Server. Не забывайте сохранять изменения с помощью кнопки «зеленая галочка». Вот так выглядят все созданные измерения: Создавать измерения нужно в таком порядке: сначала независимые, потом зависимые. В нашем случае, например, сначала создаются измерения Фирма и Тип, и только затем измерение Товар. Рассмотрим подробнее измерение Фирма. Обратите внимание, что само название измерения имеет некоторый тип. Дадим измерению имя Firm, в качестве метки укажем Фирма.Код, зададим тип данных Целый, вид данных Дискретный. Кроме того, создадим атрибут для хранения наименования: имя NameFirm, метка Фирма.Наименование, тип Строковый. Подобным образом создаем независимые измерения Аптека, Тип, Чек. Измерение Товар имеет более сложную структуру: оно содержит ссылки на измерения Тип и Фирма: После создания измерений создадим процесс Продажа: В этом процессе есть три измерения: Аптека, Товар, Чек, факт: Количество и атрибут: Цена. Теперь наше хранилище готово для загрузки информации из файлов. Например, заполним Фирмы. В списке сценариев нужно щелкнуть правой кнопкой мыши по текстовому файлу «Фирмы» и из контекстного меню выбрать «Мастер экспорта». Выбираем направление загрузки: в хранилище данных. На 2-м шаге выбираем подключение. На 3-м шаге выбираем измерение: На 4-м шаге настраиваем соответствие столбцов измерения и столбцов источника данных. Если задавать столбцы в одном и том же порядке, то соответствие будет предлагаться автоматически, как на рисунке: Если же столбцы назначены неправильно, исправьте назначения на правильные. Остальные шаги не вызывают трудностей. Загрузите таким образом сначала независимые измерения, затем зависимые измерения и, наконец, процессы. Примечание: при повторной загрузке данных в процесс могут возникать ошибки. В этом случае проще всего явно удалить старые данные, т.е., очистить процесс в хранилище: Теперь у нас есть заполненное хранилище данных: Задание 6. Загрузите данные в Deductor Studio из текстовых файлов, с созданием хранилища данных (15 баллов), либо без него (5 баллов). Этап 7: Преобразования и визуализаторы. Мы не будем отделять эти две темы друг от друга, поскольку они друг от друга зависят и друг друга дополняют. (Итого 15 баллов) Разнообразные визуализаторы позволяют показать данные в наглядном виде. Рассмотрим визуализаторы:
Разнообразные преобразования позволяют приводить данные к нужному виду. Рассмотрим преобразования:
В рамках предыдущего задания вы либо загрузили информацию из единого текстового файла, либо создали хранилище данных. В первом случае информация уже готова для дальнейшего использования. А во втором случае нужно предварительно создать сценарий импорта из хранилища данных. Запускаем Мастер импорта из верхнего уровня дерева с сценариев, выбираем в качестве источника Deductor Warehouse, на 3-м шаге выбираем процесс Продажа: На следующем шаге раскроем все «плюсы», для атрибутов и измерений отметим все «галочки», а для факта Количество задаем способ агрегации Сумма: На остальных шагах мастера оставляем всё без изменений. Мы получили нужный нам набор данных. Дальнейшие преобразования и визуализацию данных можно применять к следующим узлам дерева сценариев: Пункт «Аптеки Реализация» соответствует сценарию загрузки данных из единого текстового файла. Пункт «DW Firebird (Аптеки): Продажа» соответствует сценарию загрузки данных из хранилища. Рассмотрим самый распространенный визуализатор «Куб». Для его построения нужно щелкнуть правой кнопкой мыши на нужном сценарии и выбрать «Мастер визуализации». На 2-м шаге выбираем способ визуализации: На 3-м шаге уточняем, какие столбцы нашего хранилища являются измерениями, а какие – фактами. Можно также исключить столбец из рассмотрения, если задать ему назначение «Неиспользуемый». По неиспользуемым измерениям данные суммируются. На 4-м шаге настраиваем размещения измерений: какие из них будут указаны в строках таблицы, а какие – в колонках. В дальнейшем при работе с кубом их можно будет поменять местами, а также выбрать другие измерения. На 5-м шаге уточняем, какую агрегирующую функцию применять к фактам. Для Количества применяем суммирование, Цена не требует агрегирования. Мы получили кросс-таблицу в разрезе аптек и товаров. Остальные измерения также доступны для пользователя, их можно просто перетаскивать между панелью инструментов и таблицей. Например, перетаскиванием поменяем местами измерения Тип и Товар: Панель инструментов над таблицей позволяет «на лету» выполнить некоторые преобразования данных, отфильтровать их, отсортировать, задать формат визуализации. Кнопка позволяет настроить измерения. Кнопка позволяет настроить факты и добавить вычисляемый факт. Кнопка позволяет отфильтровать данные. Задать простые фильтры можно также, щелкнув по синему прямоугольнику с названием измерения. При задании фильтра прямоугольник становится красным. Например, зададим фильтр для типа лекарства: Получим результат: Кнопка позволяет задать порядок сортировки. Кнопка позволяет задать формат отображения измерений и фактов. При нажатии на кнопку происходит транспонирование таблицы данных (строки и столбцы меняются местами): Кнопка управляет выдачей итоговых строки и столбца. При нажатой кнопке внизу появляется окно с подробной детализацией текущей ячейки таблицы: Наконец, при нажатии кнопки из данных текущей таблицы создается диаграмма: У диаграммы есть собственная панель инструментов, с помощью которой можно настраивать внешний вид диаграммы. Например, изменим столбцовую диаграмму на линейную, выведем легенду и метки со значениями, изменим направление надписей на горизонтальной оси: Хотя некоторые преобразования данных можно выполнить «на лету», иногда для реализации конкретных задач удобно создавать фиксированную последовательность сценариев. Например, мы хотим построить обычную диаграмму по объему продаж в денежном выражении с детализацией по месяцам: Для этого нам потребуется выполнить следующие шаги сценария: а затем использовать визуализатор «Диаграмма». Итак, первый шаг состоит в создании вычисляемого выражения. В таблице у нас есть столбцы Цена и Количество, создадим из них вычисляемое выражение Сумма. Щелкнем правой кнопкой по строке «Аптеки Реализация», выберем пункт «Мастер обработки», в появившемся окне в группе «Прочие» выберем пункт «Калькулятор». В конструкторе выражений назовем выражение «Сумма» и зададим для нее соответствующую формулу: В результате работы этого мастера в таблице появится новый столбец с вычисленной суммой продажи. Далее нам нужно сгруппировать данные по месяцам и годам, а в детализированном виде у нас есть только даты. Нужно будет выполнить преобразование дат. Щелкнем правой кнопкой мыши по сценарию «Калькулятор: Выражение», запустим «Мастер обработки» и в группе «Трансформация данных» выберем «Дата и время»: Нам нужны данные в масштабе «Год+Месяц», отмечаем соответствующий флажок: После этого в таблице данных появится новый столбец, соответствующий первому дню заданного периода, т.е., первому дню месяца: На следующем шаге добавим сценарий группировки. Щелкаем правой кнопкой мыши по сценарию «Преобразование даты», вызываем «Мастер обработки» и в группе «Трансформация данных» выбираем пункт «Группировка»: Мы хотим сгруппировать суммы по месяцу и году. Для этого в качестве измерения оставляем только столбец «Дата (Год+Месяц)», а в качестве факта - «Сумму». Все остальные столбцы отмечаем как «Неиспользуемые»: На следующем шаге будут произведены вычисления для группировки. Далее в списке визуализаторов можно выбрать «Диаграмму». Построим, например, диаграмму с областями: На диаграмме хорошо видно, что пик продажи лекарств приходится на зимние месяцы. Вопрос: а можно построить диаграмму, на которой продажи за 3 года отображаются в виде 3 отдельных графиков? Для этого нужно в сценарии «Преобразование даты и времени» выбрать «Год» и «Месяц» отдельно; затем в сценарии «Группировка» задать измерения «Дата(Год)» и «Дата(Месяц)» и факт «Сумма»; в качестве визуализатора следует выбрать «Куб», настроить колонки и строки куба. Получится следующий куб, в котором годы нужно отсортировать по убыванию, и можно строить кросс-диаграмму: Задание 7. Примените к вашим данным преобразования и визуализаторы. Используйте, как минимум, визуализаторы: Куб, Диаграмма, Детализация и преобразования: Калькулятор, Преобразование даты, Фильтр, Группировка. (15 баллов). Пример применения методов Data Mining. Построение прогноза продаж лекарств типа «антибиотик» с горизонтом прогноза 4 месяца: |
Методические рекомендации для студентов по выполнению практических... Методические рекомендации по мдк 04. 03 «Основы профессионального общения» созданы Вам в помощь для выполнения заданий при выполнении... |
Методические указания по выполнению практических работ пм. 03 Выполнение окрашивания волос Методические рекомендации по выполнению практических заданий по профессиональному модулю «ПМ. 03 Выполнение окрашивания волос», разработаны... |
||
Методические рекомендации по оцениванию выполнения заданий огэ с развернутым ответом москва I. формат заданий и технологии оценивания заданий устной части экзамена |
Методические указания по выполнению лабораторно-практических заданий... Методические указания предназначены для выполнения лабораторно-практических работ по проведению сервисных и восстановительных работ... |
||
Методические рекомендации по оцениванию выполнения заданий егэ с... Методические материалы для председателей и членов предметных комиссий субъектов Российской Федерации |
Методические рекомендации для выполнения контрольных заданий по самостоятельной... Методические рекомендации для выполнения контрольных работ по дисциплине огсэ 04. Английский язык для студентов-заочников, обучающихся... |
||
Методические рекомендации по оцениванию выполнения заданий огэ с развернутым ответом москва Повышение объективности результатов государственной итоговой аттестации по программам основного общего образования в форме основного... |
Методические рекомендации на выполнение практических занятий по профессиональному... Методические рекомендации составлены в соответствии с требованиями фгос. Для отработки практических умений, а также для формирования,... |
||
Методические рекомендации по проведению и оформлению практических... Настоящие методические рекомендации определяют общие требования по выполнению практических работ в соответствии с фгос по специальности... |
Методические рекомендации по выполнению аудиторных практических работ... «Иностранный язык» предназначены для студентов II курса очной формы обучения и преподавателей средних профессиональных учебных заведений,... |
||
Методические рекомендации по выполнению домашних заданий Толмачёв В. А., Усольцев А. А., Лукичёв Д. В., Никитина М. В. Общая электротехника: Методические рекомендации по выполнению домашних... |
Методические рекомендации по выполнению практических занятий и лабораторных... Методические рекомендации предназначены для проведения практических и лабораторных занятий по мдк 01. 02 |
||
Методические рекомендации для выполнения контрольной работы Методические... Методические рекомендации для выполнения контрольной работы по учебной дисциплине «Иностранный язык», по направлению подготовки 40.... |
Методические рекомендации по проведению практических занятий общеобразовательной... Методические рекомендации по организации практических занятий студентов по общеобразовательной дисциплине оуд. №2 «Английский язык»... |
||
Методические рекомендации для практических занятий разработаны на... Голякова Ю. Е., Зацепин А. В., Слепцова С. В., Тестешев А. М. Изучение геодезических приборов: Методические рекомендации для практических... |
Методические рекомендации по оцениванию выполнения заданий с развернутым ответом Авторы: Цыбулько И. П. (руководитель), Александров В. Н., Арутюнова Е. В., Васильевых И. П., Гостева Ю. Н., Дощинский Р. А., Капинос... |
Поиск |