Направление — 230700.68, Прикладная информатика
г. Владивосток
2012
ЛАБОРАТОРНЫЕ ЗАНЯТИЯ (46 час.)
Цикл работ с использованием методов интерактивного/активного обучения – методов компьютерного моделирования и проектного обучения (28 час.)
Лабораторный практикум по разделу 1 (26 час.)
Лабораторная работа № 1 «Основы работы с аналитической платформой Deductor studio» (2 час.)
Цель работы: овладеть основами работы с аналитической платформой Deductor studio».
Программа работы
задание исходных данных;
разработка модели;
компьютерное моделирование;
анализ полученных данных;
составление отчета, защита работы.
Программно-аппаратное обеспечение: ПЭВМ IBM PC (операционная система Windows XP), аналитическая платформа Deductor Studio.
Лабораторная работа № 2 «Трансформация данных в Deductor Studio» (4 час.)
Цель работы: овладеть навыками трансформации данных в Deductor Studio .
Программа работы
задание исходных данных;
разработка модели;
компьютерное моделирование;
анализ полученных данных;
составление отчета, защита работы.
Программно-аппаратное обеспечение: ПЭВМ IBM PC (операционная система Windows XP), аналитическая платформа Deductor Studio.
Лабораторная работа № 3 «Создание, заполнение и использование хранилища данных Deductor Warehouse на базе Firebird» (4 час.)
Цель работы: овладеть навыками создания, заполнения и использования хранилища данных Deductor Warehouse на базе Firebird.
Программа работы
задание исходных данных;
разработка модели;
компьютерное моделирование;
анализ полученных данных;
составление отчета, защита работы.
Программно-аппаратное обеспечение: ПЭВМ IBM PC (операционная система Windows XP), аналитическая платформа Deductor Studio Academic.
Лабораторная работа № 4 «Определение представления источника данных в проекте служб Analysis Services» (4 час.)
Цель работы: овладеть навыками представления источника данных в проекте служб Analysis Services.
Программа работы
задание исходных данных;
разработка модели;
компьютерное моделирование;
анализ полученных данных;
составление отчета, защита работы.
Программно-аппаратное обеспечение: ПЭВМ IBM PC (операционная система Windows XP Professional), SQL Server 2008 Developer.
Лабораторная работа № 5 «Определение и развертывание куба» (4 час.)
Цель работы: овладеть навыками определения и развертывания куба.
Программа работы
задание исходных данных;
разработка модели;
компьютерное моделирование;
анализ полученных данных;
составление отчета, защита работы.
Программно-аппаратное обеспечение: ПЭВМ IBM PC (операционная система Windows XP Professional), SQL Server 2008 Developer.
Лабораторная работа № 6 «Изменение мер, атрибутов и иерархий» (4 час.)
Цель работы: овладеть навыками изменения мер, атрибутов и иерархий при компьютерном моделировании задач.
Программа работы
задание исходных данных;
разработка модели;
компьютерное моделирование;
анализ полученных данных;
составление отчета, защита работы.
Программно-аппаратное обеспечение: ПЭВМ IBM PC (операционная система Windows XP Professional), SQL Server 2008 Developer.
Лабораторный практикум по разделу 2 (20 час.)
Лабораторная работа № 7. «Ассоциативные правила» (4 час.)
Цель работы: овладеть навыками применения ассоциативных правил при компьютерном моделирования задач.
Программа работы
задание исходных данных;
разработка модели;
компьютерное моделирование;
анализ полученных данных;
составление отчета, защита работы.
Лабораторная работа № 8. «Основы работы с пакетом STATISTICА» (4 час.)
Цель работы: овладеть основами работы с пакетом STATISTICА.
Программа работы
задание исходных данных;
разработка модели;
компьютерное моделирование;
анализ полученных данных;
составление отчета, защита работы.
Лабораторная работа № 9. «Кластерный анализ» (4 час.)
Цель работы: овладеть навыками компьютерного моделирования задач на основе кластерного анализа.
Программа работы
задание исходных данных;
разработка модели;
компьютерное моделирование;
анализ полученных данных;
составление отчета, защита работы.
Лабораторная работа № 10. «Регрессионный анализ» (4 час.)
Цель работы: овладеть навыками компьютерного моделирования задач методами регрессионного анализа.
Программа работы
задание исходных данных;
разработка модели;
компьютерное моделирование;
анализ полученных данных;
составление отчета, защита работы.
Лабораторная работа № 11. «Искусственные нейронные сети» (4 час.)
Цель работы: овладеть навыками компьютерного моделирования задач искусственной нейронной сети.
Программа работы
задание исходных данных;
разработка модели;
компьютерное моделирование;
анализ полученных данных;
составление отчета, защита работы.
МЕТОДИЧЕСКИЕ УКАЗАНИЯ К ВЫПОЛНЕНИЮ ЛАБОРАТОРНЫХ РАБОТ
Практические задания оформлены в виде лабораторных работ. Лабораторные работы состоят из трех частей – теоретические сведения, задания для самостоятельной работы и указаний по составлению отчета. Пример работы приведен ниже.
Основы работы с аналитической платформой Deductor studio
Цель работы: ознакомление с архитектурой, основными частями и пользо-вательским интерфейсом аналитической платформой Deductor Studio; освоение базовых процедур использования обработчиков (замены, сортировки, фильтра-ции, калькулятора) и скриптов в аналитической платформе Deductor Studio.
Задачи работы:
□ изучение архитектуры и основных частей аналитической платформой Deductor;
□ овладение процедурой работы со сценариями Deductor Studio;
□ выработка умений и навыков в использовании базовых визуализаторов в Deductor Studio;
□ овладение процедурами использования обработчиков замены, сортировки, фильтрации, калькулятора аналитической платформы Deductor;
□ выработка практических умений и навыков создание и настройка скрипта в Deductor Studio.
Программно-аппаратное обеспечение: ПЭВМ IBM PC (операционная си-стема Windows XP), аналитическая платформа Deductor Studio.
СОДЕРЖАНИЕ РАБОТЫ
1. Теоретические сведения
2. Задания для самостоятельной работы
2.1. Теоретические сведения
2.2. Практические задания
3. Указания по оформлению отчета по лабораторной работе
Приложения
1. ТЕОРЕТИЧЕСКИЕ СВЕДЕНИЯ
Работа со сценариями и использование базовых визуализаторов в Deductor Studio
Deductor – это аналитическая платформа, основа для создания законченных прикладных решений в области анализа данных. Реализованные в Deductor технологии позволяют на базе единой архитектуры пройти все этапы построения аналитической системы: от консолидации данных до построения моделей и визуализации полученных результатов.
До появления аналитических платформ анализ данных осуществлялся в основном в статистических пакетах. Их использование требовало высокой квалификации пользователя. Большинство алгоритмов, реализованных в статистических пакетах, не позволяло эффективно обрабатывать большие объемы информации. Для автоматизации рутинных операций приходилось использовать встроенные языки программирования.
В конце 80-х гг. произошел стремительный рост объемов информации, накапливаемый на машинных носителях и возросли потребности бизнеса по применению анализа данных. Ответом этому стало появление новых парадигм в анализе: хранилища данных, машинное обучение, Data Mining, Knowlegde Discovery in Databases. Это позволило популяризировать анализ данных, вывести его на промышленную основу и решить огромное число бизнесзадач с большим экономическим эффектом.
Венцом развития анализа данных стали специализированные программные системы – аналитические платформы, которые полностью автоматизировали все этапы анализа от консолидации данных до эксплуатации моделей и интерпретации результатов.
Первая версия Deductor увидела свет в 2000 г. и с тех пор идет непрерывное развитие платформы. В 2007 г. выпущена 5-я по счету версия системы.
Сегодня Deductor – это яркий представитель как настольной, так и корпоративной системы анализа данных последнего поколения.
Общие сведения о Deductor Studio
Аналитическая платформа Deductor состоит из 5 частей:
1. Warehouse – хранилище данных, консолидирующее информацию из разных источников;
2. Studio – приложение, позволяющее пройти все этапы построения прикладного решения, рабочее место аналитика;
3. Viewer – рабочее место конечного пользователя, одно из средств тиражирования знаний (т.е. когда построенные аналитиком модели используют пользователи, не владеющие технологиями анализа данных);
4. Server – служба, обеспечивающая удаленную аналитическую обработку данных;
5. Client – клиент доступа к Deductor Server. Обеспечивает доступ к серверу из сторонних приложений и управление его работой.
Существует три типа варианта поставки платформы Deductor:
Enterprise;
Professional;
Academic.
В зависимости от типа поставки набор доступных компонентов может раз-личаться.
Версия Enterprise предназначена для корпоративного использования. В ней присутствуют:
Серверные компоненты Deductor Server и Deductor Client.
Интерфейс доступа к Deductor через механизм OLE Automation.
Традиционное хранилище данных Deductor Warehouse на 3-х СУБД: Fire-bird, MS SQL, Oracle.
Виртуальное хранилище данных Deductor Virtual Warehouse.
Версия Professional предназначена для небольших компаний и однопользо-вательской работы. В ней отсутствуют серверные компоненты, поддержка OLE, виртуальное хранилище, а традиционное хранилище данных можно создавать только на СУБД FireBird. Автоматизация выполнения сценариев обработки дан-ных осуществляется только через пакетный режим.
Версии Professional и Enterprise требуют установки драйверов Guardant для работы с лицензионным ключом.
Версия Academic предназначена для образовательных и обучающих целей. Ее функционал аналогичен версии Professional за исключением:
- отсутствует пакетный запуск сценариев, т.е. работа в программе может вестись только в интерактивном режиме.
- отсутствует импорт из промышленных источников данных: 1С, СУБД, файлы MS Excel.
2. ЗАДАНИЯ ДЛЯ САМОСТОЯТЕЛЬНОЙ РАБОТЫ
2.1. Теоретические вопросы
Внимание!!!
Перед началом выполнения лабораторной работы откройте классный журнал своей учебной группы и уточните, под каким номером вы там записаны. Этот номер является номером вашего варианта.
Дайте ответы на пять вопросов, выбранных их таблицы в соответствии с номером вашего варианта.
Номер варианта
|
Теоретические вопросы
|
1.
|
45
|
3
|
4
|
31
|
18
|
2.
|
23
|
29
|
41
|
25
|
18
|
3.
|
5
|
23
|
32
|
42
|
32
|
4.
|
36
|
45
|
24
|
44
|
40
|
5.
|
38
|
40
|
11
|
43
|
5
|
6.
|
14
|
52
|
45
|
13
|
11
|
7.
|
14
|
51
|
15
|
15
|
40
|
8.
|
37
|
43
|
42
|
18
|
46
|
9.
|
40
|
49
|
13
|
20
|
31
|
10.
|
20
|
12
|
32
|
35
|
9
|
11.
|
4
|
35
|
46
|
36
|
24
|
12.
|
11
|
28
|
54
|
43
|
22
|
13.
|
27
|
31
|
37
|
3
|
36
|
14.
|
50
|
19
|
7
|
24
|
43
|
15.
|
20
|
23
|
41
|
25
|
40
|
16.
|
28
|
10
|
16
|
6
|
54
|
17.
|
16
|
34
|
18
|
47
|
18
|
18.
|
44
|
10
|
17
|
5
|
28
|
19.
|
25
|
33
|
3
|
18
|
8
|
20.
|
19
|
42
|
35
|
53
|
46
|
21.
|
31
|
34
|
11
|
50
|
18
|
22.
|
33
|
33
|
42
|
40
|
38
|
23.
|
42
|
15
|
31
|
28
|
32
|
24.
|
16
|
23
|
20
|
53
|
29
|
25.
|
32
|
26
|
3
|
21
|
8
|
26.
|
36
|
9
|
12
|
21
|
6
|
27.
|
34
|
39
|
25
|
24
|
19
|
28.
|
39
|
13
|
3
|
49
|
3
|
29.
|
26
|
41
|
42
|
45
|
12
|
30.
|
26
|
48
|
46
|
23
|
26
|
31.
|
20
|
14
|
45
|
30
|
30
|
32.
|
35
|
6
|
39
|
15
|
4
|
33.
|
16
|
53
|
19
|
36
|
21
|
34.
|
21
|
19
|
13
|
12
|
24
|
35.
|
34
|
14
|
38
|
33
|
34
|
1. Из каких частей состоит Deductor?
2. Какие варианты поставки Deductor существуют?
3. Чем отличается версия Professional от Academic?
4. Сколько категорий пользователей Deductor можно выделить?
5. Перечислите функции аналитика.
6. Кто обычно занимается проектированием и наполнением хранилища данных?
7. Каким образом лицензируется Deductor?
8. У Вас установлен Deductor. При запуске Deductor Studio появляется сообщение об ошибке Windows NT driver is required. Какова наиболее вероятная причина ошибки?
9. Сколько вкладок на панели управления Deductor Studio?
10. Что такое «проект» в Deductor Studio?
11. Какое расширение имеет файл проекта?
12. Как создать новый проект?
13. Как сохранить текущий проект под другим именем?
14. Сколько проектов можно одновременно открыть в Deductor Studio?
15. Сколько мастеров имеется в Deductor Studio?
16. Вы импортировали текстовый файл, создав узел импорта. После чего обнаружили, что неправильно задали параметры импорта. Как легче всего исправить ошибку?
17. Как скопировать ветвь сценария при помощи механизма drag&drop?
18. Какие шаги мастера импорта нужно пройти для импорта текстового файла?
19. Что позволяет сделать обработчик Настройка набора данных?
20. Как происходит автоматическое определение типа столбца при импорте?
21. Что означает пиктограмма «!» напротив узла сценария?
22. Какие характеристики набора данных показывает визуализатор Статистика?
23. Что означает красный заголовок столбца в визуализаторе Таблица?
24. Как обнаружить, имеются ли в поле набора данных пропущенные значения?
25. Для чего предназначен визуализатор Сведения?
26. Как скрыть столбец в визуализаторе Таблица?
27. К существующему в сценарии узлу импорта необходимо добавить еще один визуализатор. Что предпринять?
28. Как работает обработчик Сортировка?
29. Можно ли отсортировать набор данных по нескольким полям?
30. Для чего предназначен узел Замена данных?
31. Как определить в мастере обработки, что для поля настроена замена?
32. Как работает Замена данных?
33. Какие существуют способы заполнить таблицу подстановок?
34. Для чего предназначен узел Фильтр?
35. Какие условия фильтрации существуют в Deductor?
36. Сколько записей будет отфильтровано в результате фильтра «([Размер ссуды, руб] в интервале [2000..5000]) И ([Цель ссуды] = 'Покупка товара') И ([Цель ссуды] = 'Иное')»?
37. Что делать, если нужно поставить фильтр по значению, которого в данный момент нет в рассматриваемом наборе данных?
38. Для чего предназначен обработчик Калькулятор?
39. Как добавить новый столбец?
40. Какой символ используется для разделения параметров в функциях калькулятора?
41. Как ввести формулу для расчета значений столбца?
42. Как вывести подсказку для функции в окне создания выражений?
43. Чем отличаются функции IF и IFF?
44. Что делает функция ISNULL?
45. Как добавить существующее имя поля в формулу?
46. Как посмотреть описание той или иной функции?
47. Что делает следующие функции Калькулятора: NOW(), TODAY(), ROUND(), POW()?
48. Что будет, если в Калькуляторе создать новый столбец вещественно-го типа и написать для него формулу 15/0?
49. Для чего предназначен обработчик Скрипт?
50. В каких случаях возникает необходимость добавить в сценарий скрипт?
51. Что такое исходный набор данных, начальный и конечный узел при настройке обработчика Скрипт?
52. Чем отличается копирование ветви от применения скрипта?
53. Можно ли настроить соответствия столбцов, которые имеют различный тип?
54. Какие ограничения накладываются на выбор конечного узла обработки в скрипте?
2.2. Практические задания
Внимание!!!
Перед началом выполнения практических заданий получите у ведущего преподавателя дистрибутив аналитической платформы Deductor Studio Academic
В ходе выполнения заданий лабораторной работы делайте и сохраняйте в своей папке снимки экрана монитора для последующего их размещения в отчете по лабораторной работе.
Задание 1
1. Установите Deductor Studio (конфигурация Рабочее место аналитика) и убедитесь, что он запускается.
Задание 2
1. Создайте новый проект и сохраните его под именем Project1.ded.
2. Создайте и сохраните в любом текстовом редакторе файл следующего вида:
a,1,4.5,b,c,26/04/2011,d
a1,0,5,b1,c1,,d1
Импортируйте его в Deductor, корректно настроив параметры импорта. Используйте относительный путь для файла. Метку узла переименуйте в «Пример импорта файла». В комментарии к узлу впишите: «Текстовый файл с разделителями-запятыми».
3. Добавьте к узлу узел «Настройка набора данных» и задайте следующие метки к столбцам: Поле1, Поле2, Поле3 и т.д.
4. Экспортируйте набор данных в текстовый файл Project1.txt с настройками, предлагаемыми по умолчанию.
5. Импортируйте только что экспортированный файл в Deductor.
6. Присоедините к новому узлу импорта (путем копирования) предыдущую ветвь, начиная с узла «Настройка набора данных».
7. Между экспортом и настройкой набора данных вставьте еще один узел настройки, в котором измените тип столбца Поле2 на логический.
8. Сохраните и закройте проект.
Задание 3
1. Откройте сохраненный проект. Настройте следующие визуализаторы к любому узлу импорта: «Таблица», «Статистика». Перейдите в режим формы и обратно. Имеются ли пропуски в записях?
2. Выполните настройки таким образом (Настройка полей → Форматирование → Особый формат), чтобы при отображении в визуализаторе «Таблица» к значениям в Поле3 добавлялось слово «кг.». Сохраните конфигурацию визуализатора под названием «К1».
3. Сделайте первые три столбца невидимыми. Сохраните конфигурацию визуализатора под названием «К2».
4. Вернитесь к конфигурации К1.
5. В визуализаторе «Таблица» установите фильтр «Поле6 = не пустой». Удалите фильтр.
Задание 4
1. Создайте новый проект и сохраните его под именем Project2.ded. Импортируйте в него текстовый файл CreditSample.txt, идущий в поставке Deductor (по умолчанию расположен в каталоге /Samples).
2. Отсортируйте этот набор данных по следующим полям в порядке возрастания: Срок ссуды, Размер ссуды, Количество иждивенцев.
3. Сделайте следующую замену (после Сортировки) в поле Семейное положение: значение Да измените на Женат/замужем, Нет – на Холост/Не замужем.
4. Сделайте следующую замену (после предыдущего узла «Замена данных») в поле Количество иждивенцев: значение 0 – на Нет, 1 – без изменений, 2 и 3 – 2 и более. Используйте 2 способа – непосредственным вводом в мастере обработки и через файл таблицы соответствий. Файл подстановок предварительно создайте в любом текстовом редакторе, например, в Блокноте.
5. Старое поле Количество иждивенцев удалите из набора данных, а новое поле Количество иждивенцев_REPLACE переименуйте в Иждивенцы.
6. Отфильтруйте набор данных, полученный в п. 5 по полю Иждивенцы так, чтобы в выходной набор попали только строки, у которых значение в поле Иждивенцы не равно Нет. Сколько записей прошло через фильтр?
7. Отфильтруйте набор данных, полученный в п. 5 по полю Иждивенцы так, чтобы в выходной набор попали только строки, у которых значение в поле Иждивенцы не равно н/д. Сколько записей прошло через фильтр?
8. Продолжите фильтровать набор данных, полученный в п. 6. Наложите следующий фильтр, в который попадают все записи, удовлетворяющие условиям a либо условиям b:
a. Размер ссуды – от 2000 до 5000, Цель ссуды – Покупка товара.
b. Цель ссуды – Иное.
Сколько записей прошло через фильтр?
9. Отсортируйте последний набор данных по полю Код.
Задание 5
1. Создайте новый проект и сохраните его под именем Project3.ded. Импортируйте в него текстовый файл CreditSample.txt, идущий в поставке Deductor (по умолчанию расположен в каталоге /Samples ).
2. Создайте новое поле Дата обработки, значения в котором равны текущей дате.
3. Создайте новое поле Размер ссуды у.е., который рассчитывается делением на 30 поля Размер ссуды, руб. Все значения в новом поле должны быть округлены до второго знака.
4. Создайте новое поле Флаг, значение в котором истинно, если выполняется условие:
5. Среднемесячный доход > 2000 и Наличие недвижимости = Да.
6. Создайте еще один столбец, значение в котором равно 1, если выполняется условие:
Флаг = TRUE и Давать кредит = FALSE
7. Создайте новое поле RATE, в котором хранится значение в поле Срок ссуды, возведенное в степень 0,6.
8. Создайте новое поле Сегмент, которое делит всех заемщиков на сегменты по следующим правилам (используйте функцию IFF):
a. ЕСЛИ Возраст >= 50 И Среднемесячный доход < 6000 ТО Сег-мент=Сегмент 1
b. ЕСЛИ Возраст < 30 И Среднемесячный расход > = 5500 ТО Сегмент = Сегмент 2
c. Сегмент = Сегмент 3 во всех остальных случаях, не удовлетворяющих п. a и b.
3. УКАЗАНИЯ ПО ОФОРМЛЕНИЮ ОТЧЕТА ПО ЛАБОРАТОРНОЙ РАБОТЕ
Отчет по лабораторной работе должен содержать:
□ тему, цель и задачи лабораторной работы;
□ информацию о времени, отведенном на выполнение лабораторной работы, месте ее проведения, используемом оборудовании и программном обеспечении;
□ подробные ответы на поставленные теоретические вопросы;
□ выполнение практических заданий с пошаговым описанием всех выполняемых процедур, комментариями, вставками снимков экрана и другими необходимыми элементами;
□ выводы по проделанной работе.
Образец оформления титульного листа работы представлен в Приложении 1.
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
Федеральное государственное автономное образовательное учреждение
высшего профессионального образования
«Дальневосточный федеральный университет»
(ДВФУ)
ШКОЛА ЕСТЕСТВЕННЫХ НАУК
Материалы для организации
самостоятельной работы студентов
по дисциплине
«Интеллектуальный анализ на основе хранилищ данных»
|