Загрузка с применением Integration Services



Integration Services принадлежит к семейству программных продуктов для извлечения, преобразования и загрузки (extraction, transformation, loading (ETL)) данных. Основной концепцией Integration Services является поток данных. Поток данных состоит из набора предопределённых преобразований. Начальной точкой потока данных является источник данных (исходная таблица), конечной точкой – адресат данных (таблица-адресат). Поток данных можно представить как конвейерный процесс, в котором каждая строка данных является элементом обработки, а преобразования данных модулями сборочной линии. Каждый узел в потоке данных называется преобразованием. Преобразования начинаются с источника и завершаются преобразованием адресата. Основные преобразования следующие:

§ Aggregate – агрегирование с вычислением среднего значения, суммы, количества значений;

§ Data Conversion – преобразование типа данных столбца в другой тип;

§ Sort – осуществляется сортировка данных контейнера;

§ Union All – выполняется объединение нескольких наборов данных.

Полное описание преобразований приведено в [1].

Основная единица развёртывания и выполнения проекта службы SSIS – проект, который служит контейнером потоков. Один проект SSIS может содержать множество пакетов. В составе пакета один поток управления, состоящий из одного или нескольких потоков данных. Кроме потоков управления и потока данных, пакет также содержит описание подключения SSIS и переменные пакета. Эти переменные могут быть глобальными для всего пакета или локальными для последовательности задач.

Пакет SSIS содержит один поток управления, состоящий из набора задач. Эти задачи определяют выполнение операций SQL-запросов, загрузку данных, обработку скриптов и запуск других процессов. В потоке может содержаться множество задач. Задачи потока образуют одну последовательность во времени. Выполнение очередной задачи является условием выполнения следующей задачи. Для создания условных ветвлений в потоке можно использовать ограничения очерёдностью. Ограничения очерёдностью могут комбинироваться и вычисляться как одно ограничение.

Загрузка данных в Analysis Services может осуществляться с применением компонента обработки секций (partition processing) и компонента обработки измерений (dimension processing). Процедура загрузки выполняется по схеме, приведённой на рисунке 12.1.

Рисунок 12.1 – Схема загрузки данных

При загрузке используется провайдер OLE DB for OLAP, который поставляется с Analysis Services. Через установленное службой Integration Services соединение команда обработки измерения или секции передаётся Analysis Service. При получении команды Analysis Services загружает исходные данные в буфер и продолжает выполнение операции обработки.

Для загрузки данных в измерение создаётся поток данных (data flow). Данные могут загружаться из реляционных таблиц хранилища, плоских файлов и файлов XML. На последнем этапе загрузки поток данных должен содержать записи с колонками, соответствующими каждому атрибуту измерения. Это равносильно загрузке измерения из одной реляционной таблицы при помощи одного запроса SQL. Соответствие между колонками записи потока данных и атрибутами измерения (ключи, имена и свойства) устанавливается с применением Редактора Результата Потока Данных Обработки Измерений (Dimension Processor Destination Editor).    

Загрузка данных в секцию куба с помощью службы SSIS выполняется аналогично загрузке измерения. Отличие состоит в том, что поток данных для загрузки в секцию создаётся с применением Компонента Обработки Секций (Partition Processing Flow Item). В редакторе Результата Потока Данных Обработки Секций (Partition Processor Destination Editor) выбираются секции для обработки и устанавливаются соответствия между колонками потока и атрибутами секций.

Служба SSIS предоставляет несколько встроенных компонентов для решения задач интеллектуального анализа данных (ИАД) в потоке управления и потоке данных. Специфические задачи ИАД следующие [1]:

§ запрос интеллектуального анализа данных (Data Mining Query), используемый в потоке управления SSIS;

§ обработка аналитических служб (Analysis Services Processing) основных объектов базы данных SSIS: измерений, кубов, структур и моделей анализа.

Полное описание задач интеллектуального анализа, решаемых с использованием SSIS, приведено в [1].

 

Краткие итоги

§ Построение многомерной модели данных связано с разработкой, редактированием источника данных и представления источника данных.

§ Представление источника данных является объектом, содержащим метаданные об объектах источника данных, включая связи между этими объектами, которые определены в базовом источнике данных или в представлении источника данных. 

§ Службы Analysis Services поддерживают различные типы поставщиков данных для анализа. При определении поставщика данных пользователь должен указать сведения о соединении, необходимые поставщику для подключения к БД. 

§ Основной концепцией Integration Services является поток данных, состоящий из набора предопределённых преобразований. Начальной точкой потока данных является источник данных (исходная таблица), конечной точкой – адресат данных (таблица-адресат). 

§ Для загрузки данных в измерение создаётся поток данных (data flow). Данные могут загружаться из реляционных таблиц, плоских файлов и файлов XML. На последнем этапе загрузки поток данных должен содержать записи с колонками, соответствующими каждому атрибуту измерения. Загрузка данных в секцию куба выполняется аналогично.

 

Контрольные вопросы

1. Представление источника данных является объектом, содержащим:

а) данные для оперативного и интеллектуального анализа данных;

б) описанием соединения служб Analysis Services с источником данных;

в) метаданные из выбранных объектов источника данных, включая связи между объектами;

г) описание измерений реляционного источника данных.

2. Служба SQL Server Integration Services предназначена для решения задач:

а) подготовки отчётов на основе источников данных в системах оперативного и интеллектуального анализа данных;

б) извлечения, преобразования и загрузки данных в проектах ETL-систем, систем оперативного и интеллектуального анализа данных;

в) разработки структур интеллектуального анализа данных;

г) заполнения структур интеллектуального анализа данных.

3. Создание представления источника данных обеспечивает и упрощает:

а) создание запросов оперативного (OLAP) и интеллектуального (Data Mining) анализа данных;

б) доступ к удалённым данным с использованием учётных данных конечного пользователя;

в) визуальное отображение диаграмм с таблицами и связи между ними в источнике данных.

г) привязку кубов, измерений, моделей интеллектуального анализа данных к таблицам и столбцам источника данных.

4. С применением SQL Server Integration Services данные могут загружаться:

а) только реляционных баз и хранилищ данных;

б) только из реляционных источников и файлов XML;

в) из реляционных источников, плоских файлов и файлов XML;

г) только из реляционных источников данных и плоских файлов.

5. Основной концепцией SQL Server Integration Services является:

а) поток данных, состоящий из набора предопределённых преобразований данных;

б) представление источника данных, обеспечивающего соединение с источником данных;

в) встроенные компоненты для решения задач интеллектуального анализа данных в потоке данных и управления;

г) провайдер OLE DB for Data Mining и OLAP, который поставляется с Analysis Services.

 

Литература

1. Microsoft SQL Server 2008: Data mining – интеллектуальный анализ данных. Пер. с англ. / Дж. Макленнен, Чж. Танг, Б. Криват. – БХВ-Петербург. 2009. – 720 с.

2. Бергер А.Б. Microsoft SQL Server 2005 Analysis Services. OLAP и многомерный анализ данных / Бергер А.Б, Горбач И.В., Меломед Э.Л, Щербинин В.А., Степаненко В.П. / Под общ. Ред. А.Б. Бергера, И.В. Горбач. – СПб.: БХВ-Петербург, 2007. – 928 с.

3. Барсегян А.А. Методы и модели анализа данных: OLAP и Data Mining / Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. – СПб.: БХВ-Петербург, 2004. – 336 с.

4. Ларсон Б. Разработка бизнес-аналитики в SQL Server 2005. – СПб.: Питер, 2008. – 684 с.


Дата добавления: 2018-10-26; просмотров: 311; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!