Служба SQL Server Integration Services



Извлечение, преобразование и загрузка данных, известные среди специалистов по базам данных под аббревиатурой ETL ( extraction, transformation, loading). Приложения ETL извлекают информацию из исходной БД, преобразуют ее в формат, поддерживаемый БД назначения, а затем загружают. Для того чтобы инициировать процесс ETL, применяют специальные программы извлечения данных из записей в исходной БД, подготовки информации, хранящейся в этих записях, к процессу преобразования. Существующий инструментарий ETL компании Microsoft способен удовлетворить большую часть требований к процессу переносу данных.

В общем случае, пользователь инструментария ETL может представлять себе архитектуру ХД в виде совокупности трёх областей: области источника данных, промежуточной области, содержащей совокупность таблиц, использующихся исключительно при загрузке ХД, и  области приёмника данных . Движение данных от источника к приёмнику называют потоком данных. Необходимые потоки данных формирует и описывает аналитик (рисунок 3.2).

Рисунок 3.2 – Диаграмма потоков данных

Процесс перегрузки данных – это реализация потока данных от единственного набора данных источника до одного или нескольких наборов данных ХД. Множество всех процессов принято разделять классы. По характеру загрузки данных процессы разделяют на следующие классы:

§ процессы начальной загрузки (Initial load);

§ процессы обновляющей загрузки (Refreshing load).

Процесс перегрузки данных включает в себя одну или несколько фаз, которые выполняются по очереди. Фаза процесса перегрузки данных (подпроцесс, обеспечивающий решение определённой задачи в рамках ETL-процесса) соответствует стадии загрузки источника данных, то есть количество используемых фаз ограничено стадиями, которые должен пройти набор данных источника, чтобы быть загруженным в ХД. Фаза состоит из шагов и может включать операции управления выполнением перегрузки. Шаги представляют собой отдельные SQL-запросы, которые выполняют единичные действия по перегрузке, преобразованию и выборке данных. Каждый запрос (равно как и скрипты фаз и процессов) оформляется в отдельном файле в соответствии со «Стандартом на оформление технологических документов».

Служба SQL Server 2005 Integration Services (SSIS) компании Microsoft представляет собой многофункциональную ETL-систему, т.е. платформу для интеграции данных, включая пакеты, обеспечивающие извлечение, преобразование и загрузку для хранения данных. Служба Integration Services содержит графические средства и мастера сборки и отладки пакетов; задачи выполнения функций потока операций, таких как FTP, выполнение инструкций SQL и отправка сообщений по электронной почте; источники данных и адреса назначения для получения и загрузки данных; преобразования для очистки, статистической обработки, слияния и копирования данных; службу управления, службу Integration Services для администрирования выполнения и хранения пакетов, а также API-интерфейсы для программирования модели объектов служб Integration Services.

Архитектура Integration Services совмещает в себе как ориентированный на операции механизм потока задач (task-flow), так и масштабируемый и производительный механизм потока данных (data-flow, рис.2). Такое сочетание потоков задач и потоков данных позволяет эффективно использовать Integration Services в проектах с традиционными системами ETL и в проектах по созданию хранилищ данных, а также в более сложных проектах, например по внедрению центров данных.

Microsoft SQL Server Integration Services (SSIS) состоит из следующих четырех основных частей: служб Integration Services, объектной модели служб Integration Services, среды выполнения и исполняемых объектов Integration Services времени выполнения, а также задачи «Поток данных», инкапсулирующей подсистему обработки потока данных и компоненты потока данных. На рисунке 3.3 показана связь этих частей.

Службы Integration Services поддерживают как собственный, так и управляемый код. Разработчики, получающие доступ к объектной модели служб Integration Services из пользовательских клиентов или программирующие задачи и преобразования, могут писать код на C++ или другом языке программирования.

Рисунок 3.3 – Основные части Integration Services

Загрузка данных в Analysis Services осуществляется с применением двух компонентов: компонента для обработки секций (partition processing) и компонента (dimension processing) обработки измерений [2].

Для установления соединения с Analysis Services используется провайдер OLE DB for OLAP. Соединение обеспечивает прохождение команды обработки (process command) измерения или секции в Analysis Services. Команда кроме инструкции обработки содержит и данные.

Краткие итоги

§ SQL Server 2008 является высокопроизводительной, масштабируемой, многофункциональной платформой с расширенным набором средств оперативного и интеллектуального анализа данных.

§ Платформа SQL Server 2008 содержит службу хранения, обработки и защиты данных SSDE, сервисы интеграции SSIS, аналитические сервисы SSAS, сервисы отчётов SSRS, службу администрирования и управления SSMS, службу разработки систем бизнес-анализа BI Dev Studio.

§ Служба SSMS предназначена для администрирования ядра SQL Server (SSDE), служб SSIS, SSAS, SSRS и создания проектов сценариев для служб SSAS и SSDE.

§ Системы ETL извлекают информацию из исходной БД, преобразуют её в формат, поддерживаемый БД назначения, а затем загружает в неё преобразованную информацию.

§ Служба SSIS представляет собой многофункциональную платформу (ETL-систему) для интеграции данных, обеспечивающую извлечение (extraction), преобразование (transformation) и загрузку данных (loading).

Контрольные вопросы

1. Потоком данных в службах SSIS называют:

а) множество данных, характеризующих объект анализа;

б) перемещение данных от источника к приёмнику;

в) файл с множеством данных, подготовленный для анализа;

г) множество данных, перемещаемых в многомерную модель данных.

2. Архитектура служб SSIS ориентирована на операции:

а) с множествами кортежей, характеризующих объекты анализа;

б) с объектами интеллектуального анализа данных;

в) оперативного и интеллектуального анализа данных;

г) извлечения, преобразования и загрузку данных.

3. Одно из основных назначений языка XML в системах анализа данных:

а) описание методов и алгоритмов анализа данных;

б) описание процесса обмена данными между приложениями;

в) разработка пользовательских приложений в системе анализа;

г) описание

4. Службы SQL Server Management Studio предназначены для:

а) администрирования и управления многомерными объектами;

б) осуществления оперативного анализа данных;

в) осуществления интеллектуального анализа данных;

г) извлечения, преобразования и загрузки данных.

5.Процессом перегрузки данных в ETL-системах называют:

а) реализацию потока данных от единственного набора данных источника до одного или нескольких наборов данных хранилища;

б) создание копии таблицы с данными в базе данных;

в) создание резервной копии базы данных на сервере;

г) реализацию потока данных из хранилища до одного набора данных в транзакционной БД.

 

Литература

1. Бергер А.Б. Microsoft SQL Server 2005 Analysis Services. OLAP и многомерный анализ данных / Бергер А.Б, Горбач И.В., Меломед Э.Л, Щербинин В.А., Степаненко В.П. / Под общ. Ред. А.Б. Бергера, И.В. Горбач. – СПб.: БХВ-Петербург, 2007. – 928 с.

2. Microsoft SQL Server 2008: Data mining – интеллектуальный анализ данных. Пер. с англ. / Дж. Макленнен, Чж. Танг, Б. Криват. – БХВ-Петербург. 2009. – 720 с.

3. Малыхина М.П. Базы данных: основы, проектирование, использование. – Спб.: БХВ-Петербург, 2004. – 512 с.

 

 


Дата добавления: 2018-10-26; просмотров: 557; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!