Операционная обработка данных



Информационные системы, ориентированные на операционную (транзакционную) обработку данных, называют термином «ON-Line Transaction Processing, OLTP», что в переводе означает «оперативная транзакционная обработка данных».

В соответствии с современными требованиями к OLTP, в SQL Server 2008 уделяется основное внимание следующим аспектам [1]:

§ Производительность и масштабируемость, позволяющие предприятиям создавать БД, обеспечивающие эффективность применения информационных систем;

§ высокая доступность данных, обеспечивающая непрерывность функционирования приложений, работающих с БД и минимум административных издержек;

§ безопасность хранения данных, обеспечиваемая шифрованием важных данных, аудитом модификации данных и метаданных, применением внешних криптографических ключей;

§ управляемость данных, позволяющая снизить затраты времени и средств на управление инфраструктурой обработки и хранения данных за счет применения инновационных технологий администрирования.

Оперативный анализ данных

Накопленные в организации данные содержат историю развития организации и составляют уникальный ресурс. При анализе этих данных можно получить ценную информацию для принятия управленческих решений. Эффект от анализа возрастает, если использовать данные всего предприятия, накопленные в течение длительного времени. Анализ данных посредством готовых отчётных форм, свойственных OLTP-системам, в этом случае будет не эффективен. Для решения данной проблемы и была разработана концепция ХД. В соответствие с данной концепцией хранилище содержит данные, поступающие от разных источников, и интегрированные данные, получаемые в результате обработки первичных данных. Кроме того, для поддержки концепции ХД требуются специальные средства управления процессами хранения и обработки данных. 

Концепция OLAP (On-line analytical processing) разработана автором реляционных БД E.F.Codd в 1993 году. В 1995 году на основе требований, изложенных Коддом, сформулирован тест FASMI (Fast Analysis of Shared Multidimensional Information), который переводится как «быстрый анализ разделяемой многомерной информации. Тест FASMI включает следующие требования к приложениям для многомерного анализа [2]:

• предоставление пользователю результатов анализа за приемлемое время (не более 5 с) при допустимом уровне детализации анализа;

• возможность осуществления любого логического и статистического анализа, поддерживаемого используемым приложением, и сохранением результатов в доступном для пользователя виде;

• многопользовательский доступ к данным с поддержкой соответствующих механизмов блокировки и средств автоматизированного доступа;

• многомерное концептуальное представление данных, включая полную поддержку для иерархий и множественных иерархий измерений (ключевое требование OLAP);

• возможность обращаться к любой нужной информации независимо от её объёма и места хранения.

В основе концепции OLAP лежит принцип многомерного представления данных. Данные представляются в виде многомерного куба [2, 3].

Интеллектуальный анализ данных

Интеллектуальный анализ данных (ИАД) определяется как «извлечение зёрен знаний из гор данных» или «разработка данных – по аналогии с разработкой полезных ископаемых» [2]. В английском языке существует два термина, переводимые как ИАД: Knowledge Discovery in Databases (KDD) и Data Mining (DM). Таким образом, ИАД рассматривается как процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей [1, 2].

На первом этапе развития ИАД инструментальные средства разрабатывались с учётом размещения анализируемых данных в реляционных БД. Однако анализ данных, хранимых в системах OLAP в форме реального или виртуального информационного гиперкуба, в большинстве случаях оказывается более эффективным. Большинство методов ИАД разработано в рамках теории искусственного интеллекта и принято рассматривать его как процесс поддержки принятия решений с использованием поиска в данных скрытых закономерностей (информационных шаблонов). ИАД часто описывается как процесс извлечения допустимых, достоверных данных и данных с быстрым доступом из крупных БД. Другими словами, в процессе ИАД извлекают шаблоны и тренды, существующие в данных. Такие шаблоны и тренды могут быть собраны воедино и определены как модель интеллектуального анализа данных. Модели интеллектуального анализа данных могут применяться в условиях торгово-закупочной, производственной и другой деятельности:

§ прогнозирования продаж и определения продуктов, которые с высокой долей вероятности могут быть проданы вместе;

§ определения продуктов, которые с высокой долей вероятности могут быть проданы вместе;

§ выявление последовательностей в том порядке, в котором клиенты добавляют продукты в корзину для покупок;

§ контроля и управления учебной, научной и воспитательной работой преподавателей учебного заведения.

Построение модели ИАД является составной частью более масштабного процесса. Этот процесс может быть разделён на шесть базовых этапов [2, 3]. На рисунке 1.2 представленадиаграмма, отражающаяпоследовательность этапов и технологии Microsoft SQL Server, используемые при ИАД. Как видно из приведённой диаграммы, создание модели ИАД представляет собой динамический итеративный процесс.

Первым этапом процесса ИАД является определение постановки решаемой задачи. Этап включает анализ требований, определение масштаба проблемы, критериев оценки модели и определение цели ИАД.

Рисунок 1.2 – Диаграмма анализа данных

На втором этапе процесса ИАД выполняется объединение и очистка данных, определенных на первом этапе. Службы SQL Server 2008 Integration Services (SSIS) содержат все средства, необходимые для осуществления данного этапа, включая преобразования для очистки и объединения данных. Данные могут храниться в различных БД и форматах, содержать ошибки согласования, т.е. дефектные или отсутствующие записи. Поэтому, прежде чем перейти к разработке модели, необходимо устранить эти несоответствия. Первым этапом процесса ИАД является определение и постановка решаемой задачи. Этот этап включает анализ требований, определение масштаба проблемы, критериев оценки модели и определение цели интеллектуального анализа данных.

Третий этап процесса ИАД связан с просмотром и исследованием подготовленных данных. Методы исследования включают в себя расчет минимальных и максимальных значений, расчет средних и стандартных отклонений и изучение распределения данных. После исследования данных можно определить, содержит ли набор данных дефектные данные или нет, а затем разработать стратегию по устранению несоответствий. Для просмотра и исследования данных можно использовать средства конструктора представлений источников данных BI Development Studio.

Четвертым этапом процесса ИАД является построение модели. Перед построением модели, рекомендуется случайным образом разделить подготовленные данные в отдельные наборы обучающих и контрольных данных. Набор обучающих данных используется для построения модели, а контрольный набор данных — для проверки точности модели путем создания прогнозирующих запросов. Для разделения данных можно использовать службы SQL Server Integration Services. Знания, полученные при просмотре данных, позволяют определить и создать модель интеллектуального анализа данных. Обычно модель содержит входные столбцы, идентифицирующий столбец и прогнозируемый столбец. Данные столбцы можно затем определить в новой модели при помощи языка расширений интеллектуального анализа данных или мастера интеллектуального анализа данных в среде BI Dev Studio.

После определения структуры модели интеллектуального анализа данных выполняется ее обработка и наполнение пустой структуры шаблонами, описывающими модель. Данный процесс известен как обучение модели. Шаблоны выявляются путем применения в отношении исходных данных математического алгоритма. Для каждого типа модели, доступной для построения, аналитические службы SQL Server содержат отдельный алгоритм. Настройка алгоритмов может осуществляться заданием значений параметров.

На пятом этапе процесса ИАД осуществляется исследование построенных моделей и проверка их эффективности. Прежде чем развернуть модель в рабочей среде, необходимо проверить эффективность работы модели. Кроме того, возможно, было создано несколько моделей, и необходимо выяснить, какая из них наиболее эффективна. Если ни одна из моделей, созданных при выполнении этапа «Построение моделей», не обладает нужной эффективностью, может возникнуть необходимость вернуться к предыдущему этапу процесса и либо изменить постановку задачи, либо выполнить повторное изучение данных в исходном наборе данных. Тренды и шаблоны, обнаруживаемые алгоритмами, можно исследовать при помощи средств просмотра в конструкторе интеллектуального анализа данных в среде BI Dev Studio. Точность прогнозов, создаваемых моделями, можно проверить при помощи таких средств конструктора, как диаграмма точности предсказаний и матрица классификации. Для этих средств требуются контрольные данные, выделенные из исходного набора данных во время выполнения шага построения модели.

Последним шагом процесса ИАД является развертывание в рабочей среде наиболее эффективных моделей. После развертывания в рабочей среде моделей интеллектуального анализа данных можно выполнять множество различных задач, соответствующих потребностям пользователя:

§ использовать модель для создания прогнозов, которые затем могут быть использованы для принятия решений;

§ внедрять функции ИАД непосредственно в приложение для создания, изменения, обработки и удаления структур, моделей;

§ использовать службы Integration Services для создания пакетов, в которых модель ИАД используется для интеллектуального распределения входящих данных по разным таблицам.

§ создавать отчеты, позволяюobt формировать прямой запрос в соответствии с текущей моделью ИАД.

Составной частью стратегии развертывания моделей ИАД является их обновление с целью улучшения эффективности. Поэтому по мере накопления предприятием данных осуществляется редактирование моделей.

Основными задачами ИАД являются:

Классификация (Classification). Наиболее распространенная задача ИАД. В результате решения задачи классификации обнаруживаются признаки, которые характеризуют группы объектов (классы). По этим признакам новый объект можно отнести к тому или иному классу. Для решения задачи классификации могут использоваться методы: ближайшего соседа (Nearest Neighbor); k-ближайшего соседа (k-Nearest Neighbor);

Кластеризация (Clustering). Кластеризация является логическим продолжением идеи классификации. Это задача более сложная, особенность кластеризации заключается в том, что классы объектов изначально не предопределены. Результатом кластеризации является разбиение объектов на группы.

Ассоциация (Associations). В ходе решения задачи поиска ассоциативных правил отыскиваются закономерности между связанными событиями в наборе данных. Отличие ассоциации от двух предыдущих задач Data Mining: поиск закономерностей осуществляется не на основе свойств анализируемого объекта, а между несколькими событиями, которые происходят одновременно. Наиболее известный алгоритм решения задачи поиска ассоциативных правил – алгоритм Apriori.

Последовательность (Sequence). Последовательность позволяет найти временные закономерности между транзакциями. Задача последовательности подобна ассоциации, но ее целью является установление закономерностей не между одновременно наступающими событиями, а между событиями, связанными во времени. Другими словами, последовательность определяется высокой вероятностью цепочки связанных во времени событий. Фактически, ассоциация является частным случаем последовательности с временным лагом, равным нулю.

Прогнозирование (Forecasting). В результате решения задачи прогнозирования на основе особенностей исторических данных оцениваются пропущенные или же будущие значения целевых численных показателей. Для решения таких задач широко применяются методы математической статистики..

Анализ отклонений (Deviation Detection). Данная задача решается с целью обнаружение и анализ данных, наиболее отличающихся от общего множества данных, т.е выявления нехарактерных шаблонов.

Краткие итоги

§ Системы Business Intelligence включают средства для построения хранилищ данных (DW), оперативного анализа данных (OLAP), информационно-аналитического сопровождения (EIS-системы), интеллектуального анализа данных (Data Mining) и  построения отчётов (Query and reporting tools).

§ Системы OLTP, ориентированные на операционную обработку данных, обеспечивают высокую производительность и масштабируемость, безопасность хранения и управление данными, но не поддерживают оперативный анализ данных.

§ Решение проблемы оперативного анализа на основе концепции OLAP предполагает многомерное представление данных и обеспечивает высокую производительность логического и статистического анализа.

§ Интеллектуальный анализ данных представляет собой процесс принятия решений с использованием поиска в данных скрытых закономерностей (информационных шаблонов).

§ Процесс интеллектуального анализа данных включает этапы постановки задачи, объединения и очистки данных, просмотра подготовленных данных, построения модели анализа, исследования построенной модели, развёртывания модели анализа в рабочей среде.

Контрольные вопросы

1. Наибольшая степень актуальности от информационной системы требуется при решении задачи:

а) информационного поиска и выполнения заранее определённых запросов к базе данных;

б) поиска функциональных и логических закономерностей в накопленных данных;

в) оперативно-аналитического анализа данных;

г) ввода, обновления и хранения данных.

2. Основное назначение OLTP-системы (On-Line Transaction Processing):

а) автоматизация интеллектуального анализа данных;

б) долговременное хранение данных;

в) операционная (транзакционная) обработка данных;

г) поддержка реляционных хранилищ данных;

3. Основное назначение OLAP-системы (On-Line Analytical processing):

а) выполнение интеллектуального анализа данных;

б) поддержка аналитической деятельности на предприятии;

в) предварительная обработка данных перед анализом;

г) обеспечение безопасности хранения данных.

4. Основное назначение систем интеллектуального анализа (Data Mining):

а) обнаружение в сырых данных скрытых знаний;

б) проведение статистического анализа;

в) решения задач математического программирования;

г) поиск агрегированных данных;

5. При проведении интеллектуального анализа из существующих данных извлекают:

а) шаблоны и тренды;

б) функциональные зависимости;

в) свойства фактов;

г) атрибуты измерений.

Литература

1. Тейлор Д., Рейден Н. Почти интеллектуальные системы. Как получить конкурентные преимущества путём автоматизации принятия решений. – Пер. с англ. – СПб: Символ Плюс, 2009. – 448 с.

2. Барсегян А.А. Методы и модели анализа данных: OLAP и Data Mining / Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. – СПб.: БХВ-Петербург, 2004. – 336 с.

3. Ларсон Б. Разработка бизнес-аналитики в SQL Server 2005. – СПб.: Питер, 2008. – 684 с.

4. Малыхина М.П. Базы данных: основы, проектирование, использование. – Спб.: БХВ. –Петербург, 2004. –512 с.


Дата добавления: 2018-10-26; просмотров: 340;