Классификация аналитических систем



Для обозначения аналитических технологий и средств в целом принято использовать термин "Business Intelligence" или, сокращенно, - BI. Понятие BIобъединяет различные средства и технологии анализа и обработки данных масштаба предприятия. На их основе создаются BI-системы. Их цель – повысить качество информации для принятия управленческих решений. BI-системы ранее были известны под названием Систем Поддержки Принятия Решений (СППР, DSS- Decision Support System). В качестве синонимов понятия "СППР" оперируют также понятиями "аналитическая система" или "управленческая система". Сейчас же класс систем BI является независимым классом систем, в который входят системы класса СППР.

По оценкам IDC рынок BI состоит из 5 сегментов:

1. OLAP-продукты,

2. инструменты добычи данных,

3. средства построения Хранилищ и Витрин данных,

4. управленческие информационные системы и приложения,

5. инструменты конечного пользователя для выполнения запросов и построения отчетов,

6. системы СППР.


Полный классификатор аналитических систем

OLAP-продукты

Способ хранения данных

MOLAP
ROLAP
HOLAP

Место размещения OLAP-машины

OLAP-серверы
OLAP-клиенты

Степень готовности к применению

OLAP-компоненты
Инструментальные OLAP-системы
OLAP-приложения

Инструменты добычи данных

Метод Data Mining

Фильтрация
Деревья решений
Генетические алгоритмы
Ассоциативные правила
Нейронные сети

Способ предоставления

В составе OLAP-систем
В виде самостоятельных систем Data Mining

Средства построения Хранилищ и Витрин данных

Средства проектирования Хранилищ данных

В составе СУБД
Универсальные средства
Студии

Средства извлечения, преобразования и загрузки данных

В составе СУБД
Универсальные средства
Готовые предметно-ориентированные ХД  

Управленческие информационные системы и приложения

Вид решаемой задачи

Анализ финансового состояния
Инвестиционный анализ
Подготовка бизнес-планов
Маркетинговый анализ
Управление проектами
Бюджетирование
Финансовое управление

Масштаб решаемой задачи

Автоматизация труда одного специалиста
Для коллективной работы группы сотрудников
Для применения в территориально распределенной корпорации

Технологическое построение

Монолитные
Настраиваемые

Инструменты конечного пользователя для выполнения запросов и построения отчетов

В составе OLAP-систем  
В виде систем Query & Reporting  
Системы СППР

В рамках данного материала системы СППР подробно не рассматриваются, так как это является отдельной специфической областью интеллектуальных информационных систем.

Рассмотрим более подробно каждый сегмент.

OLAP -продукты

На сегодняшний день в мире разработано множество продуктов, реализующих OLAP-технологии. Чтобы легче было ориентироваться среди них, существует несколько классификаций OLAP-продуктов:

· по способу хранения данных,

· по месту нахождения OLAP-машины,

· по степени готовности к применению.

Рассмотрим классификацию систем по способу хранения данных. Основная идея OLAP заключается в построении многомерных таблиц, которые будут доступны для запросов пользователей. Многомерные таблицы (многомерные кубы) строятся на основе исходных и агрегатных данных. И исходные и агрегатные данные для многомерных таблиц могут храниться как в реляционных, так и многомерных базах данных. Поэтому в настоящее время применяются три способа хранения данных: MOLAP (Multidimensional OLAP), ROLAP (Relational OLAP) и HOLAP (Hybrid OLAP).

Соответственно, OLAP-продукты по способу хранения данных делятся на три аналогичные категории:

· В случае MOLAP, исходные и агрегатные данные хранятся в многомерной БД или в многомерном локальном кубе. Такой способ хранения обеспечивает высокую скорость выполнения OLAP-операций. Но многомерная база в этом случае чаще всего будет избыточной. Куб, построенный на ее основе, будет сильно зависеть от числа измерений. При увеличении количества измерений объем куба будет экспоненциально расти. Иногда это может привести к "взрывному росту" объема данных, парализующему в результате запросы пользователей.

· В ROLAP-продуктах исходные данные хранятся в реляционных БД или в плоских локальных таблицах на файл-сервере. Агрегатные данные могут помещаться в служебные таблицы в той же БД. Преобразование данных из реляционной БД в многомерные кубы происходит по запросу OLAP-средства. При этом скорость построения куба будет сильно зависеть от типа источника данных и порой приводит к неприемлемому времени отклика системы.

· В случае использования Гибридной архитектурыисходные данные остаются в реляционной базе, а агрегаты размещаются в многомерной. Построение OLAP-куба выполняется по запросу OLAP-средства на основе реляционных и многомерных данных. Такой подход позволяет избежать взрывного роста данных. При этом можно достичь оптимального времени исполнения клиентских запросов.

Следующая классификация - по месту размещения OLAP -машины. По этому признаку OLAP-продукты делятся на OLAP-серверы и OLAP-клиенты.

· В серверных OLAP-средствах вычисления и хранение агрегатных данных выполняются сервером. Клиентское приложение получает только результаты запросов к многомерным кубам, которые хранятся на сервере. Некоторые OLAP-серверы поддерживают хранение данных только в реляционных базах, другие - только в многомерных. Многие современные OLAP-серверы поддерживают все три способа хранения данных: MOLAP,ROLAP и HOLAP. Одним из самых распространенным в настоящее время серверным решением является OLAP-сервер корпорации Microsoft.

· OLAP-клиентустроен по-другому. Построение многомерного куба и OLAP-вычисления выполняются в памяти клиентского компьютера. OLAP-клиенты также делятся на ROLAP и MOLAP. А некоторые могут поддерживать оба варианта доступа к данным. Среди одних из первых клиентских OLAP-средств можно назвать Oracle Discoverer. Те же возможности обеспечивает и отечественная разработка – продукты Аналитической платформы Контур от компании Intersoft Lab.

 

У каждого из этих подходов есть свои "плюсы" и "минусы". Нельзя однозначно говорить о преимуществах серверных средств перед клиентскими и наоборот. На практике такой выбор является результатом компромисса "эксплуатационных показателей", стоимости программного обеспечения и затрат на разработку, внедрение и сопровождение аналитической системы.

Следующая классификация OLAP -продуктов - по степени готовности к применению. Различают: OLAP-компоненты, инструментальные OLAP – системы и конечные OLAP-приложения.

· OLAP-компонента– это инструмент разработчика. С ее помощью разрабатываются клиентские OLAP-программы. Различают MOLAP и ROLAP-компоненты: MOLAP-компоненты являются инструментами генерации запросов к OLAP-серверу. Они также обеспечивают визуализацию полученных данных. ROLAP-компоненты содержат собственную OLAP-машину. OLAP-машина обеспечивает построение OLAP-кубов в оперативной памяти и отображает их на экране. Одна из наиболее доступных, но в то же время и одна из самых слабых OLAP-компонент – Decision Cube в составе BorlandDelphi.

· Инструментальные OLAP-системы– это программные продукты, предназначенные для создания аналитических приложений. Различают две категории инструментальных OLAP-систем: системы для программирования и системы для быстрой настройки. Системы для программирования – это среда разработчика аналитических систем. В ней, путем программирования запросов к данным, алгоритмов расчета и OLAP-интерфейсов можно создатьOLAP-приложение для конечного пользователя. Представителем этого класса программного обеспечения является аналитическая платформа Knosys Pro Clarity. С другой стороны, OLAP-системы для быстрой настройки – это средства, которые предоставляют визуальный интерфейс для создания OLAP-приложений без программирования. Такие системы включают визуальный генератор запросов, встроенные алгоритмы агрегации и инструменты настройки пользовательских OLAP-интерфейсов. В такой технологии реализована большая часть инструментов пакета BusinessObjects и Аналитической платформы Контур.

· Наконец, к третьей категории OLAP-продуктов по степени готовности к применению относятся конечные OLAP-приложения. Это готовые прикладные решения для конечного пользователя. Они требуют только установки, и, не всегда, настройки под специфику пользователя. Пример такого решения – OLAP-приложения системы "Контур Стандарт", подготовленные для анализа данных в различных отраслях и для решения различных аналитических задач.

Инструменты добычи данных

Knowledge Discovery in Databases (KDD)– это процесс поиска полезных знаний в "сырых" данных. KDD включает в себя вопросы подготовки данных, выбора информативных признаков, очистки данных, применения методов "раскапывания данных" (Data Mining), а также обработки и интерпретации полученных результатов.

Центральным элементом этой технологии являются методы Data Mining, позволяющие обнаруживать знания при помощи математических правил:

· Фильтрация. Необходимость в фильтрации возникает, когда нужно отделить полезную информацию от искажающего его шума за счет сглаживания, очистки, редактирования аномальных значений, устранения незначащих факторов, понижения размерности информации и т.д. Применение фильтрации в системах анализа данных относится к первичной обработке данных и позволяет повысить качество исходных данных, а, следовательно, и точность результата анализа.

· Деревья решений. Они позволяют представлять правила в иерархической, последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение. Под правилом понимается логическая конструкция, представленная в виде «если..., то...». Деревья решений применяются при решении задач поиска оптимальных решений на основе описанной модели поведения.

· Ассоциативные правила. Они позволяют находить закономерности между связанными событиями. Примером такого правила служит утверждение, что в том случае, если произошло событие А, то произойдет и событие В с вероятностью C. Впервые это задача была предложена для нахождения типичных шаблонов покупок, совершаемых в супермаркетах, поэтому иногда ее еще называют анализом рыночной корзины (market basket analysis).

· Генетические алгоритмы. Они применяются при решении задач оптимизации. Эти методы были открыты при изучении эволюции и происхождения видов. Генетические алгоритмы нужны для настройки нейронных сетей, а также решения различных задач, когда можно составить описание возможных вариантов решения в виде вектора параметров, и известен критерий, определяющий эффективность каждого варианта. Генетические алгоритмы применяются для составления расписаний, портфелей ценных бумаг, заполнения контейнеров при перевозке (пересылке) грузов, выбор маршрутов движения, конфигурации оборудования и т.д.

· Нейронные сети. Они реализуют алгоритмы на основе сетей обратного распространения ошибки, самоорганизующихся карт Кохонена, RBF-сетей, сетей Хэмминга и других подобных алгоритмов анализа данных. Нейронные сети применяются для решения самых различных задач - восстановление пропусков в данных, поиск закономерностей, классификация и кластеризация данных, прогнозирование и моделирование.

 

Инструменты добычи данных поставляются заказчикам двумя способами:

· в составе OLAP-систем,

· в виде самостоятельных систем Data Mining.

 

Функциональность Data Mining в той или иной степени полноты реализации включена в аналитические системы различных производителей – Oracle,Hyperion, SAS и т.д. Однако, наиболее «продвинутыми» в этом плане являются специализированные системы математического анализа данных. В России авторитетным разработчиком систем в технологии KDD является компания "Лаборатория BaseGroup".


Дата добавления: 2019-03-09; просмотров: 1196; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!