Лекция 13. Язык операций Data Mining



В лекции приведён обзор основных конструкций языка многомерных выражений Data Mining Extensions (DMX), предназначенного для выполнения операций интеллектуального анализа данных.

Цель лекции – изучение стандартных концепций и стандартных выражений языка DMX для интеллектуального анализа данных.

 

К настоящему времени создано множество программных продуктов, поддерживающих методы и алгоритмы интеллектуального анализа данных (ИАД). Как правило, эти продукты имеют свои алгоритмы, особенности проведения и создания приложения ИАД. В результате эффективность применения средств ИАД в составе информационной системы предприятия или организации снижается. С целью устранения отмеченного недостатка компанией Microsoft разработан язык DMX, определяющий стандартные концепции в области ИАД и стандартные выражения в запросах к данным [1]. 

Ключевые концепции и объекты DMX

Базовыми понятиями языка DMX являются атрибут, состояние, вариант, ключи, входы и выходы [1]. Атрибут представляет собой элемент информации о примере. Например, пол, возраст, образование и семейное положение клиента. Различают два основных типа атрибутов: категориальные атрибуты и непрерывные атрибуты. Категориальные атрибуты имеют фиксированный набор значений. Непрерывные атрибуты принимают значения на множестве чисел. Дополнительные типы атрибутов основаны на базовых категориальных и непрерывных атрибутах. Каждый атрибут категориального типа имеет набор возможных значений или состояний. При проведении ИАД следует ограничивать количество значений только теми, которые имеют отношение к проблеме. В ИАД средствами SQL Server Data Mining все атрибуты имеют неявное состояние Missing, характеризующее отсутствие атрибута в строке данных.

 Под вариантом в DMX понимается отдельный пример, который представляется алгоритму ИАД. В самом простом случае в качестве варианта может рассматриваться строка записи в отдельной таблице. Если анализируется учебный процесс вуза, то в качестве варианта может рассматриваться преподаватель, кафедра и факультет. В DMX для задания ключей используют столбцы с двумя типами данных. Первый тип данных используется для задания ключа варианта, который идентифицирует объект, рассматриваемый в качестве варианта. В большинстве случаев ключом варианта служит первичный ключ исходной таблицы. Второй тип данных используется для задания вложенного ключа, который указывает именованный объект вложенной строки. Вложенный ключ является ключом только в контексте вложенной таблицы для одного объекта [1]. Атрибут в DMX может быть входом, выходом, входом и выходом. Алгоритмы ИАД используют входные атрибуты для установления свойств выходных атрибутов. При обучении алгоритму представляются входные и выходные атрибуты. Как правило, в процессе ИАД алгоритму представляются входные атрибуты, который формирует выходные атрибуты. При использовании алгоритмом входных и выходных данных действует соглашение о недопустимости изменений значений выходных атрибутов. Определение входных и выходных данных является важным этапом решения задачи ИАД.

Язык DMX служит для преобразования данных из таблиц во входные данные алгоритмов ИАД. Эти преобразования выполняются в моделях и структурах ИАД. Структура ИАД описывает структурные свойства проблемы и включает столбцы данных, информацию об этих столбцах. В дополнение к этому описанию может содержать кэш исходных данных. Столбцы в структуре не представляют собой атрибуты и рассматриваются как столбцы данных для выполнения ИАД. Структура ИАД может конструироваться таким образом, что исходные данные автоматически будут разделяться на обучающий и проверочный набор данных. При этом только обучающий набор будет доступен в процессе обучения алгоритма.

В отличие от структуры ИАД, являющейся контейнером и дескриптором, модель является объектом, преобразующим строки данных в варианты и осуществляющим машинное обучение выбранного алгоритма ИАД. Модель ИАД описывает подмножество столбцов структуры, распределение столбцов на подмножества входных и выходных столбцов. Таким образом, модель разрабатывается с выделением из структуры необходимого подмножества данных для анализа. В процессе обучения в модели ИАД сохраняются обнаруженные в данных шаблоны. После этого модель может использоваться для прогноза значений выходных столбцов. Модель обеспечивает просмотр выявленных шаблонов и шаблонов, использованных для решения конкретной задачи. В совокупности шаблоны определяются как содержимое модели

 

Синтаксис запросов DMX

Процедура построения модели ИАД в целом похожа на процедуру создания таблиц данных в реляционной БД. Синтаксис языка более прост по сравнению с синтаксисом языка SQL. Рассмотрим листинг 13.1 создания структуры ИАД со столбцами TeacherID, FamilyName, Name, Age, AcademStatus, AcademDegree.

CREATE MINING STRUCTURE [Teacher1]

{

[TeacherID]        LONG KEY,

[FamilyName]              TEXT DISCRETE,

[Name]               TEXT DISCRETE,

[Age]                  LONG CONTINUOUS,

[AcademStatus]  TEXT DISCRETE,     

[AcademDegree] TEXT DISCRETE

}

Столбец TeacherID является ключом структуры. Столбцы TeacherID, Age являются длинными целыми, а столбцы FamilyName, Name, AcademStatus, AcademDegree – строками с текстом. ИАД предполагает обязательное задание типа столбца. Тип содержимого столбца служит указанием движку ИАД об особенностях обработки данных столбца, который является либо категориальным, либо непрерывным. Существенными элементами рассматриваемой инструкции DMX являются имя структуры и список столбцов. Поддерживаемые типы данных и содержимого приведены в таблице 14.1

Таблица 14.1 Типы данных и содержимого    

Типы данных Типы содержимого
LONG KEY
DOUBLE DISCRETE
TEXT CONTINUOUS
DATE DISCRETIZED
BOOLEAN KEY TIME
TABLE KEY SEQUENCE

  

 

Тип содержимого KEY TIME используется в моделях временных рядов, KEY SEQUENCE – моделях кластеризации последовательностей во вложенных таблицах. Тип содержимого столбца DISCRETIZED является параметризированным. По умолчанию из данных с этим типом  содержимого столбца создаётся пять сегментов. Если данных в столбце на пять сегментов не хватает, то осуществляется попытка создать сегментов меньше. Процессом формирования сегментов можно управлять с использованием методов:

§ EQUAL_AREAS – создаёт сегменты с равным количеством значений;

§ CLUSTERS – выявляет области сгруппированных точек посредством одномерной кластеризации;

§ AUTOMATIC – вначале задача решается методом EQUAL_AREAS, в случае отсутствия результата – методом CLUSTERS.

Разделение данных на обучающие и проверочные наборы может выполняться автоматически при задании в структуре ИАД процента данных для проверки. Данные, не используемые для проверки, применяют в процедуре обучения модели. В листинге 14.2 содержится определение структуры с резервированием для проверки 25 процентов данных, но не более 500.

CREATE MINING STRUCTURE [Teacher2]

{

[TeacherID]        LONG KEY,

[FamilyName]              TEXT DISCRETE,

[Name]               TEXT DISCRETE,

[Age]                  LONG CONTINUOUS,

[AgeDisc]           DISCRETIZED 9EQUAL AREAS, 3)

[AcademStatus]  TEXT DISCRETE,     

[AcademDegree] TEXT DISCRETE

} WITH HOLDOUT ( 25 PERCENT OR 500 CASES)

Случайный порядок отбора вариантов обеспечивается включением в конструкцию слова HOLDOUT.

Вложенные таблицы с типом данных TABLE позволяют реализовать более сложные сценарии ИАД. Вложенная таблица определяется также как и структура с использованием названия и списка столбцов. В отличие от структуры ИАД, вложенные таблицы содержат только один ключ (Листинг 14.3).

CREATE MINING STRUCTURE [Teacher3]

{

[TeacherID]        LONG KEY,

[FamilyName]              TEXT DISCRETE,

[Name]               TEXT DISCRETE,

[Age]                  LONG CONTINUOUS,

[AgeDisc]           DISCRETIZED (EQUAL AREAS, 3)

[AcademStatus]  TEXT DISCRETE,     

[AcademDegree] TEXT DISCRETE

[TeachingLoad]    TABLE

{

[Discipline]     TEXT KEY,

[Quantity]        LONG CONTINUOUS

}

}   

Вложенная таблица TeachingLoad (Учебная нагрузка) содержит вложенный ключ Discipline (Дисциплина), который указывает объект вложенной строки. Столбец Quantity (Количество часов), относится к объекту, упомянутому в этом столбце.

 


Дата добавления: 2018-10-26; просмотров: 409; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!