Лекция 9. Классификация и регрессия



В лекции излагаются основы решения задач классификации с использованием математических функций и деревьев решений. Обсуждаются методы и алгоритмы построения деревьев решений.

Цель лекции – приобретение учащимися первоначальных знаний постановки задач классификации и их решения с применением инструментальных программных средств.

 

Задачи классификации и регрессии связаны с определением значений зависимой переменной объекта по значениям независимых переменных, характеризующих объекты [1,2]. Формальная постановка задачи осуществляется следующим образом. Дано множество объектов:

,

где – объект проведения анализа.

Объекты множества  характеризуются одним и тем же набором переменных (атрибутов):

,

где – независимая переменная, значение которой известно; – зависимая переменная, принимающая значения на множестве .

Переменные  принимают значения из множества . Множество  может быть множеством (подмножеством) натуральных , целых  или вещественных чисел. Если множество значений зависимой переменной конечное, то решается задача классификации. В случае  решается задача регрессии [1].

Математические функции

С применением математической функции описывают зависимость зависимой переменной от независимых переменных. При этом объекты классификации и регрессии рассматриваются как точки в пространстве. Переменные объекта

 

рассматриваются как координаты, а функция имеет вид [1]:

где – веса независимых переменных.

Все независимые переменные  соответствуют числовым параметрам. Логические переменные кодируются цифрами 0 и 1, категориальные переменные – номерами из списка возможных состояний объекта. Формально задачу построения функции классификации и регрессии можно описать выражением:

,

где F – множество возможных функций; – функция потерь; – известное значение зависимой переменной; – значение зависимой переменной, определяемое функцией f.

Для задач классификации и регрессии можно использовать различные функции потерь. Например, в случае бинарной классификации может использоваться функция потерь, определяемая выражением:

В случае вещественных переменных, как правило, используется разность значений ( ). Наиболее часто применяется минимизация квадратов разностей значений [1].

Правила классификации

Имеется множество объектов . Каждый объект характеризуется набором переменных . Правила классификации представляются в виде:

.

Условие предназначено для проверки значений одной или нескольких независимых переменных. В случае проверки значений нескольких переменных условие задаётся с применение логических операций «и», «или» и «не». Заключение определяет значение зависимой переменной или распределение вероятностей её вероятности по классам.

Правила классификации имеет ряд достоинств: запись на естественном языке и, как следствие, легкость восприятия; относительная независимость правил друг от друга. Относительная независимость обеспечивает легкость ввода нового правила в систему существующих правил. Однако относительная независимость может привести к противоречивости заключений. Это выражается в том, что переменные, характеризующие объект, могут удовлетворять условиям различных правил, имеющим различные заключения.

Деревья решений

Одним из методов автоматического анализа данных является метод деревьеврешений. Впервые идея создания деревьев решений приведена в работах Ховленда (Hoveland) и Ханта(Hunt), опубликованных в конце 50-х годов XX века. Основополагающей работой, инициировавшей развитие метода, является книга, изданная Хантом (Hunt, E.B.), Мэрина (Marin J.) и Стоуном (Stone, P.J) «Experiments in Induction» в 1966 г. Основные понятия из теории деревьев решений следующие:

                                                                                                                Объект      – пример, шаблон, наблюдение;

                                                                                                                Атрибут     – признак, независимая переменная, свойство;

                                                                                                                Метка класса – зависимая переменная, целевая переменная, признак определяющий класс объекта;

                                                                                                                Узел – внутренний вершина дерева, узел проверки;

                                                                                                                Лист – конечный узел дерева, узел решения;

                                                                                                                Проверка  – условие в узле.

Деревья решений являются способом представления правил в иерархической, последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение (рисунок 9.1). Под правилом понимается логическая конструкция, представленная в виде «если … то …».

Область применения деревья решений в следующие три класса:

• оисание данных: Деревья решений позволяют хранить информацию о данных в компактной форме, вместо них мы можем хранить дерево решений, которое содержит точное описание объектов.

• классификация: Деревья решений отлично справляются с задачами классификации, т.е. отнесения объектов к одному из заранее известных классов. Целевая переменная должна иметь дискретные значения.

• регрессия: Если целевая переменная имеет непрерывные значения, деревья решений позволяют установить зависимость целевой переменной от независимых(входных) переменных. Например, к этому классу относятся задачи численного прогнозирования (предсказания значений целевой переменной).

Рисунок 9.1 – Диаграмма дерева решений.

Деревья решений находят применение при решении задач:

• описание данных: деревья решений позволяют хранить в компактной форме информацию о данных, которая представляет собой полное и точное описание объектов;

• классификация: деревья решений позволяют успешно решать задачи отнесения объектов к одному из заранее известных классов, если целевая переменная имеет дискретные значения;

• регрессия: деревья решений позволяют установить зависимость непрерывной целевой переменной от независимых (входных) переменных и предсказать её значение.


Дата добавления: 2018-10-26; просмотров: 728; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!