Лекция 9. Классификация и регрессия
В лекции излагаются основы решения задач классификации с использованием математических функций и деревьев решений. Обсуждаются методы и алгоритмы построения деревьев решений.
Цель лекции – приобретение учащимися первоначальных знаний постановки задач классификации и их решения с применением инструментальных программных средств.
Задачи классификации и регрессии связаны с определением значений зависимой переменной объекта по значениям независимых переменных, характеризующих объекты [1,2]. Формальная постановка задачи осуществляется следующим образом. Дано множество объектов:
,
где – объект проведения анализа.
Объекты множества характеризуются одним и тем же набором переменных (атрибутов):
,
где – независимая переменная, значение которой известно; – зависимая переменная, принимающая значения на множестве .
Переменные принимают значения из множества . Множество может быть множеством (подмножеством) натуральных , целых или вещественных чисел. Если множество значений зависимой переменной конечное, то решается задача классификации. В случае решается задача регрессии [1].
Математические функции
С применением математической функции описывают зависимость зависимой переменной от независимых переменных. При этом объекты классификации и регрессии рассматриваются как точки в пространстве. Переменные объекта
|
|
рассматриваются как координаты, а функция имеет вид [1]:
где – веса независимых переменных.
Все независимые переменные соответствуют числовым параметрам. Логические переменные кодируются цифрами 0 и 1, категориальные переменные – номерами из списка возможных состояний объекта. Формально задачу построения функции классификации и регрессии можно описать выражением:
,
где F – множество возможных функций; – функция потерь; – известное значение зависимой переменной; – значение зависимой переменной, определяемое функцией f.
Для задач классификации и регрессии можно использовать различные функции потерь. Например, в случае бинарной классификации может использоваться функция потерь, определяемая выражением:
В случае вещественных переменных, как правило, используется разность значений ( ). Наиболее часто применяется минимизация квадратов разностей значений [1].
Правила классификации
Имеется множество объектов . Каждый объект характеризуется набором переменных . Правила классификации представляются в виде:
.
Условие предназначено для проверки значений одной или нескольких независимых переменных. В случае проверки значений нескольких переменных условие задаётся с применение логических операций «и», «или» и «не». Заключение определяет значение зависимой переменной или распределение вероятностей её вероятности по классам.
|
|
Правила классификации имеет ряд достоинств: запись на естественном языке и, как следствие, легкость восприятия; относительная независимость правил друг от друга. Относительная независимость обеспечивает легкость ввода нового правила в систему существующих правил. Однако относительная независимость может привести к противоречивости заключений. Это выражается в том, что переменные, характеризующие объект, могут удовлетворять условиям различных правил, имеющим различные заключения.
Деревья решений
Одним из методов автоматического анализа данных является метод деревьеврешений. Впервые идея создания деревьев решений приведена в работах Ховленда (Hoveland) и Ханта(Hunt), опубликованных в конце 50-х годов XX века. Основополагающей работой, инициировавшей развитие метода, является книга, изданная Хантом (Hunt, E.B.), Мэрина (Marin J.) и Стоуном (Stone, P.J) «Experiments in Induction» в 1966 г. Основные понятия из теории деревьев решений следующие:
Объект – пример, шаблон, наблюдение;
|
|
Атрибут – признак, независимая переменная, свойство;
Метка класса – зависимая переменная, целевая переменная, признак определяющий класс объекта;
Узел – внутренний вершина дерева, узел проверки;
Лист – конечный узел дерева, узел решения;
Проверка – условие в узле.
Деревья решений являются способом представления правил в иерархической, последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение (рисунок 9.1). Под правилом понимается логическая конструкция, представленная в виде «если … то …».
|
|
Область применения деревья решений в следующие три класса:
• оисание данных: Деревья решений позволяют хранить информацию о данных в компактной форме, вместо них мы можем хранить дерево решений, которое содержит точное описание объектов.
• классификация: Деревья решений отлично справляются с задачами классификации, т.е. отнесения объектов к одному из заранее известных классов. Целевая переменная должна иметь дискретные значения.
• регрессия: Если целевая переменная имеет непрерывные значения, деревья решений позволяют установить зависимость целевой переменной от независимых(входных) переменных. Например, к этому классу относятся задачи численного прогнозирования (предсказания значений целевой переменной).
Рисунок 9.1 – Диаграмма дерева решений.
Деревья решений находят применение при решении задач:
• описание данных: деревья решений позволяют хранить в компактной форме информацию о данных, которая представляет собой полное и точное описание объектов;
• классификация: деревья решений позволяют успешно решать задачи отнесения объектов к одному из заранее известных классов, если целевая переменная имеет дискретные значения;
• регрессия: деревья решений позволяют установить зависимость непрерывной целевой переменной от независимых (входных) переменных и предсказать её значение.
Дата добавления: 2018-10-26; просмотров: 728; Мы поможем в написании вашей работы! |
Мы поможем в написании ваших работ!