Лекция 9. Классификация и регрессия

⇐ ПредыдущаяСтр 11 из 30Следующая ⇒

В лекции излагаются основы решения задач классификации с использованием математических функций и деревьев решений. Обсуждаются методы и алгоритмы построения деревьев решений.

Цель лекции – приобретение учащимися первоначальных знаний постановки задач классификации и их решения с применением инструментальных программных средств.

Задачи классификации и регрессии связаны с определением значений зависимой переменной объекта по значениям независимых переменных, характеризующих объекты [1,2]. Формальная постановка задачи осуществляется следующим образом. Дано множество объектов:

где – объект проведения анализа.

Объекты множества характеризуются одним и тем же набором переменных (атрибутов):

где – независимая переменная, значение которой известно; – зависимая переменная, принимающая значения на множестве .

Переменные принимают значения из множества . Множество может быть множеством (подмножеством) натуральных , целых или вещественных чисел. Если множество значений зависимой переменной конечное, то решается задача классификации. В случае решается задача регрессии [1].

Математические функции

С применением математической функции описывают зависимость зависимой переменной от независимых переменных. При этом объекты классификации и регрессии рассматриваются как точки в пространстве. Переменные объекта

рассматриваются как координаты, а функция имеет вид [1]:

где – веса независимых переменных.

Все независимые переменные соответствуют числовым параметрам. Логические переменные кодируются цифрами 0 и 1, категориальные переменные – номерами из списка возможных состояний объекта. Формально задачу построения функции классификации и регрессии можно описать выражением:

где F – множество возможных функций; – функция потерь; – известное значение зависимой переменной; – значение зависимой переменной, определяемое функцией f.

Для задач классификации и регрессии можно использовать различные функции потерь. Например, в случае бинарной классификации может использоваться функция потерь, определяемая выражением:

В случае вещественных переменных, как правило, используется разность значений ( ). Наиболее часто применяется минимизация квадратов разностей значений [1].

Правила классификации

Имеется множество объектов . Каждый объект характеризуется набором переменных . Правила классификации представляются в виде:

Условие предназначено для проверки значений одной или нескольких независимых переменных. В случае проверки значений нескольких переменных условие задаётся с применение логических операций «и», «или» и «не». Заключение определяет значение зависимой переменной или распределение вероятностей её вероятности по классам.

Правила классификации имеет ряд достоинств: запись на естественном языке и, как следствие, легкость восприятия; относительная независимость правил друг от друга. Относительная независимость обеспечивает легкость ввода нового правила в систему существующих правил. Однако относительная независимость может привести к противоречивости заключений. Это выражается в том, что переменные, характеризующие объект, могут удовлетворять условиям различных правил, имеющим различные заключения.

Деревья решений

Одним из методов автоматического анализа данных является метод деревьеврешений. Впервые идея создания деревьев решений приведена в работах Ховленда (Hoveland) и Ханта(Hunt), опубликованных в конце 50-х годов XX века. Основополагающей работой, инициировавшей развитие метода, является книга, изданная Хантом (Hunt, E.B.), Мэрина (Marin J.) и Стоуном (Stone, P.J) «Experiments in Induction» в 1966 г. Основные понятия из теории деревьев решений следующие:

Объект – пример, шаблон, наблюдение;

Атрибут – признак, независимая переменная, свойство;

Метка класса – зависимая переменная, целевая переменная, признак определяющий класс объекта;

Узел – внутренний вершина дерева, узел проверки;

Лист – конечный узел дерева, узел решения;

Проверка – условие в узле.

Деревья решений являются способом представления правил в иерархической, последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение (рисунок 9.1). Под правилом понимается логическая конструкция, представленная в виде «если … то …».

Область применения деревья решений в следующие три класса:

• оисание данных: Деревья решений позволяют хранить информацию о данных в компактной форме, вместо них мы можем хранить дерево решений, которое содержит точное описание объектов.

• классификация: Деревья решений отлично справляются с задачами классификации, т.е. отнесения объектов к одному из заранее известных классов. Целевая переменная должна иметь дискретные значения.

• регрессия: Если целевая переменная имеет непрерывные значения, деревья решений позволяют установить зависимость целевой переменной от независимых(входных) переменных. Например, к этому классу относятся задачи численного прогнозирования (предсказания значений целевой переменной).

Рисунок 9.1 – Диаграмма дерева решений.

Деревья решений находят применение при решении задач:

• описание данных: деревья решений позволяют хранить в компактной форме информацию о данных, которая представляет собой полное и точное описание объектов;

• классификация: деревья решений позволяют успешно решать задачи отнесения объектов к одному из заранее известных классов, если целевая переменная имеет дискретные значения;

• регрессия: деревья решений позволяют установить зависимость непрерывной целевой переменной от независимых (входных) переменных и предсказать её значение.

Дата добавления: 2018-10-26; просмотров: 728; Мы поможем в написании вашей работы!

Поделиться с друзьями:

⇐ Предыдущая 6 7 8 9 101112 13 14 15 Следующая ⇒

Мы поможем в написании ваших работ!