Задачи и стадии интеллектуального анализа данных.



1. Задача классификации заключается в том, что для каждого варианта определяется категория или класс, которому он принадлежит. В качестве примера можно привести оценку кредитоспособности потенциального заемщика: назначаемые классы здесь могут быть "кредитоспособен" и "некредитоспособен".

2. Задача регрессии во многом схожа с задачей классификации, но в ходе ее решения производится поиск шаблонов для определения числового значения. Иными словами, предсказываемый параметр здесь, как правило, число из непрерывного диапазона.

3. задача прогнозирования новых значений на основании имеющихся значений числовой последовательности (или нескольких последовательностей, между значениями в которых наблюдается корреляция). При этом могут учитываться имеющиеся тенденции (тренды), сезонность, другие факторы. Классическим примером является прогнозирование цен акций на бирже.

4. Задача кластеризации - заключается в делении множества объектов на группы (кластеры) схожих по параметрам. При этом, в отличие от классификации, число кластеров и их характеристики могут быть заранее неизвестны и определяться в ходе построения кластеров исходя из степени близости объединяемых объектов по совокупности параметров.

5. Задача определения взаимосвязей заключается в определении часто встречающихся наборов объектов среди множества подобных наборов. Классическим примером является анализ потребительской корзины, который позволяет определить наборы товаров, чаще всего встречающиеся в одном заказе (или в одном чеке). Эта информация может потом использоваться при размещении товаров в торговом зале или при формировании специальных предложений для группы связанных товаров.

Этапы ИАД:

Традиционно выделяются следующие этапы в процессе интеллектуального анализа данных:

1. Изучение предметной области, в результате которого формулируются основные цели анализа.

2. Сбор данных.

3. Предварительная обработка данных:

a. Очистка данных - исключение противоречий и случайных "шумов" из исходных данных

b. Интеграция данных - объединение данных из нескольких возможных источников в одном хранилище

c. Преобразование данных. На данном этапе данные преобразуются к форме, подходящей для анализа. Часто применяется агрегация данных, дискретизация атрибутов, сжатие данных и сокращение размерности.

4. Анализ данных. В рамках данного этапа применяются алгоритмы интеллектуального анализа с целью извлечения паттернов.

5. Интерпретация найденных паттернов. Данный этап может включать визуализацию извлеченных паттернов, определение действительно полезных паттернов на основе некоторой функции полезности.

6. Использование новых знаний.

 

Классификация как метод ИАД

Классификация – это процесс упорядочивания по некоторому принципу множества объектов, которые имеют признаки для определения сходства или различия между этими объектами. Нахождение моделей или функций, которые описывают и различают классы, позволяет предсказывать класс произвольного заданного объекта с известными атрибутами, но неизвестной меткой класса.

Классификация требует соблюдения следующих правил:

- в каждом акте деления необходимо применять только одно основание;

- деление должно быть соразмерным, т.е. общий объем видовых понятий должен равняться объему делимого родового понятия;

- члены деления должны взаимно исключать друг друга, их объемы не должны перекрещиваться;

- деление должно быть последовательным.

Классификация – это закономерность, позволяющая делать вывод относительно определения характеристик конкретной группы. Таким образом, проведение классификации требует наличия признаков, характеризующих группу, к которой принадлежит то или иное событие или объект (обычно при этом на основании анализа уже классифицированных событий формулируются некие правила).

Классификация относится к стратегии обучения с учителем, которое также именуют контролируемым или управляемым обучением. Задачей классификации часто называют предсказание категориальной зависимой переменной (т.е. зависимой переменной, являющейся категорией) на основе выборки непрерывных и/или категориальных переменных.

Например, можно предсказать, кто из клиентов фирмы является потенциальным покупателем определенного товара, а кто – нет, кто воспользуется услугой фирмы, а кто – нет, и т.д. Этот тип задач относится к задачам бинарной классификации, в них зависимая переменная может принимать только два значения (например, да или нет, 0 или 1).

Другой вариант классификации возникает, если зависимая переменная может принимать значения из некоторого множества предопределенных классов, например, когда необходимо предсказать, какую марку автомобиля захочет купить клиент. В этих случаях рассматривается множество классов для зависимой переменной.

Классификация может быть одномерной (по одному признаку) и многомерной (по двум и более признакам).

Набор исходных данных разбивают на два множества: обучающее и тестовое.

Обучающее множество (training set) – множество, которое включает данные, использующиеся для обучения (конструирования) модели. Такое множество содержит входные и выходные (целевые) значения примеров. Выходные значения предназначены для обучения модели.

Тестовое множество (test set) также содержит входные и выходные значения примеров. Здесь выходные значения используются для проверки работоспособности модели.

Процесс классификации состоит из двух этапов: конструирования модели и ее использования. Использование модели заключается в классификации новых или неизвестных значений. Известные значения из тестового примера сравниваются с результатами использования полученной модели. Уровень точности – процент правильно классифицированных примеров в тестовом множестве. Если точность модели допустима, возможно использование модели для классификационных примеров, класс которых неизвестен.

Оценка точности классификации может проводиться при помощи кросс-проверки. Кросс-проверка (Cross-validation) – это процедура оценки точности классификации на данных из тестового множества, которое также называют кросс-проверочным множеством. Точность классификации тестового множества сравнивается с точностью классификации обучающего множества. Если классификация тестового множества дает приблизительно такие же результаты по точности, как и классификация обучающего множества, считается, что данная модель прошла кросс-проверку.

 

 


Дата добавления: 2020-04-25; просмотров: 334; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!