Лекция 10. Поиск ассоциативных правил



Тема лекции посвящена вопросам постановки и решения задачи поиска ассоциативных правил, представления обнаруженных закономерностей в последовательностях данных.  

Цель лекции – изучение формализованной постановки и алгоритма решения задачи поиска ассоциативных правил.

 

Впервые задача поиска ассоциативных правил (association rule mining) предложена для нахождения типичных шаблонов покупок, совершаемых посетителями супермаркетов. Поэтому данную задачу иногда называют анализом рыночной корзины (market basket analysis). При этом под рыночной корзиной понимают набор товаров, приобретенных покупателем в рамках одной отдельно взятой транзакции, описывающей результаты посещения супермаркета. Таким образом, транзакция представляет собой множество событий, произошедших одновременно. Регистрируя результаты посещений в течение длительного времени, торговые компании накапливают огромные собрания транзакций. В результате анализа формируются шаблоны, включающие перечень товаров и число транзакций, содержащих данные наборы. Кроме того, устанавливается закономерность вида: "Если в транзакции встретился набор товаров (элементов) A, то в этой же транзакции должен присутствовать набор товаров (элементов) B)". Установление таких закономерностей позволяет находить очень простые и понятные правила, называемые ассоциативными [1, 2].

Формальная постановка задачи

Множество объектов представляется в виде:

,

где  – общее количество объектов.

Наборы из объектов, составляющих , называются транзакциями. Пример транзакции приведён ниже:

Идентификатор транзакции Приобретённые продукты
100 Хлеб, молоко, печенье
200 Молоко, сметана
300 Молоко, хлеб, сметана, печенье
400 Колбаса, сметана
   
       

Каждую транзакцию представляют как подмножество множества :

.

Такие транзакции в магазине соответствуют наборам товаров, приобретаемых покупателями и сохраняемых в базе данных. Примем  и сформируем множество транзакций :

; ;

;        .

Множество транзакций, в которые входит объект  представим в виде:

В приведённом примере множество транзакций, содержащих объект , имеет следующий вид: . Произвольный набор объектов, задаваемый аналитиком, обозначим в виде: . Например, набор из двух объектов . Множество транзакций, содержащих набор объектов , зададим в виде: . В нашем случае .

Отношение количества транзакций, содержащих набор , к общему количеству транзакций называется поддержкой (support):

.

Для заданного набора поддержка равна 0,5. При анализе данных задаётся минимальное значение поддержки для заданного набора. Если значение поддержки набора  больше заданного минимального значения , то набор называют частым (large itemset). В результате решения задачи поиска ассоциативных правил находится множество всех частых наборов: . Для множества  и  множество частых наборов имеет вид: L = { , , , , , , , , }.


Дата добавления: 2018-10-26; просмотров: 420; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!