Представление результатов кластеризации



Кластерная модель представляет описание кластеров и принадлежность к одному из них каждого объекта из исходного множества. В случае небольшого числа объектов, характеризующихся двумя переменными, результаты можно изобразить посредством элементарных фигур (треугольников, четырехугольников), соответствующих объектам, и множества прямых линий [3]. На рисунке 8.1 представлена диаграмма, характеризующая разделение объектов с двумя атрибутами (параметрами).

 Рисунок 8.1 – Разделение на кластеры

Если кластеры нельзя разделить прямыми линиями, то границы кластеров изображаются с применением ломаных линий. Принадлежность объекта к нескольким кластерам можно изобразить с применением Венских диаграмм.

В случае нечёткой кластеризации принадлежность объекта к кластеру оценивают вероятностью принадлежности или степенью принадлежности. В этом случае результат можно представить в виде таблицы, в которой строки соответствуют объектам, столбцы – кластерам. В ячейках таблицы указывается вероятность или степень.

Некоторые алгоритмы кластеризации строят структуры кластеров. Самый верхний уровень в структуре соответствует всему множеству объектов в виде единственного кластера. На следующем уровне множество делится на несколько кластеров, каждый из которых также делится на несколько кластеров. В принципе, построение иерархии может продолжаться до представления каждого объекта отдельным кластером. Визуализация таких структур выполняется в виде дендограмм (dendrograms). Существует различные способы построения дендограмм [1].

Краткие итоги

§ Задача кластеризации предполагает разделение множества объектов на кластеры (cluster) или классы, таксоны, сгущения, группы. В кластерном анализе различие объектов по атрибутам (переменным) не учитывается.

§ В задачах кластеризации мера близости объектов определяется из представления объектов в виде точек - мерного пространства. Наибольшее применение находят меры: евклидово расстояние, расстояние по Хеммингу, расстояние Чебышева и расстояние Махаланобиса.

§ В иерархических агломеративных алгоритмах кластеризации исходное множество объектов  представляется как множество кластеров . Кластеры с наименьшим удалением сливаются в общий кластер. Процедуру повторяют до выполнения условия остановки алгоритма.  

§  В иерархических дивизимных алгоритмах кластеризации исходное множество объектов  представляется как единственный кластер. Разделение кластера выполняют по критерию наибольшей удалённости объектов. Алгоритмы различаются способом выбора кластера для разделения.      

§ В неиерархических алгоритмах на первом шаге кластеризации задаются произвольные центры кластеров и точность кластеризации. Последующие шаги связаны с разделением объектов по критерию близости к центрам кластеров и вычислению новых центров кластеров.

Контрольные вопросы

1. В задаче кластеризации отнесение объекта, характеризуемого множеством параметров, осуществляется:

а) к одному заранее определённому аналитиком классу;

б) к одному заранее определённому аналитиком контейнеру;

в) к одному заранее неопределённому классу;

г) к одному заранее определённому экземпляру сущности.

2. Параметры, характеризующие объекты кластерного анализа, могут принимать значения из множества:

а) комплексных чисел;

б) нечётких вещественных чисел;

в) вещественных чисел;

г) лингвистических оценок.

3. Мера близости объектов в кластерном анализе характеризуется:

а) весовыми коэффициентами для пересчёта расстояний;

б) количеством объектов, входящих в кластер;

в) расстоянием между объектами из заданного набора;

г) разностью значений между параметрами объекта.

4. В иерархических дивизимных алгоритмах кластеризации на первом шаге количество кластеров определяется:

а) количеством объектов из анализируемого набора;

б) параметрами, характеризующими алгоритмы кластеризации;

в) требованиями из поставленной задачи кластеризации;

г) требованиями лица принимающего решения.

5. В неиерархических алгоритмах процедура разбиения объектов на кластеры завершается при выполнении условия:

а) количество объектов в кластерах не меньше заданного значения;

б) расстояния между кластерами имеют минимальное значение;

в) количество сформированных кластеров равно заданному значению;

г) центры и границы сформированных кластеров не меняются.

Литература

1. Барсегян А.А. Методы и модели анализа данных: OLAP и Data Mining / Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. – СПб.: БХВ-Петербург, 2004. – 336 с.

2. Ларсон Б. Разработка бизнес-аналитики в SQL Server 2005. – СПб.: Питер, 2008. – 684 с.

3. Microsoft SQL Server 2008: Data mining – интеллектуальный анализ данных. Пер. с англ. / Дж. Макленнен, Чж. Танг, Б. Криват. – БХВ-Петербург. 2009. – 720 с.

4. Мандель И.Д. Кластерный анализ. ­– М.: финансы и статистика. 1988. – 176 с.

 


Дата добавления: 2018-10-26; просмотров: 641; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!