Кластерный анализ. Назначение. Ключевые понятия. Методы.



Кластерный анализ – это процедура упорядочивания объектов в сравнительно однородные классы на основе попарного сравнения этих объектов по предварительно определенным и измеренным критериям. Его цель - классификация, другими словами - типологическая группировка совокупностей массовых явлений на основе множества признаков.

Варианты кластерного анализа – это множество простых вычислительных процедур, используемых для классификации объектов.

Классификация объектов – это группирование их в классы так, чтобы объекты в каждом классе были более похожи друг на друга, чем на объекты других классов.

Существует много вариантов кластерного анализа, наиболее широко используются методы Иерархические агломеративные методы.

Задачи, в которых кластерный анализ будет наиболее эффективным:

Разбиение совокупности испытуемых на группы по измеренным признакам, с целью дальнейшей проверки причин межгрупповых различий по внешним критериям.

Применение кластерного анализа как значительно более простого и наглядного аналога факторного анализа, когда становится только задача группировки признаков на основе корреляции.

Классификация объектов на основе непосредственных оценок различий между ними.

Данными для применения кластерного анализа является матрица различий между всеми парами объектов.

Существует много вариантов кластерного анализа, наиболее широко используются иерархические агломеративные методы – методы, в которых классификация осуществляется путем последовательного объединения (агломерации) объектов в группы, оказывающиеся в результате иерархически организованными.

Результат работы метода представляется графически в виде дендрограммы.

Методы:

Метод одиночной связи (ближайшего соседа) – Алгоритм начинается с поиска двух наиболее близких объектов, пара которых образует первичный кластер. Каждый последующий объект присоединяется к тому кластеру, к одному из объектов которого он ближе. Данный метод имеет тенденцию к образованию небольшого числа крупных кластеров. А результаты его применения часто не дают возможности определить, как много кластеров находится в данных.

Метод полной связи (дальнего соседа) – Новый объект присоединяется к тому кластеру, самый далекий элемент которого находится ближе к новому объекту, чем самые далекие элементы других кластеров. Наблюдается тенденция к большему выделению числа компактных кластеров, состоящих из наиболее похожих элементов.

Метод средней связи (межгрупповой связи) – занимает промежуточное положение. На каждом шаге вычисляется среднее арифметическое расстояние между каждым объектом из одного кластера и каждым объектом из другого. Объект присоединяется к данному кластеру, если это среднее расстояние меньше, чем среднее расстояние до любого другого кластера. Этот метод может давать наиболее точные результаты классификации, чем остальные.

Отдельной проблемой кластерного анализа является численность классов. Не существует формальных критериев, позволяющих определить их оптимальное число. Это определяется исследователем самостоятельно. Однако, для предварительного определения числа классов исследователь может обратиться к таблице последовательности агломерации. Эта таблица позволяет проследить динамику увеличения различий по шагам кластеризации и определить шаг, на котором отмечается резкое возрастание различий. Оптимальному числу кластеров соответствует разность между числом объектов и порядкового номера шага, на котором обнаружен перепад различий.

 

 

Вопрос 20 – Этапы кластерного анализа и их характеристика.

 

1.отбор объектов для кластеризации – объектами могут быть, в зависимости от цели исследования: испытуемые; объекты, которые оцениваются испытуемыми; признаки, измеренные на выборке испытуемых.

2.определение множества переменных, по которым будут различаться объекты кластеризации. Для испытуемых – это набор измеренных признаков, для оцениваемых объектов – субъекты оценки, признаков – испытуемые. Если в качестве исходных данных предполагается использовать результаты попарного сравнения объектов, необходимо четко критерии этого сравнения испытуемыми (экспертами).

3.определение меры различия – между объектами кластеризации. Это первая проблема, которая является специфичной для методов анализа различий: многомерного шкалирования и кластерного анализа.

4.выбор и применение метода классификации – для создания групп сходных объектов. Это вторая и центральная проблема кластерного анализа. Её весомость связана с тем, что разные методы клстеризации порождают разные группировки для одних и тех же данных. Хотя анализ и заключается в обнаружении структуры, на деле в процессе кластеризации структура привносится в данные, и эта привнесенная структура может не совпадать с реальной.


Дата добавления: 2019-09-02; просмотров: 595; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!