Неконтролируемая классификация.



 

Если нужно сделать быструю оценку, сколько классов разделяется по спектральным признакам наиболее надежно и где они сосредоточены на изображении, в качестве предварительной оценки можно выполнить неконтролируемую классификацию. Многие специалисты пользуются так называемой двухэтапной схемой тематической обработки. На первом этапе выполняется неконтролируемая классификация на большое количество классов и проводится анализ полученного результата. Те классы, которые соответствуют реальным тематическим объектам, оставляются, остальные, распределившиеся по изображению случайным образом, либо объединяются с уже отобранными классами по близости их спектральных характеристик и относительному расположению на изображении, либо группируются так, чтобы получить еще какие-то интерпретируемые объекты. 

Метод неконтролируемой классификации, предлагаемый в пакете ERDAS Imagine, как и в других пакетах тематической обработки аэрокосмической информации, относится к алгоритмам кластерного анализа класса ISODATA.

Кластером, в самом общем понимании, называют группу образов {xi}, удовлетворяющих условию:

||xi-xk||<d,          (21)              

 

где ||.|| - мера сходства между образами,

d - заданное пороговое ограничение по этой мере. В качестве меры сходства чаще всего используется евклидова метрика, определенная ранее выражением (20).

Иногда кластеры называют таксонами, а кластерный анализ - таксономией.

Методы построения кластеров, по сути, являются эвристическими процедурами. В них изначально предполагается, что образы исследуемых объектов или явлений имеют естественную тенденцию к группировке вокруг некоторых характерных значений, которые называют центрами кластеров. Чем сильнее выражена эта тенденция, тем более успешно при решении задачи могут использоваться методы кластерного анализа. Для многозональных изображений такие центры будут соответствовать пикам n-мерной гистограммы.

Поскольку в методах классификации по яркостным признакам предполагается, что сигнатуры классов распределены по нормальному закону, под центром кластера подразумевается вектор средних значений mпо выделенной группе.

При появлении многозональных космических сканеров кластерный анализ был одним из первых подходов, использованным при цифровой обработке многозональных сканерных изображений. Это объясняется тем, что при разрешении цифрового изображения несколько сотен метров на пиксель надежно разделяются только крупные элементы ландшафта подстилающей поверхности (водные объекты, лесные массивы, сельскохозяйственные угодья, открытые почвы, застройка, и т.п.). Эти объекты, как правило, хорошо различаются по спектральным характеристикам в том или ином спектральном диапазоне и достаточно однородны по яркости благодаря сглаженности сцены. При таких условиях должна существовать тенденция к образованию групп в пространстве спектральных яркостных признаков Х. Однако при высоком пространственном разрешении (20 и меньше м на пиксель), из-за увеличения общего числа объектов, различающихся по спектральным яркостным признакам, эта тенденция прослеживается слабее, и применение неконтролируемой классификации далеко не всегда приводит к адекватным результатам.

Основным недостатком такой классификации является отсутствие взаимосвязи пространства яркостных признаков с системой координат изображения. Выявленные кластеры далеко не всегда совпадают с теми объектами, которые интересуют обработчика. Именно поэтому методы кластерного анализа в пакетах обработки данных ДЗ называют неконтролируемойилинепомеченной классификацией.

Наиболее раcпространенные методы кластерного анализа можно условно разделить на две группы.

1. Методы выявления (выращивания) кластеров при заданном пороговом ограничении на расстояние между точками множества.

      2. Методы формирования кластеров при заданном количестве групп.

В первом подходе количество кластеров, как правило, априори неизвестно. Исходными данными при такой постановке задачи являются пороговое ограничение расстояния d и правила группировки элементов множества. В результате количество и форма кластеров сильно зависят от выбранного метода анализа, величины порога и начальных условий.

По методам формирования кластеров в этом подходе выделяются односвязывающие методы (анализ элементов, ближайших к текущему), полносвязывающие методы (анализ наиболее удаленных элементов), и среднесвязывающие методы. Некоторые разновидности этих методов рассматриваются в [8,9].

Во втором подходе задается исходное количество центров кластеров, которые в процессе анализа перемещаются таким образом, чтобы заданные требованиям к кластерам выполнялись наилучшим образом. Как правило, здесь имеется критерий качества кластеризации, который в процессе формирования кластеров максимизируется (или минимизируется).

Именно к этой группе алгоритмов относятся алгоритмы класса ISODATA(Iterative Self-Organizing Data Analysis Technique), которые сейчас присутствуют во всех в пакетах тематической обработки космических изображений.

В основе алгоритмов этого класса лежит метод кластеризации при заданном количестве групп (алгоритм K средних) [6]. Входными данными здесь являются K центров кластеров, выбранные произвольным образом или по определенной схеме из статистических свойств множества образов (в нашем случае диаграммы рассеяния сигнатур для всего изображения). Предполагается, что в плотных компактных кластерах центры должны совпадать с выборочными средними по группе (или отличаться на малую величину e).

Шаг итерации базового алгоритма К средних включает:   

 1) группировку всех точек в кластеры по минимуму расстояния до текущих центров;

2) расчет новых центров как выборочных средних по каждому кластеру.

Процедура выполняется до тех пор, пока кластеры и их центры не «стабилизируются». В результате этого процесса минимизируется средний внутригрупповой разброс точек и максимизируется среднее расстояние между центрами кластеров. 

В ERDAS Imagine реализован так называемый алгоритм Форджи [9], где качество результата оценивается по проценту точек, не перемещающихся из класса в класс в процессе очередной итерации (параметр convergence threshold). 

Скорость сходимости алгоритма для разных изображений неодинакова. В некоторых случаях, особенно при высоком пространственном разрешении, может потребоваться несколько десятков, а то и больше итераций. Поэтому во всех реализациях алгоритма допустимое число итераций определяется пользователем, как и необходимое число кластеров.

Общая схема алгоритма ISODATA включает три основных блока:

- блок аппроксимации (пересчета) центров кластеров, соответствующий базовому алгоритму K средних;

- блок дробления кластеров;

- блок слияния кластеров.

Необходимость дробления кластеров, при фиксированном требовании к их количеству, может возникнуть в тех случаях, когда некоторые из образованных на первой итерации кластеров содержат слишком мало точек, и их приходится ликвидировать. Для расщепления выбираются кластеры с наибольшим средним внутригрупповым расстоянием до центра (иначе говоря, с большим эллипсоидом рассеяния). Каждый из отобранных кластеров расщепляется на два по координате с наибольшим разбросом.

Поскольку расщепление кластеров выполняется по формальным признакам, в результате их может образоваться больше, чем требуется. Отсюда возникает необходимость в последующем объединении кластеров до требуемого количества K. Кластеры объединяются попарно; в качестве кандидатов на слияние отбирается необходимое количество пар с минимальными расстояниями между центрами.

Ясно, что такая схема, кроме требуемого числа кластеров K и допустимого числа итераций I, требует достаточно большого числа параметров настройки. Перечислим наиболее важные:

1) минимальное допустимое количество точек в кластере – для устранения слишком маленьких групп;

2) максимальный средний внутригрупповой разброс (среднее расстояние до центра) и средний внутригрупповой разброс по всем кластерам – для отбора кандидатов на расщепление;

3) минимальное допустимое расстояние между центрами – для отбора пар – кандидатов на слияние.

Часто используется такой параметр, как допустимое количество пар для слияния, хотя он, вообще говоря, может быть определен из условий текущей итерации.

Наибольшее количество параметров настройки предлагается пользователю в пакете ENVI. Более того, в нем имеются два варианта кластеризации: метод K средних в «чистом» виде и полный алгоритм ISODATA с большим количеством параметров настройки. Однако эти дополнительные возможности на практике приводят к усложнению процесса анализа, и получение хорошо интерпретируемого результата кластеризации требует значительных усилий.

В процедуре неконтролируемой классификации пакета ERDAS Imagine задается только два входных параметра: число кластеров и количество итераций. Более того, можно обрабатывать даже не каждый пиксель, задавая Skip factor по строке и столбцу изображения (X и Y). Но это дает еще более грубую прикидку положения кластеров, и вряд ли имеет смысл использовать эти параметры на небольших объемах информации.

 В реализации алгоритма, предлагаемой ERDAS Imagine, используется линейная схема задания исходных центров кластеров по статистке изображения (рис.23). Пользователю предлагается только два варианта: равномерное расположение исходных центров на диагонали гиперкуба, образуемого осями координат пространства признаков, или же по направлению наибольшего рассеяния точек в признаковом пространстве (главной компоненте). Однако, как было доказано (Селим и Исмаил,1984) [10], алгоритм K средних обеспечивает сходимость только к локальным максимумам гистограммы изображения. Следовательно, результат в целом будет зависеть от начального положения центров кластеров.

 

Кроме того, максимизация среднего разброса между центрами кластеров приводит к их расположению вдоль главной компоненты, то есть по направлению наибольшего разброса сигнатур пикселей. Поэтому один из предлагаемых способов задания центров (по главной компоненте) фактически сводит к минимуму сам итерационный процесс: кластеры почти не смещаются.

В этом смысле способ задания центров по диагонали гиперкуба несколько интереснее, но тоже недостаточно эффективен. Наиболее удачный  результат обычно дает выбор исходных центров самим обработчиком. В ERDAS Imagine для этого надо выбрать в окне функции неконтролируемой классификации режим Signature Means и задать собственный входной файл сигнатур. Сигнатуры можно набрать по разным типам объектов изображения или в наиболее информативной проекции диаграммы рассеяния на пару каналов. Однако и в этом случае количество классов не регулируется в процессе кластеризации и всегда соответствует исходному количеству. Поэтому весь эффект кластеризации сводится к поиску ближайших к заданным сигнатурам областей сгущения точек в признаковом пространстве (локальных пиков многомерной гистограммы). Это обеспечивает несколько лучший результат, чем при обычной классификации по минимуму расстояния, но только в том случае, если классы действительно однородны по яркости.

 

Количество разделяющихся интерпретируемых классов можно увеличить, задавая большее количество исходных центров, но некоторые классы, даже относительно однородные, разделить при неконтролируемой классификации удается далеко не всегда. Это, прежде всего, классы объектов с относительно низкой спектральной отражательной способностью – вода, еловый лес, болота и т.п. Примеры таких классов на диаграмме рассеяния в красном и ближнем ИК диапазонах для изображения tm_860516.img из папки EXAMPLES пакета ERDAS Imagine (ETM+/Lansat-7) показаны на рис.24. Оттенками серого здесь изображены кластеры, выделенные алгоритмом ISODATA. Участки, соответствующие различным классам воды, обведены пунктиром. Все они попали в один класс, охватывающий весь нижний «клин» диаграммы рассеяния.

Чем больше размерность признакового пространства, тем больше классов нужно задавать для получения приемлемого по качеству результата. Поэтому наилучший результат неконтролируемая классификация дает на 2-4 наиболее информативных каналах. В ERDAS Imagine это подмножество можно предварительно создать с помощью функции Subset Image блока DataPrep.

Функция неконтролируемой классификацииUnsupervised Classification в ERDAS Imagine может быть вызвана в двух блоках: Data Prepи Classifier. В первом случае мы получим только картинку - тематический слой, где каждый класс (кластер) раскрашен своим цветом или оттенком серого. Используя функцию Raster->Attributes из меню редактора изображений, можно раскрасить полученные классы в удобные для интерпретации цвета и получить в результате некоторую тематическую карту-гипотезу. Однако, с учетом особенностей алгоритма, лучше воспользоваться функцией неконтролируемой классификации из блока   Classifier. Здесь в процессе кластеризации можно создать файл сигнатур кластеров и проанализировать не только положение классов на изображении, но также их спектральные профили и взаимное положение на диаграмме рассеяния в пространстве спектральных яркостей.  В этом случае группировка классов будет выполнена более точно и обоснованно.

Подробное описание процесса кластеризации, а также анализа и группировки кластеров в пакете ERDAS Imagine, имеется в методическом пособии [1].


Дата добавления: 2018-05-12; просмотров: 863; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!