Статистическая классификация. Расстояние Махаланобиса.



Статистическая классификация по параметрическому правилу учитывает не только положение центра класса, но и особенности статистического рассеяния сигнатур пикселей вокруг этого центра.   Во всех случаях предполагается, что значения признаков по классам распределены по нормальному закону. Плотность многомерного нормального распределения для k-го класса описывается выражением

 

pk(x)=1/[(2p)n/2|Ck|1/2 ]exp[-1/2(x-mk)TCk-1(x-mk)]. (22)

 

Здесь Сk - ковариационная матрица Ck={sijk}, определенная нами ранее в разделе 6.3 формулой (13).

Выражение (x-mk)TCk-1(x-mk) называют квадратичным расстоянием Махаланобисамежду точкой x и mk - центром k-го класса. Геометрическому месту точек в признаковом пространстве с одинаковым расстоянием Махаланобиса доmk, соответствует поверхность определенного гиперэллипсоида рассеяния с центром mk (сечение «гиперколокола» плотности многомерного нормального распределения). 

В случае, когда все n признаков статистически независимы, то есть векторы базиса ортогональны в признаковом пространстве, матрица Ck становится диагональной. Тогда расстояние Махаланобиса приобретает достаточно простой вид:

(x-mk)TCk-1(x-mk)= . (23)

В этом случае оси эллипсоида рассеяния будут параллельны осям координат признакового пространства. Если это не так, но оси эллипсоидов рассеяния примерно одинаково ориентированы для всех выделяемых классов, то можно сделать преобразование координат к главным компонентам, и в новой системе координат условие (23) будет выполняться.

Единицей измерения расстояния Махаланобиса служит поверхность гиперэллипсоида рассеяния,  проходящая через точки перегиба поверхности «гиперколокола» нормального распределения. В одномерном случае, изображенном на рис.2 в разделе 5, это точки, соответствующие значениям x=m-s, x=m+s (уровень одного s). Распространяя определение на многомерный случай, получаем единицы измерения расстояния Махаланобиса – s*k, где k- любое положительное число. Но поскольку на уровне 3s гиперэллипсоид рассеяния охватывает практически все множество точек статистической выборки, реально используются значения k в диапазоне (0,3).

Классификация по расстоянию Махаланобиса. Эллипсоиды рассеяния для разных классов объектов земной поверхности чаще всего имеют разные размеры и ориентацию в пространстве признаков. В такой ситуации как раз и удобно использовать расстояние Махаланобиса. Точка x будет относиться к тому классу, в котором она окажется ближе к его центру m в долях s для сечения функции плотности распределения, проходящего через точку m и точку х.

Различие между классификацией по евклидову расстоянию и расстоянию Махаланобиса иллюстрирует рис. 25. Если эллипсоиды рассеяния для классов с центрами m1, m2, m3 соответствуют уровню 3s, то все точки, принадлежащие данным классам, попадают внутрь этих эллипсоидов и по расстоянию Махаланобиса будут расклассифицированы корректно. Границы классов для классификации по евклидову расстоянию показаны пунктиром. В этом случае точки из заштрихованных областей попадут в чужой класс.

На практических результатах классификации ошибки, показанные на рис.25, при нормальном распределении сигнатур пикселей внутри классов, могут отразиться незначительно, поскольку доля пикселей на краях диаграммы рассеяния в случае нормального распределения крайне мала (см. раздел 5). Но когда эллипсоиды рассеяния классов хотя бы сколько-то перекрываются, ошибки при использовании евклидова расстояния могут возрасти существенно. И в этом случае расстояние Махаланобиса будет иметь явное преимущество.

 

Проблемы с методами классификации, в которых используются ковариационные матрицы, возникают в тех случаях, когда один из классов в каком-то канале имеет дисперсию, близкую к нулевой. Это приводит к вырождению ковариационной матрицы и, соответственно, к делению на ноль в выражении (22). Поэтому, если модуль статистической классификации отказывается работать или работает некорректно, необходимо проверить, нет ли среди эталонов классов «идеально однородного» в каком-то из каналов. Аналогичная ситуация может возникнуть, если для какого-то класса корреляция между одной из пар каналов близка к единице.

Классификация по минимуму евклидова расстояния применима во всех таких случаях. Для изображений, где преобладают однородные по яркости объекты (вода, почва, травянистая растительность), она оказывается значительно эффективнее статистических методов. Пример такого изображения приведен на рис. 26.

  Для изображения, на котором представлены менее однородные по яркости объекты, ошибки классификации по евклидову расстоянию могут оказаться совершенно неприемлемыми. Если оценка ожидаемой ошибки классификации этим методом на эталонах (см. раздел 7.7) не дает удовлетворительного результата, то можно попробовать исключить из обработки один из пары слишком сильно коррелированных каналов. Если же это существенно ухудшит разделимость остальных классов, лучше заменить выборки наиболее однородных объектов на менее однородные. 

 


Дата добавления: 2018-05-12; просмотров: 799; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!