Определение регрессионной модели. Логистическая регрессионная модель. Использование логистической модели для классификации.

Иерархическая кластеризация. Дендограмма.

Иерархическая кластеризация (также графовые алгоритмы кластеризации) — совокупность алгоритмов упорядочивания данных, визуализация которых обеспечивается с помощью графов.

Алгоритмы упорядочивания данных указанного типа исходят из того, что некое множество объектов характеризуется определённой степенью связности. Предполагается наличие вложенных групп (кластеров различного порядка). Алгоритмы, в свою очередь, подразделяются на агломеративные (объединительные) и дивизивные (разделяющие). По количеству признаков иногда выделяют монотетические и политетические методы классификации. Как и большинство визуальных способов представления зависимостей графы быстро теряют наглядность при увеличении числа объектов.

Под дендрограммойобычно понимается дерево, то есть граф без циклов, построенный по матрице мер близости. Дендрограмма позволяет изобразить взаимные связи между объектами из заданного множества[1]. Для создания дендрограммы требуется матрица сходства (или различия), которая определяет уровень сходства между парами объектов. Чаще используются агломеративные методы.

Далее необходимо выбрать метод построения дендрограммы, который определяет способ пересчёта матрицы сходства (различия) после объединения (или разделения) очередных двух объектов в кластер.

В работах по кластерному анализу описан довольно внушительный ряд способов построения (англ. sorting strategies) дендрограмм[2]:

1. Метод одиночной связи (англ. singlelinkage). Также известен, как «метод ближайшего соседа».

2. Метод полной связи (англ. completelinkage). Также известен, как «метод дальнего соседа».

3. Методсреднейсвязи (англ. pair-group method using arithmetic averages).

· Невзвешенный (англ. unweighted).

· Взвешенный (англ. weighted).

4. Центроидныйметод (англ. pair-group method using the centroid average).

· Невзвешенный.

· Взвешенный (медианный).

5. Метод Уорда (англ. Ward’smethod).

Центроидный метод использует для пересчёта матрицы расстояний[5]. В качестве расстояния между двумя кластерами в этом методе берётся расстояние между их центрами тяжести.

В методе Уорда в качестве расстояния между кластерами берётся прирост суммы квадратов расстояний объектов до центров кластеров, получаемый в результате их объединения[6]. В отличие от других методов кластерного анализа, для оценки расстояний между кластерами здесь используются методы дисперсионного анализа. На каждом шаге алгоритма объединяются такие два кластера, которые приводят к минимальному увеличению целевой функции, то есть внутригрупповой суммы квадратов. Этот метод направлен на объединение близко расположенных кластеров.

 

Оценка качества классификации.

Задачи классификации. Классификатор – это алгоритм соотносящий некие входные данные с одним или несколькими классами. В отличие от алгоритмов кластеризации эти классы должны быть определены заранее.

Возможно, кому-то это определение покажется слишком общими или академическим, поэтомулучше наверное рассмотреть задачу классификации на примерах. А примеров хоть отбавляй.

Они повсюду. Пожалуй самый яркий пример автоматической классификации – это фильтрация спама. Каждый день на мой ящик падает десятки если не сотни спам-писем, которые автоматически отфильтровываются из моего inbox’а.

Современные коммерческие системы способны успешно фильтровать спам с точностью превышающей 99%1. Другим довольно типичным примером классификации служит автоматическое определение тематики того или иного текста. Некоторые новостные аггрераторы используют подобный подход для группировки новостей в направления: экономика, политика, общественная жизнь и т.д.

Зачастую классификация является фундаментом на котором строятся алгоритмы решения более сложных задач. Например, классификация используется при создании рекомендательных систем и в частности при реализации коллаборативной фильтрации.

SafariReaderMode является еще одним примером где используются алгоритмы классификации для достижения конечной цели. Суть этого режима работы браузера заключается в том что он позволяет автоматически убрать со страницы всю шелуху не имеющую отношения к сути контента страницы

Классификация используется как инструмент для решения множества других задач:

  • снятие омонимии при обработке натуральных языков;
  • в поисковых системах – для ограничения области поиска в целях повышения точности (вертикальный поиск);
  • автоматическое определение языка на котором написан текст;
  • анализ тональности (определение эмоциональной окраски текста).

Этот список можно продолжать еще долго. Например, в медицине алгоритмы классификации используются для реконструирования 3D модели головного мозга по серии МРТ снимков3, а также для диагностики пациентов страдающих синдромом Альцгеймера4.

Традиционные подходы

Rulebasedclassification

Если говорить о задаче классификации текстов, то пожалуй ее традиционным решением является классификация основная на правилах (rulebasedclassification). Вы имплементируете правила определения класса документа по его тексту в виде if-then-else выражений (код на Scala).

Этот подход может быть хорошим вариантом если вы работаете с небольшой коллекцией документов которую вы способны охватить и тщательно проанализировать. Просто потому что вы четко контролируете правила по которым классификатор принимает решения. Но есть у этого подхода и очевидные минусы:

  • для того чтобы выбрать значимые для классификации слова необходимо обладать экспертными знаниями в предметной области. Есть ли у вас например соображения по поводу ключевых слов которые хорошо отличают документы посвященные финансовой тематике от документов экономической? У меня очень смутные;
  • отнюдь не всегда факт наличия или отсутствия какого-либо одного слова является решающим фактором для принятия решени

 

 

ROC-кривая (англ. receiveroperatingcharacteristic, рабочая характеристика приёмника) — график, позволяющий оценить качество бинарной классификации, отображает соотношение между долей объектов от общего количества носителей признака, верно классифицированных как несущих признак, (англ. truepositiverate, TPR, называемой чувствительностью алгоритма классификации) и долей объектов от общего количества объектов, не несущих признака, ошибочно классифицированных как несущих признак (англ. falsepositiverate, FPR, величина 1-FPR называется специфичностью алгоритма классификации) при варьировании порога решающего правила.

Также известна как кривая ошибок. Анализ классификаций с применением ROC-кривых называется ROC-анализом.

Количественную интерпретацию ROC даёт показатель AUC (англ. areaunderROCcurve, площадь под ROC-кривой) — площадь, ограниченная ROC-кривой и осью доли ложных положительных классификаций. Чем выше показатель AUC, тем качественнее классификатор, при этом значение 0,5 демонстрирует непригодность выбранного метода классификации (соответствует случайному гаданию). Значение менее 0,5 говорит, что классификатор действует с точностью до наоборот: если положительные назвать отрицательными и наоборот, классификатор будет работать лучше.

Таблица сопряжённости, или таблица контингентности, факторная таблица в статистике — средство представления совместного распределения двух переменных, предназначенное для исследования связи между ними. Таблица сопряжённости является наиболее универсальным средством изучения статистических связей, так как в ней могут быть представлены переменные с любым уровнем измерения. Таблицы сопряжённости часто используются для проверки гипотезы о наличии связи между двумя признаками с использованием точного теста Фишера или критерия согласия Пирсона.

Определение регрессионной модели. Логистическая регрессионная модель. Использование логистической модели для классификации.

Линейная регрессия (англ. Linearregression) — используемая в статистике регрессионная модель зависимости одной (объясняемой, зависимой) переменной {\displaystyle y} y от другой или нескольких других переменных (факторов, регрессоров, независимых переменных) {\displaystyle x} x с линейной функцией зависимости.

Модель линейной регрессии является часто используемой и наиболее изученной в эконометрике. А именно изучены свойства оценок параметров, получаемых различными методами при предположениях о вероятностных характеристиках факторов, и случайных ошибок модели. Предельные (асимптотические) свойства оценок нелинейных моделей также выводятся исходя из аппроксимации последних линейными моделями. Необходимо отметить, что с эконометрической точки зрения более важное значение имеет линейность по параметрам, чем линейность по факторам модели.

В классической линейной регрессии предполагается, что наряду со стандартным условием {\displaystyle E(\varepsilon _{t})=0} выполнены также следующие предположения (условия Гаусса-Маркова):

1. Гомоскедастичность (постоянная или одинаковая дисперсия) или отсутствие гетероскедастичности случайных ошибок модели: {\displaystyle V(\varepsilon _{t})=\sigma ^{2}=const}

2. Отсутствие автокорреляции случайных ошибок: {\displaystyle \forall i,j,~i\not =j~~cov(\varepsilon _{i},\varepsilon _{j})=0}

Данные предположения в матричном представлении модели формулируются в виде одного предположения о структуре ковариационной матрицы вектора случайных ошибок: {\displaystyle V(\varepsilon )=\sigma ^{2}I_{n}}

Помимо указанных предположений, в классической модели факторы предполагаются детерминированными (нестохастическими). Кроме того, формально требуется, чтобы матрица {\displaystyle X} имела полный ранг ({\displaystyle k} ), то есть предполагается, что отсутствует полная коллинеарность факторов.

При выполнении классических предположений обычный метод наименьших квадратов позволяет получить достаточно качественные оценки параметров модели, а именно: они являются несмещёнными, состоятельными и наиболее эффективными оценками.

 

Логистическая регрессия применяется для предсказания вероятности возникновения некоторого события по значениям множества признаков. Для этого вводится так называемая зависимая переменная y, принимающая лишь одно из двух значений — как правило, это числа 0 (событие не произошло) и 1 (событие произошло), и множество независимых переменных (также называемых признаками, предикторами или регрессорами) — вещественных x_{1},x_{2},...,x_{n}} x_{1},x_{2},...,x_{n}, на основе значений которых требуется вычислить вероятность принятия того или иного значения зависимой переменной. Как и в случае линейной регрессии, для простоты записи вводится фиктивный признак x_{0}=1.} {x_{0}=1.}


Дата добавления: 2018-04-15; просмотров: 164; Мы поможем в написании вашей работы!

Поделиться с друзьями:




Мы поможем в написании ваших работ!