Построение доверительного интервала для коэффициента корреляции

Коэффициент корреляции

-Численная мера силы и направления связи между двумя количественными или качественными порядковыми признаками.

-Коэффициент корреляции может принимать значения от −1 до +1. Если значение по модулю находится ближе к 1, то это означает наличие сильной связи, а если ближе к 0 — связь слабая или вообще отсутствует.

-Различают параметрические (Пирсона) и непараметрические (Спирмена, Кендалла, тау) способы подсчёта коэффициента корреляции.

-Для обозначения параметрического коэффициента корреляции Пирсона обычно используется обозначение r , для рангового коэффициента корреляции Спирмена – обозначение

Общий обзор

Корреляционный анализ занимается степенью связи между двумя переменными, x и y.

Сначала предполагаем, что как x, так и y количественные, например рост и масса тела. Предположим, пара величин (x, у) измерена у каждого из n объектов в выборке.

Мы можем отметить точку, соответствующую паре величин каждого объекта, на двумерном графике рассеяния точек.

Обычно на графике переменную x располагают на горизонтальной оси, а у — на вертикальной. Размещая точки для всех n объектов, получают график рассеяния точек, который говорит о соотношении между этими двумя переменными.

Свойства коэффициента корреляции r

· r изменяется в интервале от —1 до +1.

· Знак r означает, увеличивается ли одна переменная по мере того, как увеличивается другая (положительный r), или уменьшается ли одна переменная по мере того, как увеличивается другая (отрицательный r).

· Величина r указывает, как близко расположены точки к прямой линии. В частности, если r = +1 или r= —1, то имеется абсолютная (функциональная) корреляция по всем точкам, лежащим на линии (практически это маловероятно); если , то линейной корреляции нет (хотя может быть нелинейное соотношение). Чем ближе r к крайним точкам (±1), тем больше степень линейной связи.

· Коэффициент корреляции r безразмерен, т. е. не имеет единиц измерения.

· Величина r обоснованна только в диапазоне значений x и y в выборке. Нельзя заключить, что он будет иметь ту же величину при рассмотрении значений x или y, которые значительно больше, чем их значения в выборке.

· x и y могут взаимозаменяться, не влияя на величину r ( ).

· Корреляция между x и у не обязательно означает соотношение причины и следствия.

· представляет собой долю вариабельности у, которая обусловлена линейным соотношением с x.

Проверка гипотезы для коэффициента корреляции

Пусть r обозначает выборочный коэффициент корреляции, полученный по извлеченным из двумерного нормального распределения пар наблюдений (x1, y1),…,(xn, yn).

Коэффициент корреляции в популяции неизвестен, но может быть оценен по выборке с помощью выборочного коэффициента корреляции r:

(1)

где оценки среднего равны:

.

Проверим значимость коэффициента корреляции.

Нулевая гипотеза состоит в том, что коэффициент корреляции равен нулю, альтернативная - не равен нулю:

Очевидно, достаточно большое по абсолютной величине значение величины r будет стремиться опровергнуть нулевую гипотезу.

Возникает вопрос.

Насколько большое должно быть абсолютное значение величины r?

Для того чтобы проверить гипотезу, мы должны знать распределение величины r.

Собственное распределение величины r довольно сложное, поэтому мы применим преобразование:

(2)

Итак, выборочное распределение этой статистики есть распределение Стьюдента с n-2 степенями свободы.

При заданном уровне значимости (α) определяем критическое значение tкр.

Принимаем решение об отклонении или не отклонении нулевой гипотезы:

- отклоняем H0

- не отклоняем H0


Вычисление уровня значимости коэффициента корреляции

Для определения фактического уровня значимости коэффициента корреляции запишем:

Где Т подчиняется распределению Стьюдента с n-2 степенями свободы, а значение величины t вычисляется в соответствии с формулой (2).

Вычисление уровня значимости эквивалентно определению площади под правым и левым хвостами функции, ограниченной значениями -t и t.

Построение доверительного интервала для коэффициента корреляции

Распределение выборочного коэффициента корреляции сложное, поэтому часто пользуются преобразованием Фишера для аппроксимации точного распределения коэффициента корреляции.

При больших значениях n распределение выборочного коэффициента корреляции r стремится к нормальному z.

Преобразование Фишера:

Для преобразованного z стандартная ошибка среднего равна

Таким образом, двусторонний доверительный интервал для z будет определяться:

 

Нижняя граница:

Верхняя граница:


Для и получаем интервал

Для построения доверительного интервала для коэффициента корреляции сделаем обратное преобразование, получим:


Дата добавления: 2018-10-27; просмотров: 2478; Мы поможем в написании вашей работы!

Поделиться с друзьями:




Мы поможем в написании ваших работ!