Построение доверительного интервала для коэффициента корреляции
Коэффициент корреляции
-Численная мера силы и направления связи между двумя количественными или качественными порядковыми признаками.
-Коэффициент корреляции может принимать значения от −1 до +1. Если значение по модулю находится ближе к 1, то это означает наличие сильной связи, а если ближе к 0 — связь слабая или вообще отсутствует.
-Различают параметрические (Пирсона) и непараметрические (Спирмена, Кендалла, тау) способы подсчёта коэффициента корреляции.
-Для обозначения параметрического коэффициента корреляции Пирсона обычно используется обозначение r , для рангового коэффициента корреляции Спирмена – обозначение
Общий обзор
Корреляционный анализ занимается степенью связи между двумя переменными, x и y.
Сначала предполагаем, что как x, так и y количественные, например рост и масса тела. Предположим, пара величин (x, у) измерена у каждого из n объектов в выборке.
Мы можем отметить точку, соответствующую паре величин каждого объекта, на двумерном графике рассеяния точек.
Обычно на графике переменную x располагают на горизонтальной оси, а у — на вертикальной. Размещая точки для всех n объектов, получают график рассеяния точек, который говорит о соотношении между этими двумя переменными.
Свойства коэффициента корреляции r
· r изменяется в интервале от —1 до +1.
· Знак r означает, увеличивается ли одна переменная по мере того, как увеличивается другая (положительный r), или уменьшается ли одна переменная по мере того, как увеличивается другая (отрицательный r).
|
|
· Величина r указывает, как близко расположены точки к прямой линии. В частности, если r = +1 или r= —1, то имеется абсолютная (функциональная) корреляция по всем точкам, лежащим на линии (практически это маловероятно); если , то линейной корреляции нет (хотя может быть нелинейное соотношение). Чем ближе r к крайним точкам (±1), тем больше степень линейной связи.
· Коэффициент корреляции r безразмерен, т. е. не имеет единиц измерения.
· Величина r обоснованна только в диапазоне значений x и y в выборке. Нельзя заключить, что он будет иметь ту же величину при рассмотрении значений x или y, которые значительно больше, чем их значения в выборке.
· x и y могут взаимозаменяться, не влияя на величину r ( ).
· Корреляция между x и у не обязательно означает соотношение причины и следствия.
· представляет собой долю вариабельности у, которая обусловлена линейным соотношением с x.
Проверка гипотезы для коэффициента корреляции
Пусть r обозначает выборочный коэффициент корреляции, полученный по извлеченным из двумерного нормального распределения пар наблюдений (x1, y1),…,(xn, yn).
|
|
Коэффициент корреляции в популяции неизвестен, но может быть оценен по выборке с помощью выборочного коэффициента корреляции r:
(1)
где оценки среднего равны:
.
Проверим значимость коэффициента корреляции.
Нулевая гипотеза состоит в том, что коэффициент корреляции равен нулю, альтернативная - не равен нулю:
Очевидно, достаточно большое по абсолютной величине значение величины r будет стремиться опровергнуть нулевую гипотезу.
Возникает вопрос.
Насколько большое должно быть абсолютное значение величины r?
Для того чтобы проверить гипотезу, мы должны знать распределение величины r.
Собственное распределение величины r довольно сложное, поэтому мы применим преобразование:
(2)
Итак, выборочное распределение этой статистики есть распределение Стьюдента с n-2 степенями свободы.
При заданном уровне значимости (α) определяем критическое значение tкр.
Принимаем решение об отклонении или не отклонении нулевой гипотезы:
- отклоняем H0
- не отклоняем H0
Вычисление уровня значимости коэффициента корреляции
Для определения фактического уровня значимости коэффициента корреляции запишем:
Где Т подчиняется распределению Стьюдента с n-2 степенями свободы, а значение величины t вычисляется в соответствии с формулой (2).
|
|
Вычисление уровня значимости эквивалентно определению площади под правым и левым хвостами функции, ограниченной значениями -t и t.
Построение доверительного интервала для коэффициента корреляции
Распределение выборочного коэффициента корреляции сложное, поэтому часто пользуются преобразованием Фишера для аппроксимации точного распределения коэффициента корреляции.
При больших значениях n распределение выборочного коэффициента корреляции r стремится к нормальному z.
Преобразование Фишера:
Для преобразованного z стандартная ошибка среднего равна
Таким образом, двусторонний доверительный интервал для z будет определяться:
Нижняя граница:
Верхняя граница:
Для и получаем интервал
Для построения доверительного интервала для коэффициента корреляции сделаем обратное преобразование, получим:
Дата добавления: 2018-10-27; просмотров: 2478; Мы поможем в написании вашей работы! |
Мы поможем в написании ваших работ!