Лабораторнаяработа № 2. Корреляционный анализ
Цель работы. Овладение методами исследования корреляционной зависимости между несколькими количественными случайными величинами по выборочным данным в MSExcel 2010.
Краткие сведения.Корреляционной зависимостью двух случайных величин Y и X называется функциональная зависимость условного математического ожидания
(или
) одной из них от значения
(или
) другой величины. Корреляционная зависимость может быть представлена в виде уравнения регрессииY по X:
или уравнения регрессииX по Y:
. Если функция
линейная, то корреляционная зависимость называется линейной, если
нелинейная, то корреляционная зависимость называется нелинейной.
Основная задача корреляционного анализа – выявление наличия, вида и тесноты корреляционной зависимости между случайными величинами путем точечного и интервального оценивания различных (парных, множественных, частных) коэффициентов корреляции по выборке
…,
из генеральной совокупности, распределенной по многомерному нормальному закону.
Парная корреляция. Для оценки по выборке наличия и тесноты корреляционной связи между двумя случайными величинами Y и X, имеющими совместное нормальное распределение, используются выборочный коэффициент корреляции и эмпирическое корреляционное отношение.
Выборочный коэффициент корреляции
используется для оценки наличия и тесноты парной линейной корреляционной зависимости
где
,
генеральный (теоретический) коэффициент корреляции,
и
среднеквадратические отклонения величин Y и Х. Выборочный коэффициент корреляции
является точечной оценкой генерального коэффициента корреляции
и вычисляется по формуле

где
и
– выборочные общие средние X и Y,
– выборочное общее среднее произведения XY,
и
– выборочные среднеквадратические отклонения величин X и Y. Выборочный коэффициент корреляции
показывает, на сколько величин
изменится в среднем зависимая величина Y при увеличении аргумента X на одно
и является показателем тесноты парной линейной корреляционной зависимости.
Свойства выборочного коэффициента корреляции:
·
, чем больше
, тем теснее линейная корреляционная зависимость Y и X, т.е. меньше разброс выборочных значений
относительно оцененной по выборке линии регрессии
,
которая описывает зависимость условной (групповой) средней
величины Yот значений xвеличиныX;
·
;
· если все выборочные значения умножить на одно и то же число, то величина коэффициента корреляции не изменяется;
· при
корреляционная зависимость представляет линейную функциональную зависимость между Y и X, т.е. все выборочные значения
лежат на оцененной линии регрессии
;
· при
линейная корреляционная зависимость между Y и X отсутствует, их групповые средние
и
совпадают с их общими средними
и
, а регрессия Y по X принимает вид
. Равенство
говорит лишь об отсутствии линейной корреляционной зависимости между величинами Y и X, но не об отсутствии корреляции или стохастической зависимости между Y и X.
Проверка значимости коэффициента корреляции
осуществляется путем проверки гипотезы
, т.е. предположения об отсутствии линейной корреляционной зависимости между величинами Y и X. При справедливости этой гипотезы статистика

имеет распределение Стьюдента (t-распределение) с числом степеней свободы n-2, где n – объем выборки. Гипотеза
отвергается при уровне значимости
(т.е. выборочный коэффициент корреляции значимо отличается от нуля), если вычисленное по выборке объема
значение
удовлетворяет неравенству
,
где
– квантиль уровня
распределения Стьюдента с числом степеней свободы
.
Доверительный интервал надежности
для генерального коэффициента корреляции
при значимом выборочном коэффициенте корреляции
строится с помощью z-преобразования Фишера
.
Распределение статистики
уже при малых объемах выборки близко к нормальному, что позволяет построить доверительный интервал для ее математического ожидания и от него перейти к доверительному интервалу для генерального коэффициента корреляции
, который имеет вид
,
где
– гиперболический тангенс
, а
определяется по функции Лапласа из условия
.
Для определения наличия и тесноты любой (линейной или нелинейной) корреляционной связи используется эмпирическое корреляционноеотношениеY к X
,
которое тем больше, чем большее влияние на вариацию Y оказывает изменчивость X по сравнению с неучтенными факторами. Здесь
– общая выборочная дисперсия величины Y,
– межгрупповая дисперсия Y. Свойства эмпирического корреляционного отношения:
·
;
·
;
· при
корреляционная связь между Y и Xотсутствует;
· при
между Y и X существует функциональная зависимость;
· при
между Y и X существует линейная корреляционная зависимость.
Величина
называется эмпирическим коэффициентом детерминации, она показывает, какая часть общей вариации Y обусловлена вариацией X.
Многомерный корреляционный анализ исследует корреляционную зависимость совокупности случайных величин
имеющих совместное нормальное распределение. Корреляционная матрица
, составленная из парных генеральных коэффициентов корреляции
величин
и
,
,
характеризует линейную корреляционную зависимость между парами величин
и
этой совокупности. Основная задача многомерного корреляционного анализа состоит в оценке корреляционной матрицы
по выборочным данным. Такой оценкой является матрица выборочных коэффициентов корреляции
,
в которой
– выборочные коэффициенты корреляции между величинами
и
. Матрицы
и
симметричные, поэтому при вычислении матрицы
приводятся только элементы, расположенные на главной диагонали и под ней.
Теснота линейной корреляционной связи одной из величин
с совокупностью остальных
величин
оценивается выборочным коэффициентом множественной корреляции
,
где
– определитель матрицы
,
– алгебраическое дополнение элемента
матрицы
. В частности, для трех величин
выборочный коэффициент множественной корреляции
вычисляется по формуле
=
.
Выборочный коэффициент множественной корреляции принимает значения от 0 до 1. Чем ближе значение
к единице тем теснее линейная корреляционная связь
с остальными величинами
. Величина
называется выборочным множественным коэффициентом детерминации, которая показывает долю вариации переменной
объясняемую вариацией остальных переменных. Множественный коэффициент корреляции
значим при уровне значимости
, если вычисленное значение F-статистики
,
где
значение
-критерия на уровне значимости
при числе степеней свободы
и
.
Частные коэффициенты корреляции. Если величины из совокупности
коррелируют друг с другом, то на величинах парных коэффициентов корреляции
переменных
и
сказывается влияние и других переменных совокупности, что приводит к искажению значений коэффициентов корреляции
. Для оценки линейной корреляционной зависимости между величинами
и
, очищенной от влияния других величин совокупности, используется выборочный частный коэффициент корреляции
.Он определяется соотношением
,
где
,
,
алгебраические дополнения соответственно элементов
,
,
матрицы выборочных коэффициентов корреляции
. Например, для совокупности из трех случайных величин
выборочные частные коэффициенты корреляции
находятся по формуле
.
Частный коэффициент корреляции принимает значения от -1 до +1. Значимость частного коэффициента корреляции при заданном уровне α определяется также, как и значимость коэффициента корреляции с помощью t-статистики: если
,
то частный коэффициент корреляции
значимо отличается от нуля. Матрица частных коэффициентов корреляции является также симметричной, элементы ее главной диагонали равны единице.
Дата добавления: 2018-04-15; просмотров: 614; Мы поможем в написании вашей работы! |
Мы поможем в написании ваших работ!
