Лабораторнаяработа № 2. Корреляционный анализ



Цель работы. Овладение методами исследования корреляционной зависимости между несколькими количественными случайными величинами по выборочным данным в MSExcel 2010.

Краткие сведения.Корреляционной зависимостью двух случайных величин Y и X называется функциональная зависимость условного математического ожидания  (или ) одной из них от значения  (или ) другой величины. Корреляционная зависимость может быть представлена в виде уравнения регрессииY по X:  или уравнения регрессииX по Y: . Если функция  линейная, то корреляционная зависимость называется линейной, если  нелинейная, то корреляционная зависимость называется нелинейной.

Основная задача корреляционного анализа – выявление наличия, вида и тесноты корреляционной зависимости между случайными величинами путем точечного и интервального оценивания различных (парных, множественных, частных) коэффициентов корреляции по выборке  …,  из генеральной совокупности, распределенной по многомерному нормальному закону.

Парная корреляция. Для оценки по выборке наличия и тесноты корреляционной связи между двумя случайными величинами Y и X, имеющими совместное нормальное распределение, используются выборочный коэффициент корреляции и эмпирическое корреляционное отношение.

Выборочный коэффициент корреляции используется для оценки наличия и тесноты парной линейной корреляционной зависимости

где ,  генеральный (теоретический) коэффициент корреляции,  и  среднеквадратические отклонения величин Y и Х. Выборочный коэффициент корреляции  является точечной оценкой генерального коэффициента корреляции  и вычисляется по формуле

где  и  – выборочные общие средние X и Y,  – выборочное общее среднее произведения XY,  и  – выборочные среднеквадратические отклонения величин X и Y. Выборочный коэффициент корреляции  показывает, на сколько величин  изменится в среднем зависимая величина Y при увеличении аргумента X на одно  и является показателем тесноты парной линейной корреляционной зависимости.

Свойства выборочного коэффициента корреляции:

· , чем больше , тем теснее линейная корреляционная зависимость Y и X, т.е. меньше разброс выборочных значений  относительно оцененной по выборке линии регрессии

,

которая описывает зависимость условной (групповой) средней  величины Yот значений xвеличиныX;

· ;

· если все выборочные значения умножить на одно и то же число, то величина коэффициента корреляции не изменяется;

· при  корреляционная зависимость представляет линейную функциональную зависимость между Y и X, т.е. все выборочные значения  лежат на оцененной линии регрессии ;

· при  линейная корреляционная зависимость между Y и X отсутствует, их групповые средние  и  совпадают с их общими средними  и , а регрессия Y по X принимает вид . Равенство  говорит лишь об отсутствии линейной корреляционной зависимости между величинами Y и X, но не об отсутствии корреляции или стохастической зависимости между Y и X.

Проверка значимости коэффициента корреляции  осуществляется путем проверки гипотезы , т.е. предположения об отсутствии линейной корреляционной зависимости между величинами Y и X. При справедливости этой гипотезы статистика

имеет распределение Стьюдента (t-распределение) с числом степеней свободы n-2, где n – объем выборки. Гипотеза  отвергается при уровне значимости  (т.е. выборочный коэффициент корреляции значимо отличается от нуля), если вычисленное по выборке объема  значение  удовлетворяет неравенству

,

где  – квантиль уровня  распределения Стьюдента с числом степеней свободы .

Доверительный интервал надежности  для генерального коэффициента корреляции  при значимом выборочном коэффициенте корреляции  строится с помощью z-преобразования Фишера

.

Распределение статистики  уже при малых объемах выборки близко к нормальному, что позволяет построить доверительный интервал для ее математического ожидания и от него перейти к доверительному интервалу для генерального коэффициента корреляции , который имеет вид

,

где  – гиперболический тангенс , а  определяется по функции Лапласа из условия .

Для определения наличия и тесноты любой (линейной или нелинейной) корреляционной связи используется эмпирическое корреляционноеотношениеY к X

,

которое тем больше, чем большее влияние на вариацию Y оказывает изменчивость X по сравнению с неучтенными факторами. Здесь  – общая выборочная дисперсия величины Y,  – межгрупповая дисперсия Y. Свойства эмпирического корреляционного отношения:

· ;

· ;

· при  корреляционная связь между Y и Xотсутствует;

· при  между Y и X существует функциональная зависимость;

· при  между Y и X существует линейная корреляционная зависимость.

Величина  называется эмпирическим коэффициентом детерминации, она показывает, какая часть общей вариации Y обусловлена вариацией X.

Многомерный корреляционный анализ исследует корреляционную зависимость совокупности случайных величин  имеющих совместное нормальное распределение. Корреляционная матрица , составленная из парных генеральных коэффициентов корреляции  величин  и ,

,

характеризует линейную корреляционную зависимость между парами величин  и  этой совокупности. Основная задача многомерного корреляционного анализа состоит в оценке корреляционной матрицы  по выборочным данным. Такой оценкой является матрица выборочных коэффициентов корреляции

,

в которой  – выборочные коэффициенты корреляции между величинами  и . Матрицы  и  симметричные, поэтому при вычислении матрицы приводятся только элементы, расположенные на главной диагонали и под ней.

Теснота линейной корреляционной связи одной из величин  с совокупностью остальных  величин  оценивается выборочным коэффициентом множественной корреляции

,

где  – определитель матрицы ,  – алгебраическое дополнение элемента  матрицы . В частности, для трех величин  выборочный коэффициент множественной корреляции  вычисляется по формуле

= .

Выборочный коэффициент множественной корреляции принимает значения от 0 до 1. Чем ближе значение  к единице тем теснее линейная корреляционная связь  с остальными величинами . Величина  называется выборочным множественным коэффициентом детерминации, которая показывает долю вариации переменной  объясняемую вариацией остальных переменных. Множественный коэффициент корреляции значим при уровне значимости , если вычисленное значение F-статистики

,

где значение -критерия на уровне значимости  при числе степеней свободы и .

Частные коэффициенты корреляции. Если величины из совокупности  коррелируют друг с другом, то на величинах парных коэффициентов корреляции  переменных  и  сказывается влияние и других переменных совокупности, что приводит к искажению значений коэффициентов корреляции . Для оценки линейной корреляционной зависимости между величинами  и , очищенной от влияния других величин совокупности, используется выборочный частный коэффициент корреляции .Он определяется соотношением

 ,

где ,  ,  алгебраические дополнения соответственно элементов , ,  матрицы выборочных коэффициентов корреляции . Например, для совокупности из трех случайных величин  выборочные частные коэффициенты корреляции  находятся по формуле

.

Частный коэффициент корреляции принимает значения от -1 до +1. Значимость частного коэффициента корреляции при заданном уровне α определяется также, как и значимость коэффициента корреляции с помощью t-статистики: если

,

то частный коэффициент корреляции  значимо отличается от нуля. Матрица частных коэффициентов корреляции является также симметричной, элементы ее главной диагонали равны единице.


Дата добавления: 2018-04-15; просмотров: 587; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!