Взаимосвязь случайных величин



    Одна из основных задач эконометрики – выявление взаимосвязи переменных. Количественными оценками взаимосвязи служат ковариация и коэффициент корреляции. Ковариация переменных x и  y – это ожидаемое значение произведения их отклонений от ожидаемых значений:

сov(x,y) =  E((х-E(х))*(y-E(y)))

 

    Для оценки ковариации по выборке используется формула, аналогичная формуле дисперсии

 

Cov(x,x) – это дисперсия x. Коэффициент корреляции – это ковариация, нормированная на стандартные отклонения x и y:

Коэффициент корреляции – безразмерная величина, изменяется от –1 до +1; близость к нулю означает отсутствие связи переменных.

 

    Практическое задание

Проведите обработку простого массива данных X и Y. Вычислите количество данных, используя функцию Excel СЧЁТ(). До 11 мы считать умеем, но реальные таблицы экономических данных могут быть огромными. Вычислите суммы X и Y, используя функцию S, и их средние значения, используя формулу и функцию СРЗНАЧ(). Вычислите квадраты отклонений X и Y от их средних значений, просуммируйте. Обратите внимание на фиксацию адресов Xcp и Ycp знаком $. Вычислите дисперсии и среднеквадратические отклонения (СКО) по формулам и через функции ДИСП и СТАНДОТКЛОН. Сравните результаты. Вычислите ковариацию и корреляцию по формулам и через функции КОВАР и КОРРЕЛ.

                                                                                      Таблица 2.1

X  Y

(X-$Xcp)^2

(Y-$Ycp)^2

(X-$Xcp)*(Y-$Ycp)

10 12

25

109,2

52,2

11 15

16

55,5

29,8

12 18

9

19,8

13,3

13 16

4

41,6

12,9

14 24

1

2,38

-1,54

15 22

0

0,20

0

16 27

1

20,6

4,54

17 28

4

30,7

11,0

18 25

9

6,47

7,63

19 32

16

91,1

38,1

20 28

25

30,7

27,7

11

11

 

 

 

165

247

110

408,7

196

15

22,45

 

 

 

15

22,45

 

 

 

Ковариация

 

Sum(X-$Xcp)^2 /(N-1)

11

40,8

19,6

 

КОРЕНЬ

3,31

6,39

 

 

СТАНДОТКЛОН

3,31

6,39

Корреляция

 

 

 

Cov/Sx/Sy

0,924

 

 

 

КОРРЕЛ()

0,924

 

Контрольные вопросы

1. Дифференциальный и интегральный закон распределения случайной величины, виды функций распределения. Что такое “толстые хвосты”?

2. Параметры случайной величины: ожидаемое значение, дисперсия и среднее квадратическое отклонение, коэффициенты ковариации и корреляции.

3. Проверка статистических гипотез, t-статистика Стьюдента, доверительная вероятность и доверительный интервал, критические значения статистики Стьюдента.

 

Регрессионный анализ

 

Понятие ожидаемого значения случайной переменной позволяет дать точное определение понятия функции регрессии. Пусть случайная переменная у принимает свои значения в опыте вместе с переменной х (случай­ной или детерминированной — неважно).  

Простая (парная) регрессия представляет собой модель, где ожидаемое значение зависимой (объясняемой, эндогенной) переменной y рассматривается как функция одной объясняющей (независимой или управляемой, предопределённой) переменной х, то есть модель вида

Е(y) =f(x)

Множественная регрессия представляет собой модель, где ожидаемое значение зависимой переменной y рассматривается как функция многих объясняющих переменных, то есть модель вида

Е(y) =f(x1, х2, …, xn)

Случайную пере­менную у формируют функция f(x) и случайная величина u (uncertainty, disturbance term, возмущение) с ожидаемым значением, равным нулю:

у = f(x) + и

Такое разложение случайной переменной у именуется регрессионным анализом переменной у.

Предполагается, что  f(x) отражает идеальную закономерность, на которую накладываются неучтённые факторы или ошибки измерения. В физике это так, а в экономике – нет. В физике параметрами функции f(x) являются константы, которые надо оценить по результатам измерений (скорость света, масса протона, период полураспада радиоактивного изотопа). В экономике измеряемые величины (ВВП, количество населения) и их взаимосвязи постоянно меняются, поэтому нет фундаментальных констант. Тем не менее, эконометрика переняла математический аппарат, разработанный для физики, и мы его будем использовать.

    Регрессионные модели, которые наиболее часто используются в эконометрике:

1) Линейная y = a + bx+u; употребляется наиболее часто, остальные функции стараются преобразовать к линейному виду, линеаризовать.

Регрессии, нелинейные относительно включённых в анализ объясняющих переменных:

2) Полином второй, редко третьей степени y = a + bx+сх2+u.

3) Равносторонняя гипербола y = a +b/x +u.

Эти модели сводятся к линейным заменой переменных: z = х2 для полинома и   z=1/x для гиперболы.

К нелинейным регрессиям по оцениваемым параметрам относятся:

4) Степенная y = axbe;

5) Показательная y = abxe;

6) Экспоненциальная y = ea+bxe.

Здесь e =1+ u. Эти модели могут быть линеаризованы логарифмированием.

    Следует отметить разницу между идеальной закономерностью, которую для линейной модели обычно записывают

y = a + bx+u

и оценённой регрессионной моделью

y = a +bx + e,

а также возмущением u и отклонением, или ошибкой е. Предполагается, что a и b являются реальными константами, а a и bслужат их оценками. В экономике констант нет, но математический аппарат сохраняется. Возмущение u – это отклонение реального замера от идеальной закономерности a+bх, которую мы не знаем. Значит, u мы тоже не знаем, но можем делать предположение о его свойствах. Ошибка е – это разность между реальным у и его значением, оценённым по формуле a + bx; она служит оценкой u.

Коэффициенты  b и a можно вычислить по формулам

 

Метод наименьших квадратов

Для оценки параметров линейной или линеаризованной модели применяется метод наименьших квадратов (МНК). Суть метода состоит в следующем: к реальным данным подбирается функция и её параметры, чтобы разности (отклонения, остатки) между реальными и вычисленными значениями у были минимальны. Но разностей много, поэтому минимизируется сумма квадратов этих разностей:

            Рис.3.1. Отклонения реальных у от оценённой функции регрессии.

 

 

Как правило, вычисления проводятся на компьютере с использованием различных сервисов и программ. Далее мы рассмотрим технологию МНК, которую использовали при ручном вычислении параметров парной линейной регрессии.

Сумма квадратов остатков, зависящая от параметров a и b

где n – количество измерений. Эта функция достигает минимума в точке, где её частные производные по a и по b равны нулю:

 

 

    или

                                     an + bSx = Sy

                                     aSx + bSx2 =Sxy

Это называется система нормальных уравнений. В ней два уравнения и два неизвестных aи b, а коэффициенты получаются суммированием х, у и т.д. Решать её можно разными способами. В данном случае использован сервис Excel Поиск решения для настройки линейной модели по данным X и Y, представленным в Таблице 3.1. Коэффициенты системы нормальных уравнений расположены в виде матрицы (верхние строки таблицы 3.2), неизвестные a и bзадаются произвольно и умножаются на коэффициенты (нижние строки).  В окне Поиска решения задаются: Целевая ячейка – первая сумма, Значение равно 247 (Sy), Изменяя ячейки – aи b, Ограничения: вторая сумма равна 3901 (Sxy). Исходные данные X и Y приведены в Таблице 3.1. результаты расчёта в Таблице 3.2.   

                           Таблица 3.1.                                                  Таблица 3.2.

     X  Y

X2

XY

10 12

100

120

11 15

121

165

12 18

144

216

13 16

169

208

14 24

196

336

15 22

225

330

16 27

256

432

17 28

289

476

18 25

324

450

19 32

361

608

20 28

400

560

 

 

 

 

Суммы 165

247

2585

3901

                    

11

165

247

165

2585

3901

 

 

 

a

b

 

-4,27

1,78

 

 

 

Суммы по строкам

-47,00

294,00

246,9999

-705,00

4606,00

3901

 

                                                                                        

 

Теперь можно построить функцию регрессии Ŷ, сравнить её с Y и использовать для прогноза.

В принципе, МНК с Поиском решения можно использовать непосредственно. Для этого надо задать произвольные коэффициенты a и b, построить по ним функцию Ŷ = a + bX, вычислить остатки e = Y – Ŷи их квадраты, сумму e2.   

       В окне Поиска решения установить Целевая ячейка Se2 минимум, Изменяя ячейки a и b, ограничений нет.

 

 

                                                                    Таблица 3.3.

X  Y

Ŷ

Остатки e

e2

10 12

13,545

-1,545

2,388

11 15

15,327

-0,327

0,107

12 18

17,109

0,890

0,793

13 16

18,890

-2,890

8,357

14 24

20,672

3,327

11,070

15 22

22,454

-0,454

0,206

16 27

24,236

2,763

7,637

17 28

26,018

1,981

3,927

18 25

27,8

-2,8

7,840

19 32

29,581

2,418

5,847

20 28

31,363

-3,363

11,314

 

 

 

 

 

 

 

Суммы

1E-06

59,490

 

 

 

 

 

Дисперсии

40,872

34,923

5,949

 

 

 

 

 

 

R2

0,854

 

a

b

             F

52,833

 

-4,27

1,78

 

    Этот метод описан более подробно в разделе 4.4.

 


Дата добавления: 2018-05-12; просмотров: 284; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!