Глава 3. ПРИМЕРЫ РЕШЕНИЯ ПРАКТИЧЕСКИХ ЗАДАЧ



3.1. Регрессионная модель расходов на образование при гетероскедастичности остатков

В таблице 1 представлены данные о расходах на образование (Y) и о валовом внутреннем продукте (X) в 34 странах (n=34). Требуется :

а) Построить два варианта линейных регрессионных моделей, характеризующих зависимость расходов на образование (Y)от валового внутреннего продукта (X),в зависимости от следующих предположений.

Модель 1предполагает соблюдение исходных предпосылок классической регрессионной модели.

Модель2 предполагает наличие гетероскедастичности (неоднородности дисперсий) случайных регрессионных остатков.

б) Сравнить полученные результаты.

Решение.Предварительно проведем графический анализ данных. Представление на плоскости всех 34 наблюдений позволяет считать правомерным выбор линейной регрессионной модели

где i=1,2,...,n.

Подлежащий оцениванию вектор неизвестных коэффициентов уравнения имеет вид

а) При построении классической линейной регрессионной мо­дели 1 предполагается, что случайные остатки ei независимы, нормальны и гомоскедастичны, т.е. ei ÎN(0, s2 ) и Mei ej =0 при i¹j и i, j=1, 2, ...,n.

МНК-оценки коэффициентов уравнения определяются из вы­ражения

Для реализации этой модели следует войти в блок регрессионного анализа (Multiple Regression или Linear Regression в зависимости от имеющейся версии Statistica), открыть файл с исход­ной информацией. В качестве зависимой переменной (Dependent) указать Y (расходы на образование), независимой (Independent ) - X (валовой внутренний продукт).

После проведения расчетов была получена следующая мо­дель:

                                            (1)

Значение F-критерия (равное 1524,5) свидетельствует о значимости уравнения регрессии, а стандартная ошибка коэффициента Sb1 =0,002 позволила считать значимым коэффициент при независимой переменной с большой вероятностью.

Также для модели характерно высокое значение коэффициента детерминации R2=0,98.

Если принять модель1, то можно считать, что при каждом увеличении ВВП на 1 млрд. долл. на образование будет затрачиваться дополнительно 67 млн. долл. (иными словами 6,7 цента на дополнительный доллар).

Однако анализ остатков модели, диаграммы рассеяния наблюдений, а также дополнительная проверка с помощью соответствующего теста (пример 2) приводят к выводу о неадекватности модели 1, о наличии гетероскедастичности.

Поэтому переходим к построению Модели2 в виде:

,  где i=1,2,...,n.                   (2)

Предполагается, что  - случайная ошибка, линейно зависящая от значений объясняющей переменной xi , ei ÎN(0, s2) и Mei ej =0 при i¹j.Тогда ei ÎN(0, s2 ×x2i ) и Me*i e*j =0 при i¹j и i, j=1, 2, ...,n.

В случае модели 2 оценку вектора параметров  на­ходят с помощью обобщенного МНК. ОМНК - оценка равна:

Поясним алгоритм нахождения оценок для нашей двумерной модели с помощью рассматриваемого модуля множественной регрессии в системе Statistica. Разделив левую и правую части уравнения (2) на хi, получим:

.

Относительно новых переменных   мы имеем классическую регрессионную модель:

параметры которой оцениваются с помощью МНК.

Переход к новым переменным Y1, XI можно выполнить в электронной таблице с исходными данными. После этого четыре столбца таблицы будут содержать 4 переменные: старые Y ,Х и новые Y1 ,Х1. Формулы преобразования переменных задаются в диалоговом окне спецификации переменной. Для его вызова достаточно дважды щелкнуть мышью на имени переменной в электронной таблице с исходными данными. Например, откроем двойным щелчком окно Variable3 ивведем в нижней части окна формулу в соответствии с правилами , описанными в разделе 3.3: =vl/v2

После нажатия кнопки ОК в третьем столбце электронной таблицы будут содержаться значения, полученные делением элементов первого столбца на соответствующие элементы второго. Аналогичным образом определим значения переменной X1, задав в окне спецификации переменой формулу: =l/v2

Также удобно переименовать переменные, изменив соответственно Var3 на Yl, a Var4 на X1, использовав для этого последо­вательность действий, описанную в 1.2.

Теперь при проведении регрессионного анализа в качестве зависимой переменной следует указать Y1, а в качестве независимой - X1.

МНК-оценка уравнения регрессии имеет вид:

После возвращения к исходным переменным окончательное уравнение регрессии можно записать в виде:

                                       (3)

Из сравнения моделей (1) и (3) можно видеть, что оценки коэффициентов при X - величины одного порядка, но в последнем уравнении оценка коэффициента ниже, а значение коэффициента в уравнении (1) завышено. Стандартная ошибка коэффициента Sb1=0,004 в уравнении (3), она стала больше по сравнению с аналогичной стандартной ошибкой в уравнении (1).Однако их сравнение некорректно по той причине, что применение МНК в условиях гетероскедастичности остатков приводит к искажению оценок стандартных ошибок коэффициентов, и наверняка в дан­ном случае оценка данной характеристики в уравнении (1) была занижена. Таким образом, более тщательный анализ исходных данных привел к выбору уравнения (3) в качестве модели, определяющей зависимость расходов на образование (Y ) от валового внутреннего продукта (X).


 

3.2. Применение теста Голдфелда-Квандта для обнаружения гетероскедастичности.

При построении линейной регрессионной модели зависимости расходов на образование (Y) от валового внутреннего продукта (X) (данные таблицы 1) требуется проверить гипотезу о наличии гомоскедастичности (однородности дисперсий) остатков Н0: s12=s22=…=sn2.

Альтернативная гипотеза Н1 предполагает наличие прямой линейной зависимости ошибки от величины независимой переменной xi. Проверку гипотезы осуществить с помощью теста Голдфелда-Квандта при уровне значимости a=0,01.

Примечание. Тест Голдфелда-Квандта применяется, когда есть предположение о прямой зависимости ошибки от величины некоторой независимой переменной. Алгоритм проверки может быть реализован в виде следующей последовательности шагов:

1. Упорядочить данные по возрастанию независимой переменной.

2. Исключить d средних (в этом упорядочении) наблюдений (d должно быть примерно равно 1/4 общего количества наблюдений).

3. Провести две независимые регрессии первых (n/2-d/2) наблюдений и последних (п/2- d/2) наблюдений и получить соответствующие остатки е1, е2.

4. Составить статистику Fнабл= е'2 е2/ е'1 е1 . Если верна Н0 , то F имеет распределение Фишера c(n/2-d/2-k; n/2-d/2-k) степенями свободы (k - число оцениваемых параметров в уравнении регрессии; п -число наблюдений; d-число исключенных средних значений).

Числитель и знаменатель в выражении для Fнабл следует разделить на соответствующее число степеней свободы, но в данном случае они одинаковы.

Если предположение относительно природы гетероскедастичности верно, то дисперсия остатков в последних (n/2-d/2) наблюдениях будет больше, чем в первых (n/2-d/2).3mo будет отражено в сумме квадратов остатков в двух указанных регрессиях. Если Fнабл > Fкр (a; n/2-d/2-k; n/2-d/2-k), то нулевая гипотеза об отсутствии гетероскедастичности отвергается.

В рассматриваемой задаче для реализации проверки на гетероскедастичность с помощью теста Голдфелда-Квандта возьмем величину d, определяющую число исключенных средних наблю­дений, равной 10.

Тогда сначала необходимо оценить регрессию по наблюдениям для 12 стран с наименьшим ВНП, а затем для 12 стран с наибольшим ВНП.

Так как в таблице 1 с исходными данными все наблюдения уже упорядочены по возрастанию величины ВНП, то сначала следует построить регрессионное уравнение для первых 12 наблюдений, а затем для 12 последних.

Для этого, войдя в блок регрессионного анализа, укажем в качестве независимой переменной -X, а в качестве зависимой -Y. При задании параметров в окне Multiple Regressionследует осуществить отбор того подмножества наблюдений, которое будет участвовать в расчетах, используя для этого кнопку SELECT CASES.После нажатия этой кнопки откроется диалоговое окно Case Selection Conditions,в котором следует задать условия отбора наблюдений. При построении регрессии по первым 12 наблюдениям в строке этого окна include if(включать если) укажем неравенство v0<=12, а при оценивании коэффициентов модели по 12 последним наблюдениям (с 23 по 34 наблюдение) укажем неравенство v0>=23. Как отмечалось в разделе 3.3 символы v0 в логических операциях определяют номер строки. После задания всех необходимых параметров, произведем вычисления.

В нижней части окна результатов регрессионного анализа нажмем кнопку Analysis of Variance,открывающую таблицу с результатами дисперсионного анализа. Требуемое для теста Голдфелда-Квандта значение суммы квадратов остатков будет представлено в таблице на пересечении строки Residual(остатки) и столбца Sums of Squares(cyммaквадратов).

Значение этого показателя для модели, построенной по первым 12 наблюдениям, равно S12=2,68, для модели, построенной по последним 12 наблюдениям, - S12 =388,24.

Рассчитаем F набл= S22/ S12 , F набл =388,24/2,68=144,9. Критическое значение при однопроцентном уровне значимости Fкр(a=0,01;к1=12-2=10; к2=12‑2=10)=4,85.

Так как Fнабл> Fкр , следовательно нулевая гипотеза об отсут­ствии гетероскедастичности отклоняется.


 


Дата добавления: 2018-02-28; просмотров: 470; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!