Лабораторная работа № 4. Парная линейная регрессия



Цель работы. Освоение построения по выборочным данным модели парной линейной регрессии, оценки точности и надежности параметров и всей модели, построения прогнозов значений зависимой переменной в MSExcel 2010. Интерпретация модели.

Краткие сведения. Модель парной линейной регрессии описывает зависимость условного среднего  зависимой случайной величины  в виде линейной функции значений  объясняющей переменной (фактора) : . Наблюдаемые в выборке  значения  зависимой переменной описываются в виде суммы детерминированной и случайной составляющих:

.                                         (4.1)

Случайная величина , называемая ошибкой регрессии, отражает влияние пропущенных объясняющих переменных, неправильной структуры и функциональной спецификации модели, агрегирования переменных, ошибки измерений.

Основные предпосылки парной линейной регрессии.

1. Связь значений зависимой величины от значений фактора задается соотношением (4) (эта зависимость называется спецификацией модели).

2.  – детерминированные величины, линейно не связанные между собой, т.е. векторы и (1, 1, …, 1) не коллинеарные.

3. Ошибки регрессии  – случайные величины с  для всех .

4. Ошибки регрессии  и  (или переменные  и ) не коррелированы в разных наблюдениях, т.е. .

5. Ошибки регрессии  распределены по нормальному закону с нулевой средней и дисперсией , т.е. , соответственно .

Модель парной линейной регрессии содержит три неизвестных параметра: коэффициенты  и  уравнения регрессии и дисперсию  ошибок регрессии . Оценки коэффициентов  и  находятся из условия минимизации по  и  суммы квадратов

отклонений наблюдаемых значений  от вычисленных по уравнению регрессии . Эти оценки называются оценками метода наименьших квадратов и определяются соотношениями

, ,

где  – выборочная ковариация величин  и ,  – выборочная дисперсия ,  и  – выборочные среднеквадратические отклонения величин X и Y,  и  – выборочные средние  и .

Согласно теоремы Гаусса-Маркова, при выполнении предпосылок 1–4, эти оценки обладают наименьшей дисперсией в классе всех линейных несмещенных оценок.

Величины  называются остатками регрессии.

Несмещенной оценкой дисперсии  ошибок регрессии  является величина

.

Оценки дисперсий оценок  и  определяются как

, .

Стандартные отклонения коэффициентов уравнения регрессии определяются соотношениями  и .

Интервальные оценки параметров уравнения регрессии надежности :

,

,

      (4.2)

где  заданный уровень значимости,  – квантиль уровня распределения Стьюдента ( -распределения) с числом степеней свободы , и –квантили соответственно уровней  и распределения  с числом степеней свободы .

Оцененное уравнение регрессии на  имеет вид . Статистическая значимость параметров уравнения регрессии (их значимое отличие от нуля) определяется путем проверки принадлежности нулевых значений доверительным интервалам. Если доверительный интервал надежности  содержит ноль, то нулевая гипотеза о равенстве параметра нулю принимается с уровнем значимости . Проверка значимого отличия от нуля параметров  и  уравнения регрессии осуществляетсятакжепутем проверки нулевых гипотез  и  против альтернативных гипотез  и . Для проверки этих гипотез используются - статистики  и , распределенные по закону Стьюдента с  степенями свободы. Если вычисленные значения статистик  или превышают по модулю критическое значение , то нулевая гипотеза отвергается и принимается альтернативная гипотеза (параметр значимо отличается от нуля). Если вычисленное значения - статистики по модулю меньше критического значения , то нулевая гипотеза принимается (параметр незначимо отличается от нуля) при заданном уровне .Критическое значение  определяется как квантиль уровня  распределения Стьюдента с числом степеней свободы .Принятие нулевой гипотезы  говорит об отсутствии значимой линейной корреляционной зависимости величин Y и X.

Верификация и оценка качества модели. Верификация модели парной линейной регрессии означает проверку соответствия модели эмпирическим данным и заключается в установлении значимости уравнения регрессии, т.е. в значимости влияния фактора  на условную среднюю зависимой величины . Проверка значимости уравнения регрессии заключается в проверке нулевой гипотезы , об отсутствии влияния фактора  на зависимую величину , против альтернативной гипотезы , о значимом влиянии фактора  на . Значимость уравнения регрессии может быть проверена двумя равноценными способами: с использованием дисперсионного анализа; с использование теории корреляции.

Дисперсионный анализ в линейной регрессии основывается на том, что общая сумма квадратов отклонений  от их общего среднего , , разлагается на сумму квадратов отклонений, объясняемых регрессией, , и остаточную сумму квадратов отклонений . При справедливости нулевой гипотезы  средние квадраты  и  являются независимыми несмещенными оценками одной и той же генеральной дисперсии  зависимой переменной  и их различие незначимо. Проверка нулевой гипотезы , при уровне значимости , сводится к проверке существенности различия несмещенных выборочных оценок  и  дисперсии  с помощью F-критерия , который имеет F-распределение Фишера-Снедекора с  и степенями свободы, где  число коэффициентов в уравнении регрессии, а n объем выборки. Гипотеза  об отсутствии влияния фактора  на исследуемый признак  принимается, если вычисленное значение статистики меньше критического . Если , то гипотеза  отвергается и принимается гипотеза , т.е. фактор  оказывает влияние на исследуемый признак .  – квантиль уровня -распределения Фишера-Снедекора с  и степенями свободы.

Использование элементов теории корреляции при проверке значимости уравнения регрессии основано на соотношении  и заключается в проверке значимого отличия от нуля коэффициента корреляции , следовательно, и значимости коэффициента регрессии . Проверка нулевой гипотезы , т.е. предположения об отсутствии линейной корреляционной зависимости между величинами Y и X, производится с помощью статистики , которая при справедливости нулевой гипотезы имеет распределение Стьюдента (t-распределение) с числом степеней свободы . Гипотеза  отвергается при уровне значимости  (т.е. оцененное уравнение линейной регрессии значимо), если вычисленное по выборке объема  значениеt-статистики удовлетворяет неравенству

, (4.3)

где  – квантиль уровня  распределения Стьюдента с числом степеней свободы . Если нулевая гипотеза  принимается, то оцененное уравнение линейной регрессии незначимо – зависимая величина Y и фактор  не связаны линейной корреляционной зависимостью.

Для парной линейной регрессии оба способа проверки значимости уравнения регрессии равнозначны, а F-критерий и t-критерий связаны равенством .

Мерой качества уравнения регрессии и характеристикой прогностической силы регрессионной модели является коэффициент детерминации

,

который показывает, какая доля вариации зависимой переменной объясняется вариацией фактора. . Значимое отличие от нуля коэффициента детерминации  устанавливается также с помощью приведенного выше F-критерия. F-критерий и коэффициент детерминации  связаны равенством .Для парной линейной регрессии коэффициент детерминации .

Качество подгонки построенной линейной регрессии к выборочным данным характеризуется средней ошибкой аппроксимации

.

Прогнозирование по уравнению регрессии. Точечный прогноз  среднего зависимой величины  для заданного значения  вычисляется по уравнению регрессии и является наилучшей несмещенной линейной оценкой теоретического условного среднего . Доверительный интервал надежности  прогноза условного среднего для заданного значения  задается неравенством

              (4.4)

Здесь – квантиль уровня распределения Стьюдента с числом степеней свободы ,  – оценка дисперсии прогноза условного среднего величины Y,  – выборочная дисперсия независимой переменной X. Графики нижней и верхней границ доверительного интервала называются доверительными кривыми надежности . Уравнение линейной регрессии может быть записано в виде . Отсюда следует, что линия регрессии проходит через точку  и при  доверительные кривые наиболее близко подходят к линии регрессии.


Дата добавления: 2018-04-15; просмотров: 701; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!