Этапы построения статистической модели

Тема 2 Регрессионный анализ. Статистический подход к построению математической модели.

Постановка задачи

Регрессионный анализ – это статистический метод исследования зависимости случайной величины y от переменных (аргументов) xj ( j =1,2,…. k ), то есть некоторой выходной (результативной переменной) от исходных факторов. Например, установление зависимости объема продаж от временного фактора, фактора сезонности, расходов на рекламу, урожайности от плодородия почвы, погодных условий и т.д. Наличие зависимости позволяет в дальнейшем использовать ее для прогнозирования поведения изучаемого объекта.

В зависимости от природы изучаемого объекта его поведение может быть описано либо при помощи детерминированных (строго определенных) моделей, либо при помощи стохастических (статистических) моделей. Последние используются, как правило, если объект исследования сложен, либо мало изучен, и теоретические сведения о нем отсутствуют или имеются лишь в ограниченном объеме. Тогда эксперимент становится основным средством получения информации об объекте исследования, а сам исследовательский процесс представляется в виде «черного ящика». В этом случае исследователю доступны только входные и выходные величины, а внутренняя структура объекта неизвестна.

Таким образом, при использовании понятия «черный ящик» предполагается наличие в объекте неконтролируемых и изменяющихся случайным образом параметров, что приводит к необходимости обработки результатов исследования методами статистического анализа.

Схему «черного ящика» можно условно представить следующим образом (Рис. ). Согласно данной схеме имеем:

1) Входные переменные - вектор x = ( x1, x2, , xk), с помощью которых осуществляется воздействие на поведение «черного ящика». Переменные xjназывают независимыми переменными или факторами. Фактор – это контролируемая (т.е. неслучайная) переменная величина, влияющая на значение выходной переменной и принимающая определенные числовые значения.

2) Выходная переменная - вектор y = ( y1, y2, …., ym) – реакция объекта на произведенные воздействия.

3) Вектор z = ( z1, z2,…, zn) – случайные воздействия или неконтролируемые переменные.

 

 

 


Рис. Система «черный ящик».

Сложность системы «черный ящик» определяют число факторов, степень взаимосвязанности их и выходных переменных. При наличии экспериментальной информации о значениях факторов и соответствующих значениях выходной переменной можно построить математическую модель объекта исследования, которая представляет собой уравнение, связывающее выходную переменную с факторами. Такое уравнение называют функцией отклика.

В общем виде связь между факторами и выходной переменной строится в виде полинома n-й степени:

Например, полином 2-й степени можно записать как:

Представленное уравнение называется уравнением регрессии, где – неизвестные величины–  - коэффициенты регрессии, характеризующие линейные, квадратичные эффекты, эффекты взаимодействия и т.д. Эти коэффициенты называются теоретическими коэффициентами регрессии. Для их точного определения необходимо располагать бесконечно большим числом экспериментальных данных, т.е. всей генеральной совокупностью, что на практике осуществить невозможно. Поэтому для решения данной задачи достаточно располагать ограниченным объемом информации (т.е. выборкой), при этом полученные коэффициенты регрессии не будут в точности совпадать со значениями теоретических коэффициентов регрессии, а будут только приблизительно характеризовать их. Такие коэффициенты называют оценками для теоретических коэффициентов или выборочными коэффициентами, и обозначаются через - ... В дальнейших рассуждениях будем говорить о выборочных коэффициентах регрессии.

Итак, при построении статистической модели основной задачей является установление некоторой связи между входными и выходными переменными таким образом, чтобы эта связь как можно точнее в статистическом смысле описывала фактические данные (данные эксперимента).

 

Этапы построения статистической модели

Построение статистической модели предполагает выполнение следующих этапов:

1) выбор важнейших входных и выходных переменных, характеризующих процесс;

2) проведение экспериментов для сбора фактических (опытных) данных;

3) выбор эмпирической формулы (т.е. вида связи входных и выходных переменных)

4) вычисление параметров модели

5) оценка результатов.

 

Поскольку первые два этапа не требуют дополнительных объяснений, то более подробно рассмотрим три последних этапа.

 

Выбор вида зависимости

При решении экономических задач наиболее часто используемой является множественная линейная зависимость, которая позволяет определить связь между одной зависимой переменной и одной или несколькими независимыми переменными:

В более простом случае можно рассматривать установление связи для одной зависимой и одной независимой переменной. Тогда наиболее часто могут использоваться следующие виды зависимостей:

·  - линейная зависимость;

·  - степенная зависимость;

·  - парабола второго порядка;

·  - кубическая парабола;

·  - гиперболическая зависимость и др.

Выбор вида зависимости во многом определяет дальнейшие результаты. Основанием для выбора того или иного уравнения связи является содержательный анализ сущности развития изучаемого явления или объекта. Возможно также использование результатов предыдущих исследований.

Кроме выше указанных способов, существуют стандартные методики, позволяющие сделать вывод о виде зависимости. К таким относятся метод средних точек и метод конечных разностей. Основной принцип использования стандартных методик заключается в анализе динамики выходной переменной y. Например, если все разности между соседними значениями переменной y приблизительно постоянны, то наиболее подходящей является линейная зависимость. Степенная зависимость используется при наличии изменений переменной y с разной мерой пропорциональности. Гипербола выражает тенденцию замедления динамики уровня переменной y, стремящегося к некоторому предельному значению и т.д.

 

Вычисление параметров уравнения связи.

 

Для вычисления параметров уравнения связи используются методы регрессионного анализа, основной задачей которого является вычисление неизвестных коэффициентов регрессии и статистическое исследование моделей, построенных на основе экспериментальных данных.

Для определения коэффициентов - ...используется метод наименьших квадратов (МНК), который является составной частью регрессионного анализа.

Сущность МНК сводится к определению таких коэффициентов регрессии, которые обеспечивают минимум функционалу S - остаточной суммы квадратов отклонений расчетных и экспериментальных значений выходной переменной:

, где  - экспериментальные и расчетные значения выходной переменной, i – номер опыта, n – число опытов.

Для того, чтобы найти минимум функционала S, необходимо взять частные производные по каждому коэффициенту регрессии и приравнять их к нулю.

(Вместо след куска я обычно заочникам говорю о том, что в случае множественной линейной зависимости получим систему:

…..

решением этой системы и являются искомые коэф регрессии (а в Excel их можно определить автоматически с помощью процедуры…..).

Рассмотрим случай линейной зависимости: . Тогда:

.

Дифференцируя по  и , получим:

Приравнивая полученные выражения к нулю, будем иметь систему линейных уравнений для определения неизвестных коэффициентов регрессии  и . Решая данную систему уравнений, получим следующие выражения:

.

В случае построения нелинейного уравнения связи, то система уравнений сводится с помощью специальных методов к линейному виду, или минимум функционала S находится с помощью соответствующих методов оптимизации (метода градиента, метода Гаусса и др.)

 

Оценка результатов

 

       Уравнение, полученное после вычисления коэффициентов, подвергают статистической обработке. При этом осуществляют проверку:

· значимости коэффициентов регрессии;

· адекватности математической модели.

 

Проверка значимости коэффициентов

Проверка коэффициентов регрессии на значимость дает возможность выявить те независимые переменные x, которые слабо влияют на выходную переменную y. Коэффициент называется значимым, если он в статистическом смысле отличен от нуля. И наоборот: коэффициент регрессии является незначимым, если он в статистическом смысле близок к нулю. Те переменные x, входящие в уравнение регрессии, у которых соответствующие коэффициенты являются незначимыми, можно исключить из уравнения.

Проверку на значимость коэффициентов регрессии осуществляют согласно теории статистических гипотез по статистическому критерию Стьюдента.

Как известно, проверка любой гипотезы (в данном случае проверка на значимость) связана с последовательным выполнением следующих этапов.

1) формулируется нулевая и альтернативная гипотеза (H0 и H1):

H0:  - коэффициент  - незначим;

H1:  - коэффициент  - значим.

2) выбирается критерий проверки (в данном случае – критерий Стьюдента) и уровень значимости a = 0.05

3) определяется расчетное значение статистики Стьюдента (t – статистика) по формуле:

, где  - стандартная ошибка j – того коэффициента регрессии.

4) определяется критическое значение t – распределения для заданного a/2 и числа степеней свободы f = n-1.

5) сравниваются tр c tкр: гипотеза Н0 отвергается, если tр > tкр, то есть соответствующий коэффициент регрессии  - значим, в противном случае коэффициент регрессии незначим и соответствующая переменная в уравнение регрессии не включается.

Проверка адекватности

Проверка адекватности позволяет определить, насколько точно совпадают экспериментальные и расчетные значения выходной переменной.

Для количественной оценки степени адекватности вычисляются следующие суммы квадратов:

SS(Регрессия) = - сумма квадратов отклонений между расчетными значениями выходной переменной и средним арифметическим экспериментальных значений выходной переменной ;

SS(Остаток)= - сумма квадратов отклонений между расчетными и экспериментальными значениями выходной переменной ;

SS(Итого)= - сумма квадратов отклонений между экспериментальными  значениями выходной переменной и средним арифметическим экспериментальных значений выходной переменной .

Можно показать, что

 

SS(Итого)= SS(Регрессия)+ SS(Остаток) или:

 

По этим суммам рассчитывается коэффициент детерминации R 2:

Из формулы следует, что чем ближе значение коэффициента детерминации к единице, тем меньше значение SS(Остаток), тем ближе расчетная и экспериментальная кривая расположены друг к другу. Поэтому величина R2 служит количественной мерой адекватности уравнения регрессии.

 


Дата добавления: 2021-06-02; просмотров: 378; Мы поможем в написании вашей работы!

Поделиться с друзьями:




Мы поможем в написании ваших работ!