ЭКОНОМИКО-СТАТИСТИЧЕСКИЙ АНАЛИЗ УРАВНЕНИЙ РЕГРЕССИИ

⇐ ПредыдущаяСтр 9 из 10Следующая ⇒

Экономико-статистический анализ корреляционно-регрессионной модели на адекватность реальным условиям включает в себя математическую проверку:

1) целесообразности включения выбранных факторов в модель (уравнение) регрессии;

2) правомерности распространения свойств модели, полученных по данным выборок, на генеральную совокупность.

Проверка целесообразности включения каждого фактора в модель осуществляется по данным шаговой регрессии. О значимости введенного фактора можно судить по изменениям коэффициента множественной корреляций и среднеквадратического отклонения от регрессии :

, (35)

где – фактическое значение функции в j-м наблюдении;

– значение функции, рассчитанное по уравнению регрессии для фактических значений в j-м наблюдении.

Таким образом, показывает меру рассеяния фактических значений функции от оценок, получаемых по уравнению регрессии, т.е. меру "приближения" рассчитанного уравнения регрессии к моделируемому процессу.

Если на анализируемом шаге регрессии произошло увеличение коэффициента множественной корреляции и уменьшение , то, следовательно, введенный фактор увеличил общее влияние факторов-аргументов на функцию и повысил точность расчетных значений функции. В рассматриваемом уравнении линейной регрессии введение на втором шаге привело к росту на 12,5 % и увеличению точности оценок на 5,8 %. В нелинейной регрессии повышение точности составило 1,6 %. Следовательно, введение в модель можно пока предположить целесообразным.

Более строгую оценку полезности для уравнения введенного фактора дает сравнение расчетного F-значения для дисперсионного анализа с табличным , приведенным в приложении 8 при и степенях свободы. В F-значении находит отражение среднеквадратичное отклонение от регрессии:

, (36)

где

. (37)

Если , (38)

то влияние включенных в уравнение регрессии факторов на функцию весьма достоверно.

В рассматриваемом примере при = 2и = 47 имеем = 3,23; при = 3 и = 46 имеем = 2,84. Расчетные значения F сведены в таблицу 7.

Таблица 7 – Анализ факторов корреляционно-регрессионных уравнений по значению F для дисперсионного анализа

Шаги регрессии	Включаемые переменные		Расчетное значение F для уравнений регрессии
Шаги регрессии	Включаемые переменные		линейной	Нелинейной
1		3,23	22,669	17,357
2		2.84	16,876	11,246

Анализ таблицы 7 показывает правомерность включения по имеющимся исходным данным выборок и переменной , и переменной в линейное и нелинейное уравнения регрессии. При этом более сильное влияние аргументов на функцию наблюдается в линейном уравнении.

Широко известным критерием оценки качества полученного уравнения регрессии (по имеющимся данным выборок) является средний коэффициент (ошибка) аппроксимации:

. (39)

Ее допустимая величина колеблется в пределах 12 – 15 % [18, с. 44]. В рассматриваемом примере для линейного уравнения = 7,3 %, для нелинейного = 8,18 %. Очевидно, линейное уравнение лучше описывает моделируемый процесс.

Наконец, в качестве одного из критериев правильности полученного уравнения регрессии можно использовать отношение среднеквадратического отклонения от регрессии к коэффициенту, характеризующему нормальность распределения отклонений . В случае хорошего согласия уравнения с исходами данными это отношение должно стремиться к единице, т.е.

(40)

В рассматриваемое примере имеем:

для линейного уравнения: ; .

для нелинейного уравнения:

Очевидно, предпочтительнее взять лилейное уравнение.

Заметим, что двумя последними критериями в соответствии с используемыми программами можно пользоваться на последнем шаге регрессии. Если по результатам предшествующего экономико-статистического анализа будет целесообразно выбрать не окончательное, а промежуточное уравнение регрессии, следует весь расчет повторить сначала, отбросить незначащие факторы и уже для выбранного уравнения выполнить дополнительную проверку по формулам (39), (40).

Выполненный анализ обоих уравнений по изменению множественного коэффициента корреляции , F-значению и, наконец, по и позволяет:

1) выбрать в качестве уравнения регрессии, наиболее адекватного исследуемому процессу влияния субъективных факторов производительности труда на и изменение процентов выполнения норм выработки станочников механического цеха, линейное уравнение:

;

2) признать его полную адекватность имеющимся данным исходных выборок.

Выполним теперь проверку правомерности распространения найденного уравнения регрессии на генеральную совокупность, т.е. проверку правомерности его практического использования.

В качестве такого критерия можно использовать проверку значимости коэффициентов полученного уравнения регрессии по Т-значению:

, (41)

где – стандартная (среднеквадратическая) ошибка коэффициента регрессии при i-й переменной, i = 2, 3, …, р.

Если , (42)

то проверяемый коэффициент регрессии является значимым.

Значения приведены в приложении 7 при степенях свободы и различном уровне значимости.

Несоблюдение неравенства (42) при наличии предварительно установленной по критерию Стьюдента надежности соответствующего коэффициента парной или частной корреляции говорит о нелинейности связи между функцией и рассматриваемым аргументом.

В данном примере примем наиболее употребительный уровень значимости 0,05 (таблица 8).

Таблица 8 – Анализ значимости коэффициентов регрессии в уравнениях шаговой регрессий

Шаги регрессии	Включаемые переменные	V		Расчетное значение F для уравнений регрессии
Шаги регрессии	Включаемые переменные	V		линейной	Нелинейной
1		48	2,02	4,761	4,238
2		47	2,02	5,236	4,244
2				2,802	1,890

Данные таблицы 8 по нелинейному уравнению подтверждают установленную ранее нелинейную связь между и , так как (1,89 < 2,02). Но степень нелинейности невелика, так как по линейному уравнению . В линейном уравнении все коэффициенты значимы, следовательно, его можно с полной уверенностью применять на практике.

При исследовании адекватности уравнения регрессии нельзя забывать о таком явлении, как автокорреляция. Под автокорреляцией понимается корреляция между членами одного и того же динамического ряда. Ее наличие в исходных данных приводит к низкой надежности получаемого уравнения регрессии.

Существует ряд методов обнаружения автокорреляции. Наиболее простым и достаточно обоснованным является метод, предложенный Дарбином и Уотсоном. Был сконструирован критерий, связанный с гипотезой о существовании автокорреляции первого порядка, т.е. автокорреляции между соседними членами ряда, составленного из разностей фактических и расчетных (по уравнению регрессии) значений функции . Соответствующая критерию Дарбина - Уотсона статистика (отношение Дарбина) имеет вид:

, (43)

где . (44)

Коэффициент называется первым нециклическим коэффициентом автокорреляции. Если автокорреляция отсутствует, он равен 0. Если же наблюдается полная автокорреляция, то он равен +1 или -1. Отсюда следует, что при отсутствии автокорреляции , а при полной автокорреляции =0 или =4.

Для -статистики найдены критические границы, позволяющие принять или отвергнуть гипотезу о существовании автокорреляции. Верхние и нижние границы -статистики при уровне значимости 0,05 и числе независимых переменных приведены в таблице 9.

(45)

Автокорреляция положительна, если

;

автокорреляция отрицательна, если ;

автокорреляция отсутствует, если .

Если величина расчетной -статистики находится в пределах или , то нет статистических оснований ни принять, ни отвергнуть эту гипотезу.

Таблица 9 – Значения критерия Дарбина - Уотсона при уровне значимости 0,05 [14, с, 160]

Число наблюдений
Число наблюдений
15	1,08	1,36	0,95	1,54	0,82	1,75	0,69	1,97	0,56	2,21
16	1,10	1,37	0,98	1,54	0,86	1,73	0,74	1,93	0,62	2,15
17	1,13	1,38	1,02	1,54	0,90	1,71	0,78	1,90	0,67	2,10
18	1,10	1,39	1,05	1,53	0,93	1,69	0,82	1,87	0,71	2,06
19	1,18	1,40	1,08	1,53	0,97	1,63	0,86	1,85	0,75	2,02
20	1,20	1,41	1,10	1,54	1,00	1,68	0,90	1,83	0,79	1,99
22	1,24	1,43	1,15	1,54	1,05	1,66	0,96	1,80	0,86	1,94
24	1,27	1,45	1,19	1,55	1,10	1,66	1,01	1,78	0,93	1,90
26	1,30	1,46	1,22	1,55	1,14	1,65	1,06	1,76	0,98	1,88
28	1,33	1,48	1,26	1,56	1,18	1,65	1,10	1,75	1,03	1,85
30	1,35	1,49	1,28	1,57	1,21	1,65	1,14	1,74	1,07	1,83
35	1,40	1,52	1,34	1,58	1,28	1,65	1,22	1,73	1,16	1,80
40	1,44	1,54	1,39	1,60	1,34	1,66	1,29	1,72	1,23	1,79
50	1,50	1,59	1,46	1,63	1,42	1,67	1,38	1,72	1,34	1,77
60	1, 55	1,62	1,51	1,65	1,48	1,69	1,44	1,73	1,41	1,77
70	1,56	1,64	1,55	1,67	1,52	1,70	1,49	1,74	1,46	1,77
80	1,61	1,66	1,59	1,69	1,56	1,72	1,53	1,74	1,51	1,77
90	1,63	1,68	1,61	1,70	1,69	1,73	1,57	1,75	1,54	1,78
100	1,65	1,69	1,63	1,72	1,61	1,74	1,59	1,76	1,57	1,78

В рассматриваемом примере для линейного уравнения регрессии оценка первого нециклического коэффициента автокорреляции = -0,158. Она значительно ближе к 0, нежели к 1. Поэтому можно говорить о наличии небольшой автокорреляции в исходных данных.

Расчетное значение -статистики для рассматриваемого линейного уравнения (отношение Дарбина) равно 2,314. Для двух независимых переменных (m = 2) и 50 наблюдений верхняя и нижняя границы критерия Дарбина - Уотсона = 1,46; = 1,63. Проверив зависимости (45), получим:

1,63 < 2,314 < 4 -1,63

или 1,63 < 2,314 < 2,37.

Следовательно, автокорреляция исходных данных отсутствует. Таким образом, окончательная экономико-математическая модель зависимости процентов выполнения норм выработки станочников механического цеха от законченного образования и общего стажа их работы , адекватная реальным условиям механического цеха Тульского комбайнового завода, представлена следующей линейной функцией:

. (46)

Статистическая наука выработала несколько методов исключения автокорреляции:

1) метод Фриша - Boy,

2) метод последовательных разностей,

3) метод авторегрессионных преобразований.

Согласно методу Фриша - Boy в уравнение регрессии вводится время в качестве дополнительного фактора. Тогда уравнения регрессии (30) и (31) принимают вид:

линейные: ; (47)

степенные: . (48)

В соответствии с этим методом при обнаружении автокорреляции в модель (в уравнение регрессии) вводят еще одну переменную – время (переменная вводится следующим рядом чисел: 1, 2, 3, 4, ..., n) и производят перерасчет параметров регрессии. Если и после этого автокорреляция будет значительной, судя по -статистике, следует использовать другие метода исключения автокорреляции [18, c. 87 - 90]. Если и они не помогут, надо пересмотреть набор переменных, включаемых в уравнение, и уточнить вид уравнения.

Наиболее сложным этапом, завершающим корреляционно-регрессионное моделирование, является интерпретация уравнения, т.е. перевод его с языка статистики и математики на язык экономиста. Интерпретация [18, c. 44] начинается с выяснения того, как каждый аргумент влияет на функцию. Характеристикой этого влияния является соответствующий коэффициент регрессии . Если он положителен, то с увеличением аргумента происходит рост функции, если отрицателен, – то уменьшение функции. Полученный знак коэффициентов должен быть проанализирован с точки зрения здравого смысла и экономической теории. Если наблюдается противоречие между полученными результатами и теорией, необходимо проверить возможность появления ошибок на всех этапах экономико-математического моделирования.

В рассматриваемом уравнении (46) коэффициенты регрессий при показателях законченное образование и общего стажа их работы станочников положительны. Так, при повышении уровня образования рабочего на один год предполагаемый процент роста нормы его выработки увеличится на 3,77 %, а при увеличении стажа работы на один год – на 1,24 %. Подобное толкование рассматриваемой зависимости не противоречит ни здравому смыслу, ни законам социологии. Следовательно, полученное уравнение регрессии вполне может быть использовано в практических расчетах.

Далее необходимо определить силу и долю влияния на функцию каждого из вошедших в модель аргументов.

Силу влияния каждого аргумента на функцию можно найти о помощью -коэффициентов уравнения регрессии в стандартизованном масштабе. Линейное уравнение (30) в стандартизованном масштабе имеет следующий вид:

; (49)

где – среднее значение стандартизованной переменной , соответствующее задаваемым значениям переменных ;

– стандартизованные коэффициенты регрессии;

– значение i -го фактора в стандартизованном масштабе,

. (50)

Так как в уравнении (49) вcе переменные выражены в одних единицах измерения, то доказывают сравнительную силу влияния каждого аргумента на функцию.

В рассматриваемом уравнении (46) = 0,312; = 0,584 (см. приложение 4). Следовательно, сила влияния на функцию третьей переменной в 1,87 раза выше, чем второй.

Для определения доли влияния аргументов на функцию находятся произведения парных коэффициентов корреляции функции с каждым аргументом ( = 2, 3,…, р) и -коэффициентов. Полученные произведения представляют собой частные коэффициенты детерминации, которые измеряют долю в общей вариации функции от вариации признака . Сумма коэффициентов частной детерминации равна коэффициенту совокупной детерминации. Она принимается за 100 % и по частным коэффициентам детерминации определяется доля каждого фактора в этой сумме.

Дм уравнения (46 ) данный расчет представлен в таблице 10.

Таблица 10 – Определение доли влияния каждого фактора на функцию по уравнению (46)

Фактор	Условное обозначение	Исходные данные		Расчет
Фактор	Условное обозначение				Доля влияния, %
Законченное образование		0,28	0,312	0,0874	20,9
Общий стаж		0,566	0,584	0,3305	79,1
Итого…				0,4179	1100

Почти 80 % общей вариации процентов выполнения норм выработки станочников вызвано изменением общего стажа их работы и только 20 % – законченным образованием (разумеется, из числа учтенных факторов).

Уравнение регрессии позволяет прогнозировать значения функции в зависимости от значений аргументов . Так, в рассматриваемом примере можно предсказать процент выполнения норм выработки тем или иным рабочим анализируемого цеха, если известно его законченное образование и общий стаж работы. При практической работе с полученным уравнением может возникнуть необходимость прогноза изменения функции при изменении того или иного аргумента, вошедшего в уравнение. Например, нас интересует изменение процента выполнения норм выработки в цехе при увеличении среднего образования рабочих на 2 % и общего стажа их работы 5 % (указанное увеличение взято цехом в качестве плановых соцобязательств на текущий год).

Для решения поставленной задачи можно воспользоваться коэффициентами эластичности:

, (51)

где – коэффициент эластичности, показывающий изменение функции при изменении i-го фактора на 1 % от его среднего значения;

– расчетное значение функции, полученное при средних значениях факторов, участвующих в уравнении.

В рассматриваемом уравнении коэффициенты эластичности (см. приложение 4) = 0,177, = 0,129. Тогда прогнозное изменение процента выполнения норм выработки станочниками цеха:

или

Прогнозируя функцию по рассчитанному уравнению регрессии, естественно полагать, что фактические ее значения не будут совпадать с расчетными, так как уравнение регрессии описывает связь лишь в общем, в среднем. Поэтому важным и завершающим моментом интерпретации уравнения регрессии является установление надежности получаемых по нему прогнозных решений.

Мерой надежности в линейной регрессии является среднее квадратическое отклонение от регрессии, которое характеризует степень рассеяния фактических значений функции от расчетных . Для большей точности при малом числе наблюдений ( ) производится корректировка :

. (52)

Доверительный интервал, в котором с заданной вероятностью будет заключаться расчетное значение функции в генеральной совокупности, определяется так:

, (53)

где – табличное значение распределения Стьюдента при числе степеней свободы (см. приложение 7).

Уровень значимости принимается обычно 0,05. Он соответствует 95 %-ному уровню надежности.

В рассматриваемом уравнении (46) = 18,755 и,значит, доверительный интервал функции:

Полученный интервал означает: с вероятностью, равной 0,95 (т.е. в 95 случаях из 100) можно утверждать, что фактические значения функции будут находиться в границах:

или в общем случае

. (53)

Возьмем какого-либо станочника механического цеха из числа вошедших в выборку, например, Шанина С. В. (таблица 1, № 31). Его законченное образование 8 классов, общий стаж работы 14 лет. По найденному уравнению связи определяем вероятный, процент выполнения им нормы выработки:

Эта величина представляет собой наилучшее возможное в рамках модели приближение к действительности. Однако нельзя утверждать, что это реальный процент выполнения рабочим Шаниным С.В. его нормы выработки. Зато с большой уверенностью можно назвать интервал, в котором заключен его фактический процент выполнения. При вероятности 0,95 границы доверительного интервала для Шанина С.В. составят:

или .

Фактический процент выполнения норм выработки Шанина С.В. (175 %) действительно лежит в этом интервале. При меньшей надежности – 0,8 (т.е. в 80 случаях из 100) границы доверительного интервала сужаются до

Заметим, что в случае нелинейной регрессии доверительные границы носят приближенный характер.

Уравнение регрессии позволяет проводить прогноз функции двоякого рода: интерполяцию и экстраполяцию. В первом случае значения независимых факторов-аргументов лежат в пределах исходной совокупности и надежность результата определяется указанными ранее оценками: среднеквадратическим отклонением от регрессии, -значениями и др. Интерполяция была применена к прогнозу выработки Шанина С.В.

При экстраполяции значения независимых факторов-аргументов находятся вне исходной выборки, поэтому к результатам следует подходить с осторожностью. В рассматриваемом примере это может быть прогноз выработки рабочего 5-го – 6-го разрядов (в исходной совокупности 3-го – 4-го разрядов), Особенно осторожно следует экстраполировать во времени, когда исходные данные берутся за разные периоды времени.

Для обеспечения надежности экстраполяции необходимо соблюдение трех условий [28, с. 287 - 288]:

1) надежность и представительность исходных данных не должна вызывать сомнений;

2) возможность экстраполяции должна подтверждаться качественным анализом;

3) результатом экстраполяции должно быть не получение точной величины функции, а определение ее доверительного интервала.

Многое зависит и от "удаления" значений факторов-аргументов прогнозируемого наблюдения от исходной выборки. Если выход за рамки диапазона наблюдений незначительный, то и погрешность результата, связанная с этим, будет незначительной и с лихвой охватится ее доверительным интервалом. Чем дальше выходит прогноз за пределы наблюдений, чем выше риск получения ошибочной оценки. И все-таки в условиях отсутствия другой информации даже такие регрессии практически полезны.

Областью широкого применения регрессии в прогнозировании служат статистика качества продукции [27], прогноз производительности труда [3, 4, 7, 8, 17, 25, 31], себестоимости продукции [7, 21, 27, 29, 34], спроса на продукцию [2, 17], ритмичности производства, заработной платы [34] и т.п. Корреляционно-регрессионное моделирование используется для выбора экономических показателей [32].

В последние годы широкое развитие корреляционно-регрессионное моделирование получает в определении различных плановых нормативов: норм времени, трудоемкости, численности работающих различных категорий, длительности производственных циклов изготовления изделий, материалоемкости продукции, комплексных расходов в себестоимости продукции и т.д.

Занимаясь тем или иным прикладным вопросом корреляционно-регрессионного моделирования, студент должен самостоятельно или с помощью своего научного руководителя подобрать необходимую литературу по теме исследования, взяв указанные в данном разделе работы за отправной момент поиска.

Дата добавления: 2018-05-02; просмотров: 279; Мы поможем в написании вашей работы!

Поделиться с друзьями:

⇐ Предыдущая 1 2 3 4 5 6 7 8910 Следующая ⇒

Мы поможем в написании ваших работ!