ЭКОНОМИКО-СТАТИСТИЧЕСКИЙ АНАЛИЗ УРАВНЕНИЙ РЕГРЕССИИ
Экономико-статистический анализ корреляционно-регрессионной модели на адекватность реальным условиям включает в себя математическую проверку:
1) целесообразности включения выбранных факторов в модель (уравнение) регрессии;
2) правомерности распространения свойств модели, полученных по данным выборок, на генеральную совокупность.
Проверка целесообразности включения каждого фактора в модель осуществляется по данным шаговой регрессии. О значимости введенного фактора можно судить по изменениям коэффициента множественной корреляций и среднеквадратического отклонения от регрессии :
, (35)
где – фактическое значение функции в j-м наблюдении;
– значение функции, рассчитанное по уравнению регрессии для фактических значений в j-м наблюдении.
Таким образом, показывает меру рассеяния фактических значений функции от оценок, получаемых по уравнению регрессии, т.е. меру "приближения" рассчитанного уравнения регрессии к моделируемому процессу.
Если на анализируемом шаге регрессии произошло увеличение коэффициента множественной корреляции и уменьшение , то, следовательно, введенный фактор увеличил общее влияние факторов-аргументов на функцию и повысил точность расчетных значений функции. В рассматриваемом уравнении линейной регрессии введение на втором шаге привело к росту на 12,5 % и увеличению точности оценок на 5,8 %. В нелинейной регрессии повышение точности составило 1,6 %. Следовательно, введение в модель можно пока предположить целесообразным.
|
|
Более строгую оценку полезности для уравнения введенного фактора дает сравнение расчетного F-значения для дисперсионного анализа с табличным , приведенным в приложении 8 при и степенях свободы. В F-значении находит отражение среднеквадратичное отклонение от регрессии:
, (36)
где
. (37)
Если , (38)
то влияние включенных в уравнение регрессии факторов на функцию весьма достоверно.
В рассматриваемом примере при = 2и = 47 имеем = 3,23; при = 3 и = 46 имеем = 2,84. Расчетные значения F сведены в таблицу 7.
Таблица 7 – Анализ факторов корреляционно-регрессионных уравнений по значению F для дисперсионного анализа
Шаги регрессии | Включаемые переменные |
| Расчетное значение F для уравнений регрессии | |
линейной | Нелинейной | |||
1 | 3,23 | 22,669 | 17,357 | |
2 | 2.84 | 16,876 | 11,246 |
Анализ таблицы 7 показывает правомерность включения по имеющимся исходным данным выборок и переменной , и переменной в линейное и нелинейное уравнения регрессии. При этом более сильное влияние аргументов на функцию наблюдается в линейном уравнении.
|
|
Широко известным критерием оценки качества полученного уравнения регрессии (по имеющимся данным выборок) является средний коэффициент (ошибка) аппроксимации:
. (39)
Ее допустимая величина колеблется в пределах 12 – 15 % [18, с. 44]. В рассматриваемом примере для линейного уравнения = 7,3 %, для нелинейного = 8,18 %. Очевидно, линейное уравнение лучше описывает моделируемый процесс.
Наконец, в качестве одного из критериев правильности полученного уравнения регрессии можно использовать отношение среднеквадратического отклонения от регрессии к коэффициенту, характеризующему нормальность распределения отклонений . В случае хорошего согласия уравнения с исходами данными это отношение должно стремиться к единице, т.е.
(40)
В рассматриваемое примере имеем:
для линейного уравнения: ; .
для нелинейного уравнения:
Очевидно, предпочтительнее взять лилейное уравнение.
Заметим, что двумя последними критериями в соответствии с используемыми программами можно пользоваться на последнем шаге регрессии. Если по результатам предшествующего экономико-статистического анализа будет целесообразно выбрать не окончательное, а промежуточное уравнение регрессии, следует весь расчет повторить сначала, отбросить незначащие факторы и уже для выбранного уравнения выполнить дополнительную проверку по формулам (39), (40).
|
|
Выполненный анализ обоих уравнений по изменению множественного коэффициента корреляции , F-значению и, наконец, по и позволяет:
1) выбрать в качестве уравнения регрессии, наиболее адекватного исследуемому процессу влияния субъективных факторов производительности труда на и изменение процентов выполнения норм выработки станочников механического цеха, линейное уравнение:
;
2) признать его полную адекватность имеющимся данным исходных выборок.
Выполним теперь проверку правомерности распространения найденного уравнения регрессии на генеральную совокупность, т.е. проверку правомерности его практического использования.
В качестве такого критерия можно использовать проверку значимости коэффициентов полученного уравнения регрессии по Т-значению:
|
|
, (41)
где – стандартная (среднеквадратическая) ошибка коэффициента регрессии при i-й переменной, i = 2, 3, …, р.
Если , (42)
то проверяемый коэффициент регрессии является значимым.
Значения приведены в приложении 7 при степенях свободы и различном уровне значимости.
Несоблюдение неравенства (42) при наличии предварительно установленной по критерию Стьюдента надежности соответствующего коэффициента парной или частной корреляции говорит о нелинейности связи между функцией и рассматриваемым аргументом.
В данном примере примем наиболее употребительный уровень значимости 0,05 (таблица 8).
Таблица 8 – Анализ значимости коэффициентов регрессии в уравнениях шаговой регрессий
Шаги регрессии | Включаемые переменные | V |
| Расчетное значение F для уравнений регрессии | |
линейной | Нелинейной | ||||
1 | 48 | 2,02 | 4,761 | 4,238 | |
2 | 47 | 2,02 | 5,236 | 4,244 | |
2 | 2,802 | 1,890 |
Данные таблицы 8 по нелинейному уравнению подтверждают установленную ранее нелинейную связь между и , так как (1,89 < 2,02). Но степень нелинейности невелика, так как по линейному уравнению . В линейном уравнении все коэффициенты значимы, следовательно, его можно с полной уверенностью применять на практике.
При исследовании адекватности уравнения регрессии нельзя забывать о таком явлении, как автокорреляция. Под автокорреляцией понимается корреляция между членами одного и того же динамического ряда. Ее наличие в исходных данных приводит к низкой надежности получаемого уравнения регрессии.
Существует ряд методов обнаружения автокорреляции. Наиболее простым и достаточно обоснованным является метод, предложенный Дарбином и Уотсоном. Был сконструирован критерий, связанный с гипотезой о существовании автокорреляции первого порядка, т.е. автокорреляции между соседними членами ряда, составленного из разностей фактических и расчетных (по уравнению регрессии) значений функции . Соответствующая критерию Дарбина - Уотсона статистика (отношение Дарбина) имеет вид:
, (43)
где . (44)
Коэффициент называется первым нециклическим коэффициентом автокорреляции. Если автокорреляция отсутствует, он равен 0. Если же наблюдается полная автокорреляция, то он равен +1 или -1. Отсюда следует, что при отсутствии автокорреляции , а при полной автокорреляции =0 или =4.
Для -статистики найдены критические границы, позволяющие принять или отвергнуть гипотезу о существовании автокорреляции. Верхние и нижние границы -статистики при уровне значимости 0,05 и числе независимых переменных приведены в таблице 9.
(45) |
автокорреляция отрицательна, если ;
автокорреляция отсутствует, если .
Если величина расчетной -статистики находится в пределах или , то нет статистических оснований ни принять, ни отвергнуть эту гипотезу.
Таблица 9 – Значения критерия Дарбина - Уотсона при уровне значимости 0,05 [14, с, 160]
Число наблюдений |
|
|
|
| ||||||
15 | 1,08 | 1,36 | 0,95 | 1,54 | 0,82 | 1,75 | 0,69 | 1,97 | 0,56 | 2,21 |
16 | 1,10 | 1,37 | 0,98 | 1,54 | 0,86 | 1,73 | 0,74 | 1,93 | 0,62 | 2,15 |
17 | 1,13 | 1,38 | 1,02 | 1,54 | 0,90 | 1,71 | 0,78 | 1,90 | 0,67 | 2,10 |
18 | 1,10 | 1,39 | 1,05 | 1,53 | 0,93 | 1,69 | 0,82 | 1,87 | 0,71 | 2,06 |
19 | 1,18 | 1,40 | 1,08 | 1,53 | 0,97 | 1,63 | 0,86 | 1,85 | 0,75 | 2,02 |
20 | 1,20 | 1,41 | 1,10 | 1,54 | 1,00 | 1,68 | 0,90 | 1,83 | 0,79 | 1,99 |
22 | 1,24 | 1,43 | 1,15 | 1,54 | 1,05 | 1,66 | 0,96 | 1,80 | 0,86 | 1,94 |
24 | 1,27 | 1,45 | 1,19 | 1,55 | 1,10 | 1,66 | 1,01 | 1,78 | 0,93 | 1,90 |
26 | 1,30 | 1,46 | 1,22 | 1,55 | 1,14 | 1,65 | 1,06 | 1,76 | 0,98 | 1,88 |
28 | 1,33 | 1,48 | 1,26 | 1,56 | 1,18 | 1,65 | 1,10 | 1,75 | 1,03 | 1,85 |
30 | 1,35 | 1,49 | 1,28 | 1,57 | 1,21 | 1,65 | 1,14 | 1,74 | 1,07 | 1,83 |
35 | 1,40 | 1,52 | 1,34 | 1,58 | 1,28 | 1,65 | 1,22 | 1,73 | 1,16 | 1,80 |
40 | 1,44 | 1,54 | 1,39 | 1,60 | 1,34 | 1,66 | 1,29 | 1,72 | 1,23 | 1,79 |
50 | 1,50 | 1,59 | 1,46 | 1,63 | 1,42 | 1,67 | 1,38 | 1,72 | 1,34 | 1,77 |
60 | 1, 55 | 1,62 | 1,51 | 1,65 | 1,48 | 1,69 | 1,44 | 1,73 | 1,41 | 1,77 |
70 | 1,56 | 1,64 | 1,55 | 1,67 | 1,52 | 1,70 | 1,49 | 1,74 | 1,46 | 1,77 |
80 | 1,61 | 1,66 | 1,59 | 1,69 | 1,56 | 1,72 | 1,53 | 1,74 | 1,51 | 1,77 |
90 | 1,63 | 1,68 | 1,61 | 1,70 | 1,69 | 1,73 | 1,57 | 1,75 | 1,54 | 1,78 |
100 | 1,65 | 1,69 | 1,63 | 1,72 | 1,61 | 1,74 | 1,59 | 1,76 | 1,57 | 1,78 |
В рассматриваемом примере для линейного уравнения регрессии оценка первого нециклического коэффициента автокорреляции = -0,158. Она значительно ближе к 0, нежели к 1. Поэтому можно говорить о наличии небольшой автокорреляции в исходных данных.
Расчетное значение -статистики для рассматриваемого линейного уравнения (отношение Дарбина) равно 2,314. Для двух независимых переменных (m = 2) и 50 наблюдений верхняя и нижняя границы критерия Дарбина - Уотсона = 1,46; = 1,63. Проверив зависимости (45), получим:
1,63 < 2,314 < 4 -1,63
или 1,63 < 2,314 < 2,37.
Следовательно, автокорреляция исходных данных отсутствует. Таким образом, окончательная экономико-математическая модель зависимости процентов выполнения норм выработки станочников механического цеха от законченного образования и общего стажа их работы , адекватная реальным условиям механического цеха Тульского комбайнового завода, представлена следующей линейной функцией:
. (46)
Статистическая наука выработала несколько методов исключения автокорреляции:
1) метод Фриша - Boy,
2) метод последовательных разностей,
3) метод авторегрессионных преобразований.
Согласно методу Фриша - Boy в уравнение регрессии вводится время в качестве дополнительного фактора. Тогда уравнения регрессии (30) и (31) принимают вид:
линейные: ; (47)
степенные: . (48)
В соответствии с этим методом при обнаружении автокорреляции в модель (в уравнение регрессии) вводят еще одну переменную – время (переменная вводится следующим рядом чисел: 1, 2, 3, 4, ..., n) и производят перерасчет параметров регрессии. Если и после этого автокорреляция будет значительной, судя по -статистике, следует использовать другие метода исключения автокорреляции [18, c. 87 - 90]. Если и они не помогут, надо пересмотреть набор переменных, включаемых в уравнение, и уточнить вид уравнения.
Наиболее сложным этапом, завершающим корреляционно-регрессионное моделирование, является интерпретация уравнения, т.е. перевод его с языка статистики и математики на язык экономиста. Интерпретация [18, c. 44] начинается с выяснения того, как каждый аргумент влияет на функцию. Характеристикой этого влияния является соответствующий коэффициент регрессии . Если он положителен, то с увеличением аргумента происходит рост функции, если отрицателен, – то уменьшение функции. Полученный знак коэффициентов должен быть проанализирован с точки зрения здравого смысла и экономической теории. Если наблюдается противоречие между полученными результатами и теорией, необходимо проверить возможность появления ошибок на всех этапах экономико-математического моделирования.
В рассматриваемом уравнении (46) коэффициенты регрессий при показателях законченное образование и общего стажа их работы станочников положительны. Так, при повышении уровня образования рабочего на один год предполагаемый процент роста нормы его выработки увеличится на 3,77 %, а при увеличении стажа работы на один год – на 1,24 %. Подобное толкование рассматриваемой зависимости не противоречит ни здравому смыслу, ни законам социологии. Следовательно, полученное уравнение регрессии вполне может быть использовано в практических расчетах.
Далее необходимо определить силу и долю влияния на функцию каждого из вошедших в модель аргументов.
Силу влияния каждого аргумента на функцию можно найти о помощью -коэффициентов уравнения регрессии в стандартизованном масштабе. Линейное уравнение (30) в стандартизованном масштабе имеет следующий вид:
; (49)
где – среднее значение стандартизованной переменной , соответствующее задаваемым значениям переменных ;
– стандартизованные коэффициенты регрессии;
– значение i -го фактора в стандартизованном масштабе,
. (50)
Так как в уравнении (49) вcе переменные выражены в одних единицах измерения, то доказывают сравнительную силу влияния каждого аргумента на функцию.
В рассматриваемом уравнении (46) = 0,312; = 0,584 (см. приложение 4). Следовательно, сила влияния на функцию третьей переменной в 1,87 раза выше, чем второй.
Для определения доли влияния аргументов на функцию находятся произведения парных коэффициентов корреляции функции с каждым аргументом ( = 2, 3,…, р) и -коэффициентов. Полученные произведения представляют собой частные коэффициенты детерминации, которые измеряют долю в общей вариации функции от вариации признака . Сумма коэффициентов частной детерминации равна коэффициенту совокупной детерминации. Она принимается за 100 % и по частным коэффициентам детерминации определяется доля каждого фактора в этой сумме.
Дм уравнения (46 ) данный расчет представлен в таблице 10.
Таблица 10 – Определение доли влияния каждого фактора на функцию по уравнению (46)
Фактор | Условное обозначение | Исходные данные | Расчет | ||
Доля влияния, % | |||||
Законченное образование | 0,28 | 0,312 | 0,0874 | 20,9 | |
Общий стаж | 0,566 | 0,584 | 0,3305 | 79,1 | |
Итого… | 0,4179 | 1100 |
Почти 80 % общей вариации процентов выполнения норм выработки станочников вызвано изменением общего стажа их работы и только 20 % – законченным образованием (разумеется, из числа учтенных факторов).
Уравнение регрессии позволяет прогнозировать значения функции в зависимости от значений аргументов . Так, в рассматриваемом примере можно предсказать процент выполнения норм выработки тем или иным рабочим анализируемого цеха, если известно его законченное образование и общий стаж работы. При практической работе с полученным уравнением может возникнуть необходимость прогноза изменения функции при изменении того или иного аргумента, вошедшего в уравнение. Например, нас интересует изменение процента выполнения норм выработки в цехе при увеличении среднего образования рабочих на 2 % и общего стажа их работы 5 % (указанное увеличение взято цехом в качестве плановых соцобязательств на текущий год).
Для решения поставленной задачи можно воспользоваться коэффициентами эластичности:
, (51)
где – коэффициент эластичности, показывающий изменение функции при изменении i-го фактора на 1 % от его среднего значения;
– расчетное значение функции, полученное при средних значениях факторов, участвующих в уравнении.
В рассматриваемом уравнении коэффициенты эластичности (см. приложение 4) = 0,177, = 0,129. Тогда прогнозное изменение процента выполнения норм выработки станочниками цеха:
или
Прогнозируя функцию по рассчитанному уравнению регрессии, естественно полагать, что фактические ее значения не будут совпадать с расчетными, так как уравнение регрессии описывает связь лишь в общем, в среднем. Поэтому важным и завершающим моментом интерпретации уравнения регрессии является установление надежности получаемых по нему прогнозных решений.
Мерой надежности в линейной регрессии является среднее квадратическое отклонение от регрессии, которое характеризует степень рассеяния фактических значений функции от расчетных . Для большей точности при малом числе наблюдений ( ) производится корректировка :
. (52)
Доверительный интервал, в котором с заданной вероятностью будет заключаться расчетное значение функции в генеральной совокупности, определяется так:
, (53)
где – табличное значение распределения Стьюдента при числе степеней свободы (см. приложение 7).
Уровень значимости принимается обычно 0,05. Он соответствует 95 %-ному уровню надежности.
В рассматриваемом уравнении (46) = 18,755 и,значит, доверительный интервал функции:
.
Полученный интервал означает: с вероятностью, равной 0,95 (т.е. в 95 случаях из 100) можно утверждать, что фактические значения функции будут находиться в границах:
или в общем случае
. (53)
Возьмем какого-либо станочника механического цеха из числа вошедших в выборку, например, Шанина С. В. (таблица 1, № 31). Его законченное образование 8 классов, общий стаж работы 14 лет. По найденному уравнению связи определяем вероятный, процент выполнения им нормы выработки:
Эта величина представляет собой наилучшее возможное в рамках модели приближение к действительности. Однако нельзя утверждать, что это реальный процент выполнения рабочим Шаниным С.В. его нормы выработки. Зато с большой уверенностью можно назвать интервал, в котором заключен его фактический процент выполнения. При вероятности 0,95 границы доверительного интервала для Шанина С.В. составят:
или .
Фактический процент выполнения норм выработки Шанина С.В. (175 %) действительно лежит в этом интервале. При меньшей надежности – 0,8 (т.е. в 80 случаях из 100) границы доверительного интервала сужаются до
Заметим, что в случае нелинейной регрессии доверительные границы носят приближенный характер.
Уравнение регрессии позволяет проводить прогноз функции двоякого рода: интерполяцию и экстраполяцию. В первом случае значения независимых факторов-аргументов лежат в пределах исходной совокупности и надежность результата определяется указанными ранее оценками: среднеквадратическим отклонением от регрессии, -значениями и др. Интерполяция была применена к прогнозу выработки Шанина С.В.
При экстраполяции значения независимых факторов-аргументов находятся вне исходной выборки, поэтому к результатам следует подходить с осторожностью. В рассматриваемом примере это может быть прогноз выработки рабочего 5-го – 6-го разрядов (в исходной совокупности 3-го – 4-го разрядов), Особенно осторожно следует экстраполировать во времени, когда исходные данные берутся за разные периоды времени.
Для обеспечения надежности экстраполяции необходимо соблюдение трех условий [28, с. 287 - 288]:
1) надежность и представительность исходных данных не должна вызывать сомнений;
2) возможность экстраполяции должна подтверждаться качественным анализом;
3) результатом экстраполяции должно быть не получение точной величины функции, а определение ее доверительного интервала.
Многое зависит и от "удаления" значений факторов-аргументов прогнозируемого наблюдения от исходной выборки. Если выход за рамки диапазона наблюдений незначительный, то и погрешность результата, связанная с этим, будет незначительной и с лихвой охватится ее доверительным интервалом. Чем дальше выходит прогноз за пределы наблюдений, чем выше риск получения ошибочной оценки. И все-таки в условиях отсутствия другой информации даже такие регрессии практически полезны.
Областью широкого применения регрессии в прогнозировании служат статистика качества продукции [27], прогноз производительности труда [3, 4, 7, 8, 17, 25, 31], себестоимости продукции [7, 21, 27, 29, 34], спроса на продукцию [2, 17], ритмичности производства, заработной платы [34] и т.п. Корреляционно-регрессионное моделирование используется для выбора экономических показателей [32].
В последние годы широкое развитие корреляционно-регрессионное моделирование получает в определении различных плановых нормативов: норм времени, трудоемкости, численности работающих различных категорий, длительности производственных циклов изготовления изделий, материалоемкости продукции, комплексных расходов в себестоимости продукции и т.д.
Занимаясь тем или иным прикладным вопросом корреляционно-регрессионного моделирования, студент должен самостоятельно или с помощью своего научного руководителя подобрать необходимую литературу по теме исследования, взяв указанные в данном разделе работы за отправной момент поиска.
Дата добавления: 2018-05-02; просмотров: 279; Мы поможем в написании вашей работы! |
Мы поможем в написании ваших работ!