Множественный регрессионный анализ

⇐ ПредыдущаяСтр 2 из 4Следующая ⇒

Построение уравнения множественной регрессии начинается с решения вопроса о спецификации модели, который в свою очередь включает 2 круга вопросов:

1. отбор факторов

2. выбор уравнения регрессии.

Отбор факторов обычно осуществляется в два этапа:

1. теоретический анализ взаимосвязи результата и круга факторов, которые оказывают на него существенное влияние;

2. количественная оценка взаимосвязи факторов с результатом. При линейной форме связи между признаками данный этап сводится к анализу корреляционной матрицы (матрицы парных линейных коэффициентов корреляции):

r_y,yr_y,x1r_y,x2....r_y,xm
r_x1,y r_x1,x2r_x2x2 .... r_x2,xm
r_xm,y r_xm,x1r_xm,x2....r_xm,xm

где r_y,xj– линейный парный коэффициент корреляции, измеряющий тесноту связи между признаками yихjj=1;m, m – число факторов.

r_xj,xk– линейный парный коэффициент корреляции, измеряющий тесноту связи между признаками.

Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям:

1. Они должны быть количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность (например, в модели урожайности качество почвы задается в виде баллов).

2. Каждый фактор должен быть достаточно тесно связан с результатом (т.е. коэффициент парной линейной корреляции между фактором и результатом должен быть существенным).

3. Факторы не должны быть сильно коррелированы друг с другом, тем более находиться в строгой функциональной связи (т.е. они не должны быть интеркоррелированы). Разновидностью интеркоррелированности факторов является мультиколлинеарность - тесная линейная связь между факторами.

Мультиколлинеарность может привести к нежелательным последствиям:

1. оценки параметров становятся ненадежными. Они обнаруживают большие стандартные ошибки. С изменением объема наблюдений оценки меняются (не только по величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования;

2. затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в «чистом» виде, ибо факторы коррелированны; параметры линейной регрессии теряют экономический смысл;

3. становится невозможным определить изолированное влияние факторов на результативный показатель.

Мультиколлинеарность имеет место, если определитель матрицы межфакторной корреляции близок к нулю:

Если же определитель матрицы межфакторной корреляции близок к единице, то мультиколлинеарностинет. Существуют различные подходы преодоления сильной межфакторной корреляции. Простейший из них – исключение из модели фактора (или факторов), в наибольшей степени ответственных за мультиколлинеарность при условии, что качество модели при этом пострадает несущественно (а именно, теоретический коэффициент детерминации -R²_y(x1...xm₎снизится несущественно).

Определение факторов, ответственных за мультиколлинеарность, может быть основано на анализе матрицы межфакторной корреляции. При этом определяют пару признаков-факторов, которые сильнее всего связаны между собой (коэффициент линейной парной корреляции максимален по модулю). Из этой пары в наибольшей степени ответственным за мультиколлинеарность будет тот признак, который теснее связан с другими факторами модели (имеет более высокие по модулю значения коэффициентов парной линейной корреляции).

Еще один способ определения факторов, ответственных за мультиколлинеарность основан на вычислении коэффициентов множественной детерминации (R²_{xj(x1,...,xj-1,xj+1,...,xm}₎), показывающего зависимость фактора xj от других факторов модели x1,...,xj-1, xj+1,...,xm. Чем ближе значение коэффициента множественной детерминации к единице, тем больше ответственность за мультиколлинеарность фактора, выступающего в роли зависимой переменной. Сравнивая между собой коэффициенты множественной детерминации для различных факторов можно проранжировать переменные по степени ответственности за мультиколлинеарность.

При выборе формы уравнения множественной регрессии предпочтение отдается линейной функции:

y_i =a+b₁·x1_i+ b₂·x2_i+...+ b_m·xm_i+u_i

Данное уравнение регрессии называют уравнением регрессии в естественном (натуральном) масштабе. Коэффициент регрессии b_jпри факторе хj называют условно-чистым коэффициентом регрессии. Он измеряет среднее по совокупности отклонение признака-результата от его средней величины при отклонении признака-фактора хj на единицу, при условии, что все прочие факторы модели не изменяются (зафиксированы на своих средних уровнях).

Если не делать предположения о значениях прочих факторов, входящих в модель, то это означало бы, что каждый из них при изменении хj также изменялся бы (так как факторы связаны между собой), и своими изменениями оказывали бы влияние на признак – результат.

Расчет параметров уравнения линейной множественной регрессии

Параметры уравнения множественной регрессии можно оценить методом наименьших квадратов, составив и решив систему нормальных линейных уравнений.

Кроме того, для линейной множественной регрессии существует другой способ реализации МНК при оценке параметров - через b-коэффициенты (через параметры уравнения регрессии в стандартных масштабах).

Модель регрессии в стандартном масштабе предполагает, что все значения исследуемых признаков переводятся в стандарты (стандартизованные значения) по формулам:

, j=1; m,

где хj_i- значение переменной хj_i в i-ом наблюдении.

Таким образом, начало отсчета каждой стандартизованной переменной совмещается с ее средним значением, а в качестве единицы изменения принимается ее среднее квадратическое отклонение s. Если связь между переменными в естественном масштабе линейная, то изменение начала отсчета и единицы измерения этого свойства не нарушат, так что и стандартизованные переменные будут связаны линейным соотношением:

Для оценки β-коэффициентов применим МНК. При этом система нормальных уравнений будет иметь вид:

r_x1y₌b1+r_x1x2∙b2+…+r_x1xm∙bm
r_x2y= r_x2x1∙b1+b2+…+ r_x2xm∙bm
r_xmy=r_xmx1∙b1+r_xmx2∙b2+…+bm

Найденные из данной системы b–коэффициенты позволяют определить значения коэффициентов в регрессии в естественном масштабе по формулам:

, j=1;m;

Показатели тесноты связи факторов с результатом.
Если факторные признаки различны по своей сущности и (или) имеют различные единицы измерения, то коэффициенты регрессии b_jпри разных факторах являются несопоставимыми. Поэтому уравнение регрессии дополняют соизмеримыми показателями тесноты связи фактора с результатом, позволяющими ранжировать факторы по силе влияния на результат. К таким показателям тесноты связи относят: частные коэффициенты эластичности, b–коэффициенты, частные коэффициенты корреляции.

Частные коэффициенты эластичности Э_j рассчитываются по формуле:

Частный коэффициент эластичности показывают, на сколько процентов в среднем изменяется признак – результат y с изменением признака-фактора хj на один процент от своего среднего уровня при фиксированном положении других факторов модели. В случае линейной зависимости Э_j рассчитываются по формуле:

где –оценка коэффициента регрессии при j–ом факторе.
Стандартизированные частные коэффициенты регрессии – b-коэффициенты (b_j) показывают, на какую часть своего среднего квадратического отклонения s_у изменится признак-результат y с изменением соответствующего фактора хj на величину своего среднего квадратического отклонения (s_хj) при неизменном влиянии прочих факторов (входящих в уравнение).

По коэффициентам эластичности и b -коэффициентам могут быть сделаны противоположные выводы. Причины этого: а) вариация одного фактора очень велика; б) разнонаправленное воздействие факторов на результат.

Коэффициент b_j может также интерпретироваться как показатель прямого (непосредственного) влияния j-ого фактора (x_j) на результат (y). Во множественной регрессии j-ый фактор оказывает не только прямое, но и косвенное (опосредованное) влияние на результат (т.е. влияние через другие факторы модели). Косвенное влияние измеряется величиной:

где m-число факторов в модели. Полное влияние j-ого фактора на результат равное сумме прямого и косвенного влияний измеряет коэффициент линейной парной корреляции данного фактора и результата – r_xj,y.

Коэффициент частной корреляции измеряет «чистое» влияние фактора на результат при устранении воздействия прочих факторов модели.
Для расчета частных коэффициентов корреляции могут быть использованы парные коэффициенты корреляции.

Для случая зависимости y от двух факторов можно вычислить 2 коэффициента частной корреляции:

,
(фактор х2 фиксирован).

(фактор х1 фиксирован).

Это коэффициенты частной корреляции 1-ого порядка (порядок определяется числом факторов, влияние которых устраняется).
Частные коэффициенты корреляции, рассчитанные по таким формулам изменяются от –1 до +1. Они используются не только для ранжирования факторов модели по степени влияния на результат, но и также для отсева факторов. При малых значениях r_{yxm/x1,x2…xm-}₁нет смысла вводить в уравнение m-ый фактор, т.к. его чистое влияние на результат несущественно.

Коэффициенты множественной детерминации и корреляции характеризуют совместное влияние всех факторов на результат.
По аналогии с парной регрессией можно определить долю вариации результата, объясненной вариацией включенных в модель факторов (d²), в его общей вариации (s²_y). Ее количественная характеристика – теоретический множественный коэффициент детерминации (R²_y(x1,...,xm₎). Для линейного уравнения регрессии данный показатель может быть рассчитан через b-коэффициенты, как:

Дата добавления: 2018-05-09; просмотров: 727; Мы поможем в написании вашей работы!

Поделиться с друзьями:

⇐ Предыдущая 123 4 Следующая ⇒

Мы поможем в написании ваших работ!