Раздел 2. Модель парной линейной регрессии

⇐ ПредыдущаяСтр 3 из 17Следующая ⇒

экономические данные представляют собой количественные характеристики каких-либо экономических объектов или процессов. Они формируются под действием множества факторов, не все из которых доступны внешнему контролю. Неконтролируемые факторы могут принимать случайные значения из некоторого множества значений и тем самым обуславливать случайность данных, которые они определяют. Стохастическая (вероятностная) природа экономических данных обуславливает необходимость применения соответствующих статистических методов для их обработки и анализа.

Статистические распределения характеризуются наличием более или менее значительной вариации в величине признака у отдельных единиц совокупности. Естественно, возникает вопрос о том, какие же причины формируют уровень признака в данной совокупности и каков конкретный вклад каждой из них. Изучение зависимости вариации признака от окружающих условий и составляет содержание теории корреляции.

Изучение действительности показывает, что вариация каждого изучаемого признака находится в тесной связи и взаимодействии с вариацией других признаков, характеризующих исследуемую совокупность единиц. Вариация уровня производительности труда работников предприятий зависит от степени совершенства применяемого оборудования, технологии, организации производства, труда и управления и других самых различных факторов.

При изучении конкретных зависимостей одни признаки выступают в качестве факторов, обусловливающих изменение других признаков. Признаки этой первой группы в дальнейшем будем называть признаками-факторами (факторными признаками); а признаки, которые являются результатом влияния этих факторов, будем называть результативными. Например, при изучении зависимости между производительностью труда рабочих и энерговооруженностью их труда уровень производительности труда является результативным признаком, а энерговооруженность труда рабочих - факторным признаком.

Рассматривая зависимости между признаками, необходимо выделить, прежде всего, две категории зависимости: 1) функциональные и 2) корреляционные.

Функциональные связи характеризуются полным соответствием между изменением факторного признака и изменением результативной величины, и каждому значению признака-фактора соответствуют вполне определенные значения результативного признака. Функциональная зависимость может связывать результативный признак с одним или несколькими факторными признаками. Так, величина начисленной заработной платы при повременной оплате труда зависит от количества отработанных часов.

В корреляционных связях между изменением факторного и результативного признака нет полного соответствия, воздействие отдельных факторов проявляется лишь в среднем при массовом наблюдении фактических данных. Одновременное воздействие на изучаемый признак большого количества самых разнообразных факторов приводит к тому, что одному и тому же значению признака-фактора соответствует целое распределение значений результативного признака, поскольку в каждом конкретном случае прочие факторные признаки могут изменять силу и направленность своего воздействия.

При сравнении функциональных и корреляционных зависимостей следует иметь в виду, что при наличии функциональной зависимости между признаками можно, зная величину факторного признака, точно определить величину результативного признака. При наличии же корреляционной зависимости устанавливается лишь тенденция изменения результативного признака при изменении величины факторного признака. В отличие от жесткости функциональной связи корреляционные связи характеризуются множеством причин и следствий и устанавливаются лишь их тенденции.

Корреляционный анализ

Основная задача корреляционного анализазаключается в выявлении взаимосвязи между случайными переменными путем точечной и интервальной оценки парных (частных) коэффициентов корреляции, вычисления и проверки значимости множественных коэффициентов корреляции и детерминации. Кроме того, с помощью корреляционного анализа решаются следующие задачи: отбор факторов, оказывающих наиболее существенное влияние на результативный признак, на основании измерения степени связи между ними; обнаружение ранее неизвестных причинных связей. Корреляция непосредственно не выявляет причинных связей между параметрами, но устанавливает численное значение этих связей и достоверность суждений об их наличии.

Выборочная ковариация является мерой взаимосвязи между двумя переменными. Ковариация между двумя переменными и рассчитывается следующим образом:

где - фактические значения случайных переменных и ,

, (выборочные средние).

ковариация - это статистическая мера взаимодействия двух случайных переменных, таких, например, как доходности двух ценных бумаг. Положительное значение ковариации показывает, что доходности этих ценных бумаг имеют тенденцию изменяться в одну сторону. Ковариация зависит от единиц, в которых измеряются переменные и

Поэтому для измерения силы связи между двумя переменными используется другая статистическая характеристика, называемая коэффициентом корреляции, и определяемая следующим образом:

В этой формуле является выборочной дисперсией переменной и определяется по следующей формуле:

Аналогично определяется выборочная дисперсия переменной ( ).

Выборочная дисперсия характеризует степень разброса значений ( ) вокруг своего среднего ( , соответственно), или вариабельность (изменчивость) этих переменных на множестве наблюдений.

Метод наименьших квадратов

В данном разделе показано, как, используя соответствующие данные, можно получить количественное выражение гипотетического линейного соотношения между двумя переменными. Для этого объясняется важный принцип регрессионного анализа – метод наименьших квадратов, с помощью которого выводятся формулы, выражающие коэффициенты регрессии.

Теперь мы обсудим вопрос о том, каким образом можно (хотя бы приблизительно) восстановить гипотетическую линейную связь между переменными, если таковая действительно существует.

Мы уже заметили, что при наличии объективной тенденции поддержания линейной связи между переменными и естественно рассмотреть линейную модель наблюдений

Здесь - постоянная величина (или свободный член уравнения), - коэффициент регрессии, определяющий наклон линии, вдоль которой рассеяны данные наблюдений. Это показатель, характеризующий изменение переменной , при изменении значения на единицу. Если - переменные и положительно коррелированные, если < 0 – отрицательно коррелированны.

С помощью случайных величин мы учитываем влияние на переменную всех неучтенных явно факторов. Относительно них предполагается выполнимость условий Гаусса-Маркова:

1. (математическое ожидание случайных величин равно нулю).

2. для всех (дисперсии случайных величин однородны)

3. распределено независимо от ( ).

Для оценки параметров регрессионного уравнения ( и )наиболее часто используют метод наименьших квадратов (МНК), согласно которому, оценки и находятся путем минимизации суммы квадратов случайных величин :

по всем возможным значениям и при заданных (наблюдаемых) значениях . Задача сводится к известной математической задаче поиска точки минимума функции двух переменных. Точка минимума находится путем приравнивания нулю частных производныхфункции по переменным и . Это приводит к системе линейных уравнений

Решив ее, найдем следующие выражения для оценок и :

(2.1)

(2.2)

Такое решение может существовать только при выполнении условия

которое называется условием идентифицируемости модели наблюдений , и означает, что не все значения совпадают между собой. При нарушении этого условия всеточки , лежат на однойвертикальной прямой

Оценки и называют оценками наименьших квадратов.

Пример 2.1. Бюджетное обследование семи случайно выбранных семей дало следующие результаты (в тыс. долларов):

Наблюдение	Накопления	доход
	y	x
1	3	40
2	6	55
3	5	45
4	3.5	30
5	1.5	30
6	4.5	50
7	2	35

Предполагая, что накопление линейно зависит от дохода, определить оценки неизвестных параметров уравнения регрессии ( и ).

Решение. Для вычисления оценок параметров модели следует воспользоваться формулами (2.1) и (2.2). Промежуточные расчеты приведены в таблице 2.1.

Таблица 2.1.

Наблюдение	y	x			²
1	3	40	-0.643	-0.714	0.510	0.459
2	6	55	2.357	14.286	204.082	33.673
3	5	45	1.357	4.286	18.367	5.816
4	3.5	30	-0.143	-10.714	114.796	1.531
5	1.5	30	-2.143	-10.714	114.796	22.959
6	4.5	50	0.857	9.286	86.224	7.959
7	2	35	-1.643	-5.714	32.653	9.388
сумма	25.5	285.00			571.429	81.786
среднее	3.643	40.714

= 3.643 - 0.143125* 40.714= -2.184.

Построена модель зависимости накопления от дохода: .

Качество модели регрессии связывают с адекватностью модели наблюдаемым (эмпирическим) данным. Проверка адекватности (или соответствия) модели регрессии наблюдаемым данным проводится на основе анализа наблюдаемых остатков , где (модельные значения). Если для всех , то для всех наблюдений фактические значения зависимой переменной совпадают с модельными значениями. Графически это означает, что линия регрессии (линия, построенная по функции ) проходит через все точки наблюдений, что возможно только при строго функциональной связи. Следовательно, результативный признак полностью обусловлен влиянием фактора .

На практике, как правило, имеет место некоторое рассеивание точек наблюдений относительно линии регрессии, т. е. отклонения эмпирических данных от теоретических ( ). Величина этих отклонений и лежит в основе расчета показателей качества (адекватности) уравнения.

Коэффициент детерминации

При анализе качества модели регрессии используется основное положение дисперсионного анализа, согласно которому общая сумма квадратов отклонений зависимой переменной от среднего значения может быть разложена на две составляющие — объясненную и необъясненную уравнением регрессии дисперсии:

. (2.3)

Разделив правую и левую часть (2.3) на и перенеся первое слагаемое правой части в левую часть, получим определение коэффициента детерминации :

… (2.4)

Введем следующие обозначения:

, , .

В этих обозначениях соотношение (2.4) принимает вид:

…………….. … (2.5)

Коэффициент детерминациипоказывает долю вариации результативного признака, находящегося под воздействием изучаемого фактора, т. е. определяет, какая доля вариации результативного признака учтена в модели и обусловлена влиянием на него объясняющего фактора . Коэффициент детерминации меняется в диапазоне от 0 до 1 и чем ближе он к 1, тем выше качество модели.

Дата добавления: 2019-09-02; просмотров: 237; Мы поможем в написании вашей работы!

Поделиться с друзьями:

⇐ Предыдущая 1 234 5 6 7 8 9 10 Следующая ⇒

Мы поможем в написании ваших работ!