Коэффициенты уравнения парной линейной регрессии



Министерство науки и образования РК

Евразийский Технологический Университет

 


 

РЕФЕРАТ

      

                 На тему: «Регрессионный анализ»

 

                                                                               

 

 

                                                                            Выполнила: Самазбаева А.

                                                              Проверила: Иматаева А.

 

                                          

                                        

 

                                           

 

                                           Алматы 2015 г.

Оглавление

 

Введение

1. Корреляционные поля и цель их построения

2. Понятие регрессии

2.1 Уравнение линейной регрессии

2.2 Коэффициенты уравнения парной линейной регрессии

2.3 Связь между коэффициентами регрессии и корреляции

2.4 Определение параметров парной линейной регрессии

2.5 Графическое представление уравнения парной линейной Регрессии

Заключение

Список литературы


Введение

 

Обработка статистических данных уже давно применяется в самых разнообразных видах человеческой деятельности. Вообще говоря, трудно назвать ту сферу, в которой она бы не использовалась. Но, пожалуй, ни в одной области знаний и практической деятельности обработка статистических данных не играет такой исключительно большой роли, как в экономике, имеющей дело с обработкой и анализом огромных массивов информации о социально-экономических явлениях и процессах. Всесторонний и глубокий анализ этой информации, так называемых статистических данных, предполагает использование различных специальных методов, важное место среди которых занимает корреляционный и регрессионный анализы обработки статистических данных.

В экономических исследованиях часто решают задачу выявления факторов, определяющих уровень и динамику экономического процесса. Такая задача чаще всего решается методами корреляционного и регрессионного анализа. Для достоверного отображения объективно существующих в экономике процессов необходимо выявить существенные взаимосвязи и не только выявить, но и дать им количественную оценку. Этот подход требует вскрытия причинных зависимостей.

Основными задачами корреляционного анализа являются оценка силы связи и проверка статистических гипотез о наличии и силе корреляционной связи. Не все факторы, влияющие на экономические процессы, являются случайными величинами, поэтому при анализе экономических явлений обычно рассматриваются связи между случайными и неслучайными величинами. Такие связи называются регрессионными, а метод математической статистики, их изучающий, называется регрессионным анализом.


Корреляционные поля и цель их построения

 

Корреляция изучается на основании экспериментальных данных, представляющих собой измеренные значения (xi, yi) двух признаков. Если экспериментальных данных немного, то двумерное эмпирическое распределение представляется в виде двойного ряда значений xi и yi. При этом корреляционную зависимость между признаками можно описывать разными способами. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д.

Корреляционный анализ, как и другие статистические методы, основан на использовании вероятностных моделей, описывающих поведение исследуемых признаков в некоторой генеральной совокупности, из которой получены экспериментальные значения xi и yi.

Когда исследуется корреляция между количественными признаками, значения которых можно точно измерить в единицах метрических шкал (метры, секунды, килограммы и т.д.), то очень часто принимается модель двумерной нормально распределенной генеральной совокупности. Такая модель отображает зависимость между переменными величинами xi и yi графически в виде геометрического места точек в системе прямоугольных координат. Эту графическую зависимость называются также диаграммой рассеивания или корреляционным полем.

Данная модель двумерного нормального распределения (корреляционное поле) позволяет дать наглядную графическую интерпретацию коэффициента корреляции, т.к. распределение в совокупности зависит от пяти параметров: mx, my – средние значения (математические ожидания); sx,sy – стандартные отклонения случайных величин Х и Y и р – коэффициент корреляции, который является мерой связи между случайными величинами Х и Y.

Если р = 0, то значения, xi, yi, полученные из двумерной нормальной совокупности, располагаются на графике в координатах х, у в пределах области, ограниченной окружностью (рис.1.3, а). В этом случае между случайными величинами Х и Y отсутствует корреляция и они называются некоррелированными. Для двумерного нормального распределения некоррелированность означает одновременно и независимость случайных величин Х и Y.

 

Рис.1.3. Графическая интерпретация взаимосвязи между показателями.

 

Если р = 1 или р = -1, то между случайными величинами Х и Y существует линейная функциональная зависимость (Y = c + dX). В этом случае говорят о полной корреляции. При р = 1 значения xi, yi определяют точки, лежащие на прямой линии, имеющей положительный наклон (с увеличением xi значения yi также увеличиваются), при р = -1 прямая имеет отрицательный наклон (рис.1.3, б).

В промежуточных случаях (-1 < p < 1) точки, соответствующие значениям xi, yi, попадают в область, ограниченную некоторым эллипсом (рис.1.3, в. г), причем при p > 0 имеет место положительная корреляция (с увеличением xi значения yi имеют тенденцию к возрастанию), при p < 0 корреляция отрицательная. Чем ближе р к , тем уже эллипс и тем теснее экспериментальные значения группируются около прямой линии.

Здесь же следует обратить внимание на то, что линия, вдоль которой группируются точки, может быть не только прямой, а иметь любую другую форму: парабола, гипербола и т. д. В этих случаях мы рассматривали бы так называемую, нелинейную (или криволинейную) корреляцию (рис.1.3, д).

Таким образом, визуальный анализ корреляционного поля помогает выявить не только наличия статистической зависимости (линейную или нелинейную) между исследуемыми признаками, но и ее тесноту и форму. Это имеет существенное значение для следующего шага в анализе ѕ выбора и вычисления соответствующего коэффициента корреляции.

Корреляционную зависимость между признаками можно описывать разными способами. В частности, любая форма связи может быть выражена уравнением общего вида Y = f(X), где признак Y – зависимая переменная, или функция от независимой переменной X, называемой аргументом. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д.

 


Понятие регрессии

 

В практических исследованиях возникает необходимость аппроксимировать (описать приблизительно) диаграмму рассеяния математическим уравнением. То есть зависимость между переменными величинами Y и Х можно выразить аналитически с помощью формул и уравнений и графически в виде геометрического места точек в системе прямоугольных координат. График корреляционной зависимости строится по уравнениям функции  и , которые называются регрессией (термин “регрессия” происходит от лат. regressio — движение назад). Здесь  и — средние арифметические из числовых значений зависимых переменных Y и X.

Для выражения регрессии служат эмпирические и теоретические ряды, их графики — линии регрессии, а также корреляционные уравнения (уравнения регрессии) и коэффициент линейной регрессии.

Показатели регрессии выражают корреляционную связь двусторонне, учитывая изменение средней величины  признака Y при изменении значений xi признака X, и, наоборот, показывают изменение средней величины  признака Х по измененным значениям yi признака Y. Исключение составляют временные ряды, или ряды динамики, показывающие изменение признаков во времени. Регрессия таких рядов является односторонней.

Ряды регрессии, особенно их графики, дают наглядное представление о форме и тесноте корреляционной связи между признаками, в чем и заключается их ценность. Форма связи между показателями, влияющими на уровень спортивного результата и общей физической подготовки занимающихся физической культурой и спортом, может быть разнообразной.

И поэтому задача состоит в том, чтобы любую форму корреляционной связи выразить уравнением определенной функции (линейной, параболической и т.д.), что позволяет получать нужную информацию о корреляции между переменными величинами Y и X, предвидеть возможные изменения признака Y на основе известных изменений X, связанного с Y корреляционно.

 

Уравнение линейной регрессии

 

Обычно признак Y рассматривается как функция многих аргументов — x1, x2, x3, ...— и может быть записана в виде:

 

y = a + bx1 + cx2 + dx3 + ... ,

 

где: а, b, с и d — параметры уравнения, определяющие соотношение между аргументами и функцией. В практике учитываются не все, а лишь некоторые аргументы, в простейшем случае, как при описании линейной регрессии, — всего один:

 

y = a + bx (2.1)

 

В этом уравнении параметр а — свободный член; графически он представляет отрезок ординаты (у) в системе прямоугольных координат. Параметр b называется коэффициентом регрессии. С точки зрения аналитической геометрии b— угловой коэффициент, определяющий наклон линии регрессии по отношению к осям, координат. В области регрессионного анализа этот параметр показывает, насколько в среднем величина одного признака (Y) изменяется при изменении на единицу меры другого корреляционно связанного с Y признака X. Наглядное представление об этом параметре и о положении линий регрессии Y по Х и X по Y в системе прямоугольных координат дает рисунок 2.1.

 


Рис. 2.1. Схема линий регрессии Y по Х и Х по Y в системе прямоугольных координат.

 

Линии регрессии, как показано, пересекаются в точке 0 ( ), соответствующей средним арифметическим значениям корреляционно связанных друг с другом признаков Y и X. Линия АВ, проходящая через эту точку, изображает полную (функциональную) зависимость между переменными вели-чинами Y и X, когда коэффициент корреляции r = 1.

Чем сильнее связь между Y и X, тем ближе линии регрессии к АВ, и, наоборот, чем слабее связь между варьирующими признаками, тем более удаленными оказываются линии регрессии от АВ. При отсутствии связи между признаками, когда r = 0, линии регрессии оказываются под прямым углом (90°) по отношению друг к другу.

Уравнение регрессии тем лучше описывает зависимость, чем меньше рассеяние диаграммы, чем больше теснота взаимосвязи. Уравнение прямой линии пригодно для описания только линейных зависимостей. В случае не-линейных зависимостей математическая запись может отображаться уравнениями параболы, гиперболы и др.

Необходимо также сделать одно важное замечание о значении показателей, характеризующих взаимосвязь признаков (коэффициентов корреляции, регрессии и т. п.). Все они дают лишь количественную меру связи, но ничего не говорят о причинах зависимости. Определить эти причины — дело самого исследователя.

 

Коэффициенты уравнения парной линейной регрессии

 

Как уже было определено выше, в случае линейной зависимости уравнение регрессии является уравнением прямой линии. Таких уравнений два:

 

Y = a1 + by/xX — прямое

и X = a2 + bx/yY — обратное, (2.2)

 

где: a и b – коэффициенты, или параметры, которые надлежит определить.

Значение коэффициентов регрессии вычисляется по формуле:

 

и . (2.3)

 

Коэффициенты регрессии b имеют размерность, равную отношению размерностей изучаемых показателей X и Y, и тот же знак, что и коэффициент корреляции.

Коэффициенты а определяются по формуле:

 

и  . (2.4)

 


Чтобы вычислить этот коэффициенты, надо просто в уравнения регрессии подставить средние значения коррелируемых переменных.

Для оценки качества уравнений регрессии вычисляются остаточные средние квадратические отклонения (или абсолютные погрешности уравнений) по формуле:

 

и . (2.5)

 

Эти оценки абсолютны и, следовательно, не могут быть сравнимы друг с другом. Поэтому вводят оценки относительной погрешности уравнений, которые выражаются в процентах и служат для точности предсказания (прогнозирования) результатов одного показателя по заранее известным значениям другого. Относительные погрешности уравнений регрессии определяются по формуле:

 

и . (2.6)

 

Значение этой оценки, если r = , равно нулю и, если r = 0, максимально. Остаточное среднее квадратическое отклонение характеризует колеблемость Y относительно линии регрессии по Х в прямом уравнении регрессии и, наоборот, в обратном случае. А, следовательно, чем меньше вели-чина относительной погрешности уравнения регрессии, тем точнее будет оно осуществлять прогноз значений одного показателя по заранее известным значениям другого.

 


Дата добавления: 2019-02-12; просмотров: 393; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!