Линейная регрессионная модель.

ЛЕКЦИЯ №2 Тема: «Методы построения общей линейной модели»

План:

2.1. Коэффициент корреляции.

2.2. Диаграмма рассеяния.

2.3. Линейная регрессионная модель.

Коэффициент корреляции

Тремя основными целями анализа двумерных данных, представленных парами (Х, У), являются: (1) описание и понимание взаимосвязи, (2) прогнозирование и предсказание нового наблюдения и (3) корректировка и управление процессом.

Корреляционный анализ позволяет сделать вывод о силе взаимосвязи, а регрессионный анализ используется для прогнозирования одной переменной на основании другой (как правило, У на основании X).

Двумерные данные анализируют с использованием диаграммы рассеяния в координатах У и X, которая дает визуальное представление о взаимосвязи в данных. Корреляция, или точнее линейный коэффициент корреляции (г), представляет собой безразмерное (не имеющее единиц измерения) число в диапазоне от -1 до 1, которое характеризует силу взаимосвязи. Равенство коэффициента корреляции 1 свидетельствует об идеальной взаимосвязи в виде прямой линии с наклоном вверх. Равенство коэффициента корреляции -1 свидетельствует об идеальной взаимосвязи в виде наклоненной вниз (отрицательно) прямой линии. Коэффициент корреляции говорит о том, насколько близко к этой наклоненной прямой линии расположены точки диаграммы, однако он не характеризует крутизну наклона этой линии. Формула вычисления коэффициента корреляции имеет следующий вид:

Ковариация X и У представляет собой числитель в формуле для коэффициента корреляции. Поскольку единицы измерения ковариации трудно интерпретировать, удобнее работать с коэффициентом корреляции.

Корреляцию нельзя рассматривать как причинную обусловленность. Коэффициент корреляции характеризует связь между числами, но не объясняет ее. Корреляция может быть вызвана тем, что переменная X влияет на У, или тем, что переменная У влияет на X . Кроме того, корреляция может быть вызвана также тем, что на X и У влияет некий скрытый "третий фактор", что создает впечатление связи между X и У. Термином ложная корреляция обозначают высокую корреляцию, которая возникает благодаря действию некоторого третьего фактора.

Диаграмма рассеяния.

При анализе двумерной диаграммы рассеяния можно обнаружить различные взаимосвязи. Простейшей, с точки зрения анализа, является линейная взаимосвязь, которая выражается в том, что точки на диаграмме рассеяния с постоянным разбросом группируются случайным образом вдоль прямой линии. Диаграмма свидетельствует об отсутствии взаимосвязи, если точки размещены случайно и при перемещении слева направо невозможно обнаружить какой-либо уклон (ни вверх, ни вниз). Двумерная диаграмма рассеяния характеризуется нелинейной взаимосвязью, если точки на ней группируются вдоль кривой, а не прямой линии. Поскольку количество видов кривых практически безгранично, анализ нелинейной взаимосвязи оказывается намного сложнее, однако взаимосвязь можно приблизить к линейной, применив к данным соответствующее преобразование. Проблема неравной вариации возникает тогда, когда при перемещении по горизонтали на диаграмме рассеяния вариация точек по вертикали сильно меняется. Неравная вариация приводит к снижению надежности коэффициента корреляции и регрессионного анализа. Проблему неравной вариации можно решить с помощью соответствующих преобразований данных или с помощью, так называемой взвешенной регрессии. Проблема кластеринга (разделение совокупности на группы более однородных объектов) возникает в случае образования на диаграмме рассеяния отдельных, ярко выраженных групп точек; втаких случаях каждую группу следует анализировать отдельно. Некоторая точка данных является выбросом (резко отклоняющимся значением), если она не соответствует взаимосвязи между остальными данными; резко отклоняющиеся значения могут исказить статистические характеристики двумерной совокупности данных.

Линейная регрессионная модель.

Регрессионный анализ заключается в прогнозировании одной переменной на основании другой. Линейный регрессионный анализ прогнозирует значение одной переменной на основании другой с помощью прямой линии. Наклон этой линии, выражается в единицах измерения У на одну единицу X и характеризует крутизну подъема или спуска (если bотрицательное) линии. Сдвиг, a, равен значению, которое принимает У при X , равном 0. Уравнение прямой линии имеет следующий вид:

Y = Сдвиг + (Наклон)(Х) = а + b Х .

Линия наименьших квадратов характеризуется наименьшей из всех возможных линий суммой возведенных в квадрат ошибок прогнозирования по вертикали и используется как лучшая линия прогнозирования, основанная на данных. Наклон этой линии,b, называют также коэффициентом регрессии У по X , а сдвиг а (отрезок отсекаемый на оси У) называют также постоянным членом регрессии. Ниже приведены уравнения для наклона и сдвига, соответствующие линии наименьших квадратов.

Наклон равен: .

Сдвиг равен: .

Формула для линии наименьших квадратов имеет следующий вид:

Прогнозируемое значение У равно:

Прогнозируемое значение для У при заданном значении X определяется путем подстановки этого значения X в уравнение для линии наименьших квадратов. Каждая из точек данных характеризуется остатком – ошибкой прогнозирования, указывающей, насколько выше или ниже линии находится точка.

ЛЕКЦИЯ №3 Тема: «Двухфакторная модель: предсказание одного фактора
на основании другого»

План:

3.1. Регрессионный анализ.

3.2. Проверка надежности регрессионной модели.

3.3. Прогнозирование.

Регрессионный анализ.

Y = Сдвиг + (Наклон)(Х) = а + b Х .

Наклон равен: .

Сдвиг равен: .

Формула для линии наименьших квадратов имеет следующий вид:

Прогнозируемое значение У равно:

Дата добавления: 2022-01-22; просмотров: 27; Мы поможем в написании вашей работы!

Поделиться с друзьями:

12 Следующая ⇒

Мы поможем в написании ваших работ!