Парная линейная регрессия. Метод наименьших квадратов
Тема 2. Корреляционный и регрессионный анализ
Корреляция
В экспериментальных исследованиях одной из важных задач является анализ зависимостей между изучаемыми переменными. Зависимость может быть либо функциональной, либо стохастической (вероятностной). При функциональной зависимости величины
и
связаны точной математической формулой, например,
.
Для оценки тесноты и направления связи между изучаемыми переменными
и
при их стохастической зависимости служит линейный коэффициент корреляции
. Он характеризует степень тесноты не всякой, а только линейной зависимости. При нелинейной зависимости между явлениями применяют так называемое корреляционное отношение.
Пусть две случайные величины
и
распределены по нормальному закону и имеется
пар измеренных в опытах значений:
. О наличии связи между
и
судят по выборочному парному коэффициенту корреляции
.
В теории разработаны несколько модификаций формул для расчета линейного коэффициента корреляции. Одна из формул:
, (1)
где
и
- среднеквадратичные отклонения соответственно для массивов (выборок)
и
(в программе «Анализ данных» режим «Описательная статистика»
и
- стандартные отклонения);
;
,
и
- средние значения соответственно в массивах
и
.
Величина
изменяется в пределах:
. Если
, то
и
статистически независимы. Если
, то между
и
имеется идеальная функциональная зависимость, т.е. на графике
точки лежат на одной прямой линии (
).
В общем случае, когда величины
и
связаны произвольной вероятностной зависимостью,
принимает значения в пределах
. Качественная оценка тесноты связи величин
и
может быть выявлена на основании следующей шкалы:
| Теснота связи | Значение | |
| прямой связи | обратной связи | |
| слабая | 0,1 – 0,3 | (-0,1) – (-0,3) |
| умеренная | 0,3 – 0,5 | (-0,3) – (-0,5) |
| заметная | 0,5 – 0,7 | (-0,5) – (-0,7) |
| высокая | 0,7 – 0,9 | (-0,7) – (-0,9) |
| весьма высокая | 0,9 – 0,99 | (-0,9) – (-0,99) |
Числовой пример. Имеются данные Госкомитета РФ за 1995 г (см. табл.).
| № п/п | Область | Уровень образования
| Отношение числа безработных к числу вакансий
| Уровень преступности
|
| 1 | Брянская | 735 | 22,3 | 908 |
| 2 | Владимирская | 788 | 10,8 | 792 |
| 3 | Ивановская | 779 | 52,9 | 804 |
| 4 | Калужская | 795 | 2,2 | 702 |
| 5 | Костромская | 740 | 10,4 | 685 |
| 6 | г. Москва | 902 | 0,4 | 496 |
| 7 | Московская | 838 | 2,4 | 536 |
| 8 | Нижегородская | 763 | 5,4 | 936 |
| 9 | Орловская | 762 | 4,1 | 662 |
| 10 | Рязанская | 757 | 4,1 | 671 |
| 11 | Смоленская | 772 | 1,0 | 920 |
| 12 | Тверская | 764 | 4,2 | 1040 |
| 13 | Тульская | 764 | 2,1 | 809 |
| 14 | Ярославская | 755 | 25,1 | 882 |
Уровень образования
- это число лиц со среднеспециальным и высшим образованием на 1000 жителей.
Уровень преступности
- это число преступлений на 100 000 жителей.
Результаты расчетов в виде таблицы коэффициентов парной корреляции
, вычисленных в программе «Анализ данных» режим «Корреляция» приведены в таблице.
|
|
| |
| 1 | ||
| -0,26 | 1 | |
| -0,66 | 0,24 | 1 |
Анализ расчетов:
- связь
-
является заметной и обратной (
), т.е. с возрастанием
уменьшается;
- связь
-
является слабой и прямой (
), т.е. с увеличением
увеличивается
.
Поскольку выборочный коэффициент корреляции определен по ограниченной выборке, то необходимо проверить его значимость, т.е. установить достаточна ли величина
для обоснованного вывода о наличии корреляционной связи. Оценку значимости
выполняют по величине
-критерия Стьюдента
. (2)
Здесь
- табличное значений
-распределения Стьюдента при уровне значимости
и числе степеней свободы
. Причем значение
используется для двусторонней критической области.
Если условие (2) выполняется, то считается, что между переменными
и
имеется статистически значимая корреляционная связь.
Для нашего примера:
;
;
.
Для переменных
-
:
.
Связь статистически значимая.
Для переменных
-
:
.
Связь статистически не значимая.
В Excel коэффициент
определяет статистическая функция СТЬЮДРАСПОБР. Для нашего примера обращение к этой функции имеет вид =СТЬЮДРАСПОБР (0,05;12). Отметим, что эта функция дает значение
для двусторонней критической области.
Парная линейная регрессия. Метод наименьших квадратов
Пусть установлено наличие статистически значимой зависимости между физическими величинами
и
. Тогда эту зависимость можно аппроксимировать эмпирической формулой. Термин «аппроксимировать» имеет смысл «приближенно описать». Термины – «эмпирическая формула», «аппроксимирующая формула», «уравнение регрессии» имеют примерно одинаковое значение. Эмпирическая формула – это формула, полученная путем описания эмпирических (экспериментальных) данных.
Результаты экспериментов представляют в виде таблицы:
Независимая переменная (фактор)
|
|
|
| … |
| … |
|
Экспериментальные значения функции отклика
|
|
|
| … |
| … |
|
Здесь
- объем выборки (число опытов),
; например,
- продолжительность жизни человека (годы);
- количество выкуриваемых в день сигарет (штук). Другой пример:
- предел прочности металла
(МПа);
- температура нагрева металла (
).
Выбор вида формулы для описания зависимости
начинают с нанесения опытных значений
и
на график. Формула может быть линейной, квадратичной, степенной. Вид формулы подбирают по общему расположению опытных точек на графике. Пусть точки группируются около прямой линии. Тогда зависимость
можно аппроксимировать линейным уравнением регрессии:
, (1)
где
- расчетные (по уравнению (1)) значения,
и
- коэффициенты регрессии. Новое обозначение «
» указывает, что формула (1) отображает с некоторой вероятностью экспериментальную зависимость
(
- исходные экспериментальные значения). Формула (1) является уравнением парной регрессии, так как
зависит от одного фактора
, т.е. рассматривается пара
-
.
Коэффициенты
и
неизвестны и определяются по
парам экспериментальных значений
с помощью метода наименьших квадратов (МНК).
Суть МНК: коэффициенты регрессии
и
определяют из условия, что
сумма квадратов отклонений (
)
опытных значений
от рассчитанных по
формуле (1)
должна быть минимальной:
, (2)
где
- остатки (отклонения; см. рис. 1). Здесь и далее 

Рис. 1. Графическая иллюстрация МНК
Для вычисления
и
, минимизирующих
, необходимо вычислить частные производные функции
по аргументам
и
и приравнять их нулю:
;
. (3)
Подставим в (3)
из выражения (2) и вычислим производную по правилу дифференцируемой сложной функции:
(4)
Преобразуем (4):
(5)
Систему (5) принято называть системой нормальных уравнений. Решаем линейные системы уравнений (5) относительно неизвестных
и
методом определителей (метод Крамера):
;
,
где
,
,
- определители;
;


Пример. Имеются экспериментальные данные.
| № п/п | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
|
| 25 | 30 | 35 | 38 | 41 | 45 | 48 | 52 | |
| 70 | 88 | 105 | 120 | 145 | 154 | 175 | 205 |
;
;
;
;
;
;
;
;
.
.
Например:
.
Дата добавления: 2021-01-21; просмотров: 68; Мы поможем в написании вашей работы! |
Мы поможем в написании ваших работ!
