Глава 3. ОЦЕНКА КАЧЕСТВА СПЕЦИФИКАЦИИ МОДЕЛИ



 

Анализ погрешностей исходной информации

 

Значения экономических показателей обычно известны неточно, с некоторой погрешностью. Рассмотрим основные правила обработки данных, содержащих погрешности, или ошибки измерений. Пусть число a представляет точное (неизвестное нам) значение некоторой величины, а xi ( i=1,2,…, n) – известные приближенные значения той же величины, при этом   

  xi= a+e i ,                                                                       (12.1)

 где e i – погрешность i-го измерения. Значения погрешностей e i нам неизвестны, т.к. неизвестно точное значение a, но, как правило, удается оценить модуль разности

                  | xi – a|<e .                                                                     (12.2)

Величину e > 0 называют предельной абсолютной погрешностью, или короче, абсолютной погрешностью. Если a≠0 , то можно ввести относительную погрешность
 δ=e /| a|. На практике величину относительной погрешности вычисляют по формуле
δ =e /| |, полагая 

.                                                                 (12.3)

Принято использовать запись a= x ±e как условную запись неравенства      

           x-e< a< x+e                                                                       (12.4)

и запись a= x(1 ±δ) как сокращенную запись неравенств

                      x(1-δ)< a< x(1+δ) .                                                             (12.5)

Величина относительной погрешности δ связана с числом верных десятичных знаков числа x. Рассмотрим этот вопрос на простых примерах. Число a=51.0±0.5 имеет два верных десятичных знака. Поэтому относительная погрешность δ=0.5/51≈0.01 или 1%. Число b=0.51±0.005 также имеет два верных знака и ту же относительную погрешность δ=1%. Если число задается с тремя верными знаками, то относительная погрешность будет иметь порядок 0.1%. Например, если a=510±0.5, то δ=0.001 или 0.1%. Рассматривая в качестве примеров числа 110 и 910 (с тремя верными знаками), нетрудно проверить, что относительная погрешность δ этих величин будет меняться в пределе от 0.05% до 0.5%. При двух верных десятичных знаках относительная погрешность изменяется в диапазоне 0.5% ¸5%.

Различают погрешности (ошибки) систематические и случайные. Если часы спешат или отстают, то они показывают время с некоторой систематической ошибкой. Для ее устранения нужно узнать точное время и выставить часы правильно. В общем случае для устранения систематической ошибки либо заменяют измерительный прибор на более точный, либо вводят поправку на систематическую ошибку (в астрономии, навигации и т.п.).

Анализ случайных ошибок проводится с применением методов теории вероятности и математической статистики. Пусть величина e i в равенстве (12.1) является случайной величиной, распределенной по нормальному закону с математическим ожиданием Ee i=0 и дисперсией De i =s 2, что принято записывать как e i Î N(0, s 2).

Измеренные значения xi также являются случайными величинами, при этом Exi= a, Dxi=s 2. Интуиция подсказывает нам, что среднее арифметическое (12.3) является лучшей оценкой для величины a, чемотдельные наблюдения xi .   Действительно,  - оценка является несмещенной, а дисперсия среднего     при n® стремится к нулю. Величину дисперсии измерений s 2 можно оценить по данным xi известными формулами

                                                                       (12.5)

или

                                                                         (12.6)

При этом оценка (12.5) является смещенной оценкой дисперсии s 2, так как известно [3], что . Оценка (12.6) несмещенная: . В теории ошибок величина   называют средней квадратичной ошибкой серии наблюдений {xi}, а величина - средней квадратичной ошибкой среднего арифметического.

 

Доверительные интервалы

 

Введем случайную величину      

.                                                        (13.1)

Нетрудно проверить, что x ÎN(0,1), вследствие чего

.

Полагая , получим после элементарных преобразований, что с

вероятностью a выполняется неравенство

                 .                                    (13.2)

 Интервал  называется доверительным интервалом, отвечающим доверительной вероятности a . Если, к примеру, k=2, доверительная вероятность a=0.955. Значению k=3 отвечает вероятность a = 0.997 (правило «трех сигм»). Но для использования указанных доверительных интервалов на практике нужно знать стандартное отклонение s. Если значение s неизвестно, для его оценки используется величина . В этом случае можно ввести случайную величину

,

которая имеет распределение Стьюдента с n-1 степенью свободы [3]. Не выписывая здесь соответствующей функции распределения, приведем несколько значений доверительной вероятности a( k, n), отвечающих доверительному интервалу 

                               .                                     (13.3)

При k=2 и n=3 имеем a=0.817; при k=2 и n=7 вероятность a=0.908  ;

a(3,3)=0.905; a(3,5)=0.96. С ростом n различие между распределением Стьюдента и Гауссовым распределением становится меньше, при n=20 этим различием в большинстве случаев можно пренебречь.

  Регрессионные модели мы строим по данным наблюдениям (x i, yi), i = 1,2,....n. Пусть значения x = x* не совпадают с x i. Чему будет равна величина y = y* и с какой погрешностью ее можно найти?

  Попытаемся ответить на этот вопрос для случая парной линейной регрессии с нулевым свободным членом

                                      yi = bxi + ei ,

где ei Î N(0,s), i = 1,2...n.

Параметр b оцениваем методом наименьших квадратов:

                                     Sei2 = S(bxi – yi)2 ® min,

                                       S(bxi – yi)xi = 0,

            =                                                                  (13.4)

Из формулы (13.4) следует, что оценка  является гауссовой случайной величиной с математическим ожиданием 

E =  =  = b

(оценка несмещенная) и дисперсией

                             D  =                                        (13.5)

Величина σ2 , как правило, неизвестна и ее следует оценить. Для этого составим сумму квадратов ошибок 

            Sei2 = S(bxi – yi)2 = S(bxi xi + xi - yi)2  =

        = Sxi2(b- )2 + Σ( xi –yi)2+ 2Sxi(b- )( xi- yi).                                       (13.6)

Математическое ожидание ESei2 = SЕei2 = nσ2.

Вычисление математического ожидания в правой части равенства (13.6) дает

                             Sxi2 D  + EΣ( xi –yi)2,

так как математическое ожидание последнего слагаемого равно нулю. Поэтому

nσ2 = Sxi2 D  + EΣ( xi –yi)2.

С учетом формулы (13.5) получим 

(n-1)σ2 = EΣ( xi –yi)2 .

Теперь ясно, что величина 

                                   S 2 =  Σ( xi –yi)2                                            (13.7)

будет несмещенной оценкой для σ2. Множитель (n-1) указывает на то, что, располагая только одним наблюдением (x1, y1), нельзя получить оценку S 2, так как возникает неопределенность вида 0/0.

Для определения доверительного интервала оценки , отвечающего доверительной вероятности α, рассмотрим случайную величину

ξ = ( b- ) ,

имеющую нормальное распределение N(0,1). Заменив σ оценкой S , придем к случайной величине

η = ( b- ) ,

имеющей распределение Стьюдента с (n-1) степенями свободы. Для прогнозируемого значения y*  регрессионная модель дает значение           

y* = x* + e,

 

при этом    Ey* = bx*,     Dy*=( x*)2D  + De = σ2 .

Заменим дисперсию σ2 оценкой S2  из (13.7):

( Sy*)2 = S 2 .

Доверительный интервал для прогнозируемых величин y*   будет определяться распределением Стьюдента. Его границы вычисляются по формуле                   

                                                  y = y* ± Sy* t( n-1, 1-a/2),

где a - доверительная вероятность (например, a = 0,95), (n-1) – число степеней свободы. Статистические пакеты вычисляют эти границы и дают их графическое представление.

Совершенно аналогично рассматривается общий случай множественной линейной регрессии

y = Fq + e.

Можно показать, что

Dy* = ( x*) T Q x* + s2,

где xi = (x1,x2,...xn)*; Q = cov q =  s2(FTF)-1. Поэтому

Dy* = s2[( x*) T (FTF)-1x* +1].

Несмещенной оценкой для s 2 является число

S 2 = .                                         (13.8)

Поэтому оценка среднеквадратичного отклонения y*  будет

Sy* = S[( x*) T (FTF)-1x* +1]1/2,

 а граница доверительного интервала 

y = y* ± Sy* t( n- m, 1-a/2).

 

Расчет погрешностей

 

Эмпирические данные часто подвергаются математической обработке – над ними

выполняются арифметические операции сложения, вычитания, умножения и деления, в некоторых случаях производится логарифмирование, возведение в степень и др. Как это может сказаться на погрешности результата?

Покажем, что абсолютная погрешность суммы не превосходит суммы абсолютных погрешностей слагаемых. Пусть S= x+ y, причем слагаемые x, y известны с абсолютной погрешностью ex,ey, так что

,

где a и b – точные значения слагаемых. Для вычисления абсолютной погрешности суммы S оценим разность:

.

Ясно, что в качестве предельной абсолютной погрешности суммы можно принять величину

                                                     eS = ex+ey .                                               (14.1)

 

Аналогично проверяется, что абсолютная погрешность разности двух чисел d= x- y равна сумме абсолютных погрешностей уменьшаемого и вычитаемого: ed = ex+ey. Заметим, что если числа x  и y мало отличаются между собой, относительная погрешность их разности dd=ed / | x- y|  может оказаться весьма большой.

При вычислении суммы S= x1+ x2+…+ xn большого числа слагаемых, имеющих одинаковую абсолютную погрешность e, в соответствии с формулой (14.1) имеем

 

                                                       eS = ne .                                                    (14.2)  

 

При n>>1 величина eS может оказаться довольно большой. Но эта оценка получается в

предположении, что ошибки всех слагаемых максимальны и имеют одинаковый знак, что представляется мало вероятным. Более естественным выглядит предположение, что ошибка e является случайной и распределена по нормальному закону , причем ошибки отдельных слагаемых являются независимыми случайными величинами. По правилу вычисления дисперсии сумма независимых случайных величин находим, что:      или   , так что .                                        

При больших n (например, n=100) статистическая оценка дает значительно меньшее значение, чем предельная (14.2). Напомним, что отклонение случайной величины S от истинного значения более чем на 2 s S возможно с вероятностью 0,045 (4,5%), а на 3sS – с вероятностью 0,003 или 0,3%.

Для вычисления погрешности произведения и частного двух положительных чисел x, y рассмотрим сначала общий случай функции двух переменных u= f( x, y) (аналогично рассматривается случай функций многих переменных). Пусть переменная x известна с погрешностью ex, переменная y – с погрешностью ey. Приращение функции Du заменим дифференциалом

                     ,                                                   (14.3)

полагая величины e x и e y достаточно малыми. Отсюда следует, что абсолютная погрешность e u  функции u оценивается по формуле:

               .                                                       (14.4)

В статистической теории предполагают ошибки ex и ey независимыми случайными величинами. Для дисперсии величины du имеем формулу

                              .                                                  (14.5)

В случае произведения двух положительных чисел u= xy формула (14.4) дает оценку

                               ,                                              (14.6)

 а по формуле (14.5) получим

             .                                             (14.7)

Для относительной погрешности произведения d u= e u / xy из формулы (14.6) следует, что

                             du=dx+dy ,                                                    (14.8)

 а из формулы (14.7) : 

              .                                            (14.9)

Пусть надо перемножить n положительных чисел x1, x2, …, xn, заданных с одинаковой относительной погрешностью d. Формула (14.8) дает оценку du= nd , а по формуле (14.9) получаем .

Нетрудно убедиться в том, что для относительной погрешности частного U= x/ y двух положительных чисел x, y также справедливы формулы (14.8) и (14.9).

Если требуется найти значение функции U= f( x) одной переменной x, то вместо формулы (14.3) имеем (в первом приближении)  так что . Такой же результат следует из статистического анализа:

.

 

Коэффициент детерминации

 

Коэффициент детерминации  характеризует качество регрессионной модели. 

Значения различных величин, полученных расчетами, будем в дальнейшем обозначать «~».

Рассмотрим случай парной регрессии . Имеет место равенство . Для суммы квадратов отклонений yi от среднего

 (TSS – total sum of squares)

имеем TSS = RSS+ESS, где  - сумма квадратов отклонений, объясненная регрессией (RSSregression sum of squares),  - остаточная сумма квадратов отклонений (ESSerror sum of squares).

Коэффициент детерминации определяется по формуле:     

.                                     .                                                       (15.1) 

 

Из (15.1) видно, что R2Î[0,1] и чем меньше R2 отличается от 1, тем лучше регрессионная модель. 

В математической статистике вводится выборочный коэффициент корреляции  между данными наблюдений ( xi, yi), i=1, 2, …, n. Напомним, что     , ,

                        .

Поскольку , величину r можно представить в виде . С другой стороны , , откуда следует, что 

.

Поэтому , т.е. коэффициент детерминации равен квадрату выборочного коэффициента корреляции .

 

 

Средняя ошибка аппроксимации

 

Фактические значения интересующей нас величины отличаются от рассчитанных по уравнению регрессии. Чем меньше это отличие, чем ближе рассчитанные значения подходят к эмпирическим данным, тем лучше качество модели. Величина отклонений фактических и расчетных значений переменной величины по каждому наблюдению представляет собой ошибку аппроксимации. Так как отклонение может быть величиной как положительной, так и отрицательной, то ошибки аппроксимации для каждого наблюдения принято определять в процентах по модулю.

Отклонения ( ) рассматриваются как абсолютная ошибка аппроксимации, тогда  – относительная ошибка аппроксимации.

Средняя ошибка аппроксимации определяется как среднее арифметическое: . Иногда пользуются определением средней ошибки аппроксимации, имеющим вид .

 


Дата добавления: 2018-10-26; просмотров: 410; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!