Часть 2. Интервальное оценивание

Лекция 5

Метод порядковых статистик.

В статистике, кромесистемы моментов, в качестве числовых характеристик распределений широко используются числовые характеристики, называемые квантилями.

Определение. Значение x_p случайной величины x называется p-квантилью, если

P{x< x_p} = p,

где x_p — это корень уравнения

F_x(x_p) = p , (рис. 3).

Примеры р-квантили:

x_0,5 — медиана — характеристика среднего значения случайной величины;

Рис. 3. Графическая иллюстрация квантили x_p

x_0,98 — максимальное, с вероятностью 0,98, значение случайной величины, т.к. P{x < x_0,98} = 0,98;

x_0,02 — минимальное, значение случайной величины, т.к. P{x ³ x_0,02 } = 1 – P{x < x_0,02 } = 1– 0.02 = 0,98;

x_3/4 и x_1/4 — верхняя и нижняя квартили; их разность(x_0,75 – x_0,25) — межквартильная широта — служит характеристикой разброса.

Оценка p-квантилей . Неизвестные p-квантили легко оцениваются по выборке. Действительно, пусть

x₁, х₂...x_n —выборка, результаты n независимых наблюдений над случайной величиной x с функцией распределения F(x). Упорядочив их по возрастанию, получаем вариационный ряд

x₍₁₎ £ x₍₂₎ £ ... £ x₍_n₎.

Чтобы подчеркнуть случайность ряда, запишем его греческими символами

x₍₁₎£x₍₂₎£ ... £ x₍_n₎.

член вариационного ряда x_(i) с номером i (заметим, что это случайная величина) называется i-й порядковой статистикой. по вариационному ряду построим функцию

эмпирического распределения, и, согласно общему принципу о том, что выборочные характеристики являются состоятельными оценками характеристик распределения генеральной совокупности, рассмотрим в качестве оценкидля p-квантили x_p выборочную квантиль z _p, т.е. корень уравнения

= p. (8)

Поскольку — функция кусочно-постоянная, то корнем является одна из порядковых статистик z_p = x_([_np_]+1), (9)

с номером = [np]+1, т.е. целая часть числа np плюс 1(рис. 4).

Нетрудно показать, что z_p является состоятельной оценкой для x_p:

Кроме того, известна

теорема Крамера, которая гласит: для непрерывных распределений с плотностью q(x) оценка z_p асимптотически нормальна с параметрами: Mz_p = x_p, Dz_p = . (10)

Рис. 4. Графическая иллюстрация выборочной квантили

Метод оценки параметров основан на оценках z_p при разных p . Как в методе моментов? параметры выражаем через моменты, а затем моменты заменяем выборочными моментами. Аналогично в методе порядковых статистик: параметры выражаем через квантили, а затем квантили заменяем выборочными квантилями, т.е. порядковыми статистиками.

Пусть x₁, x₂…x_n — выборка с функцией распределения F(x;a), зависящей от параметра a, значение которого требуется оценить. Выберем р так, чтобы квантиль x_р зависела от параметра:

x_р= f(a).

Выразим параметр а через квантиль x_р:

а = g(x_р),

и вместо x_р подставим выборочную квантиль z_p = x_([np]+1), в результате чего получим состоятельную оценку

= g(x_([np]+1)).

Таким же образом можно построить оценки и для неодномерного параметра.

Основное и очень важное преимущество оценок, основанных на порядковых статистиках, — их устойчивость к засорению наблюдений и к изменениям закона распределения.

Примеры оценок параметров нормального распределения.Пусть x₁, x₂…x_n — выборка из нормальной совокупности N(m, s²).

1) Оценка среднего m . Известно или нет значение s — безразлично. В силу симметрии нормального распределения параметр m является медианой, т.е. квантилью уровня ½,

m= x_½

и потому может быть оценен выборочной медианой:

= z_½ = x_([n/2]+1).

Можно сравнить по точности эту оценку с эффективной оценкой

для которой дисперсия .

согласно (10), теореме Крамера, D » ,

т.е. очень простая и устойчивая к засорению оценка уступает по точности оценке в раза, т.е. 25 %.

2) Оценка стандартного уклонения s.

Легко проверить, что верхняя и нижняя квартили равны соответственно

x_3/4 = m + 0,675s и x_1/4= m – 0,675s,

т.к .

И потому

s = (x_3/4 - x_1/4) / 1,35,

и потому оценивать s можно следующим образом:

3) Оценка стандартного уклонения s по размаху.

Пусть x₍₁₎ и x₍_n₎ — минимальный и максимальный член выборки, разность которых называется размахом w:

w = x₍_n₎ – x₍₁₎.

Ясно, что

Mw = c(n)s,

и потому оценкой для s может служить

= w/c(n) = k(n)w,

где k(n) берем из статистических таблиц [4]. Ниже приведены значения коэффициента k(n)и коэффициента эффективности

e ff = , где — нижняя граница Рао-Крамера,

а также потеря точности:

(1– ) ∙ 100,

измеряемая в процентах, по сравнению с нижней границей Рао-Крамера.

Табл. 1. Значение коэффициентов k и n

n	2	5	10
k(n)	0,866	0,430	0,325
eff	1,000	0,955	0,855
потеря точности, (1 – )100, %	0	2,5	7

Для устойчивости оценки к засорению используют подразмахи w_m порядка m , где m = 1, 2, 3…:

w_m = x₍_n- _m ₊₁₎ - x₍_m_),

так что оценка имеет вид:

= k _m(n) w _m.

Значение коэффициента k _m(n) берется из таблиц.

4) Распределение порядковых статистик . При анализе оценок, получаемых рассматриваемым методом, необходимо знать распределения порядковых статистик. Если распределение одного наблюдения x непрерывно с плотностью p(x) = F ’(x), топлотность распределения для k-й порядковой статистики x₍_k₎ выражается следующей формулой: