Статистические оценки параметров распределения

Статистическое распределение выборки

 

Пусть из генеральной совокупности извлечена выборка объ­ема п:

значение x1 некоторого исследуемого призна­ка Х наблюдалось п1 раз,

 

значение x2 — п2 раз, ..., значение x knk раз.

Значения xi называются вариантами, а их после­довательность, записанная в возрастающем порядке,— вариационным рядом. Числа ni называются частотами, а их отно­шения к объему выборки

 

 

относительными частотами. При этом ni = п.  

Кроме средних величин, называемых аналитическими, в статистическом анализе применяют структурные и порядковые средние. Из них наиболее широко применяются медиана и мода

Модой Мo называется варианта, имеющая наибольшую частоту.

Ме­дианой те называется варианта, которая делит вариационный ряд на две части с одинаковым числом вариант в каждой.  (для вариационного ряда с нечетным числом членов медиана равна серединному варианту, а для ряда с четным числом членов – полусумме двух серединных вариантов).

 

Разма­хом варьирования называется разность между максимальной и минимальной вариантами или длина интервала, которому принадлежат все варианты выборки:

 

 

Перечень вариант и соответствующих им частот называ­ется статистическим распределением выборки.

Сумма относительных частот равна единице: Wi = 1.

Пример 2. Выборка задана в виде распределения частот:

 

 

Найти распределение относительных частот и основные харак­теристики вариационного ряда.

Решение. Найдем объем выборки: п = 2 + 4 + 5 + 6 + 3 = 20. Относительные частоты соответственно равны W1 = 2/20 = 0,1; W2 = 4/20 = 0,2; W3 = 5/20 = 0,25; W4 = 6/20 = 0,3; W5 = 3/20 = 0,15. Контроль: 0,1 + 0,2 + 0,25 + 0,3 + 0,15 = 1. Искомое распределение относительных частот имеет вид

 

 

Мода этого вариационного ряда равна 12. медиана me = x3 = 8. Размах варьирования, согласно формуле (18.48),

 R = 17 – 4 = 13.

Пример 3. Найти медиану распределения рабочих по тарифному разряду

 

Тарифный разряд 1 2 3 4 5 6
Частота (количество рабочих) 2 3 6 8 22 9 50

 

Решение.     n = 50 - четное, следовательно, серединных вариантов два:  = 5 и

 =5. Поэтому = = =5

Эмпирическая функция распределения

 

Пусть nх число наблюдений, при которых значение при­знака Х меньше х. При объеме выборки, равном п, относитель­ная частота события Х < х равна nx/n.

Определение. Функция

 

 (  =  ,

определяющая для каждого значения х относительную частоту события Х < х, называется эмпирической функцией распреде­ления, или функцией распределения выборки.

В отличие от эмпирической функции распределения F *( x ) выборки функция распределения F ( x ) генеральной совокупнос­ти называется теоретической функцией распределения. Раз­личие между ними состоит в том, что функция F ( x ) опреде­ляет вероятность события Х < х, a F *( x ) — относительную частоту этого события.

 

 

Нетрудно видеть, что F *( x ) обладает всеми свойствами F ( x ) 1) значения F *( x ) принадлежат отрезку [0, 1];

2) F *( x ) является неубывающей функцией;

3) если х1 наименьшая варианта, то F *( x ) = 0 при хх1; если xk — максимальная варианта, то F *( x ) = 1 при x > x k .

Сама же функция F *( x ) служит для оценки теоретической функции распределения F ( x ) генеральной совокупности.

Пример 4. Построить эмпирическую функцию по заданному распределению выборки:

 

Решение. Находим объем выборки: п = 10 + 15 + 25 = 50. Наименьшая варианта равна 2, поэтому F *( x ) = 0 при х ≤ 2. Значение Х < 4 (или x1 = 2) наблюдалось 10 раз, значит, F *( x ) = 10/50 = 0,2 при 2 < х  4. Значения X < 6 (а именно x1 = 2 и x2 = 4) наблюдались 10 + 15 = 25 раз, значит, при 4 < х 6 функция F *( x ) = 25/50 = 0,5. Поскольку x = 6 — максимальная варианта, то F *( x ) = 1 при х > 6. Напишем формулу искомой эмпирической функции:

 

 

График этой функции показан на рис. 18.8.

 

 

Полигон и гистограмма

 

Ломаная, отрезки которой соединяют точки (xi , ni), называется полигоном частот. Ло­маная, соединяющая на координатной плоскости точки (xi , Wi), называется полигоном относительных частот. На рис. 18.9 показан полигон относительных частот для распределения, приведенного в примере 2.

 

Для случая непрерывного признака Х удобно разбить ин­тервал (xmin, xmax) его наблюдаемых значений на несколько частичных интервалов длиной h каждый и найти для каждого из этих интервалов сумму частот nj, попавших в него. Ступен­чатая фигура, состоящая из прямоугольников с основаниями длиной h и высотами nj / h (плотность частоты), называется гистограммой частот.

 Геометрический смысл гистограммы: площадь ее равна сумме всех частот или объему выборки.

На рис. 18.10 изображена гистограмма объ­ема n = 100.

Аналогичным образом определяется и гистограмма от­носительных частот: в этом случае высоты прямоугольни­ков, составляющих ступенчатую фигуру, определяются отно­шениями сумм относительных частот, попадающих в интервал (xmin + (j — 1)h, xmin + jh), к длине интервала h, т.е. величина­ми Wj / h . Нетрудно видеть, что площадь гистограммы относи­тельных частот равна единице (сумме относительных частот выборки).

 

Статистические оценки параметров распределения

 

Значения количественного признака х1, х2, ..., хk в выборке можно рассматривать как независимые случайные величины. В таком случае нахождение статистической оценки неизвест­ного параметра теоретического распределения означает отыс­кание функции от наблюдаемых случайных величин, которая и даст нам приближенное значение искомого параметра. Укажем виды статистических оценок.

Несмещенной называется статистическая оценка , мате­матическое ожидание которой равно оцениваемому параметру  при любой выборке:

 

Смещенной называется оценка, при которой условие (18.51) не выполнено. Эффективной называется оценка, которая имеет минимальную дисперсию при заданном объеме выборки п. Со­стоятельной называется статистическая оценка типа (18.50), которая при п >  стремится по вероятности к оцениваемому параметру.

 Виды числовых характеристик оценок.

Если значения признака х1, x2, …, хk в выборке имеют соответ­ственно частоты n1, n2, ..., nk , то выборочная средняя

 

Выборочная средняя (18.52) является не­смещенной оценкой; это аналог математического ожидания случайной величины.

Величина, характеризующая от­клонение значений количественного признака Х от своего сред­него значения это

 выборочная дисперсия:

 

Для вычисления этой характеристики справедлива более удобная формула, аналогичная дисперсии случайной величины; так, формула (18.53) принимает вид

 

Выборочное среднее квадратическое отклонение

 

Пример 4. Выборка задана таблицей распределения

 

Найти выборочные характеристики: среднюю, дисперсию и среднее квадратическое отклонение.

Решение. По формуле (18.52) сначала находим в:

 

 

Затем по формулам (18.54) и (18.55) находим две другие иско­мые величины:

 


Дата добавления: 2020-12-22; просмотров: 199; Мы поможем в написании вашей работы!

Поделиться с друзьями:




Мы поможем в написании ваших работ!