Показатели центра распределения

ЛЕКЦИЯ

СТАТИСТИЧЕСКИЕ РАСПРЕДЕЛЕНИЯ И ИХ ОСНОВНЫЕ ХАРАКТЕРИСТИКИ

Составной частью сводной обработки данных статистическо­го наблюдения является построение рядов распределения. Цель его - выявление основных свойств и закономерностей исследуе­мой статистической совокупности.

 

Представленные выше данные без какой-либо си­стематизации образуют так называемый первичный ряд дан­ных.

Первым шагом в упорядочении первичного ряда явля­ется его ранжирование, т.е. расположение всех вариантов ряда в возрастающем (или убывающем) порядке.

Число повторений отдельных вариантов значений признаков называют частотой повторения. В дальнейшем частоту повторе­ния значения признака будем обозначать  а сумму частот, равную объему изучаемой совокупности  или , где n - число вариантов значений признака.

По характеру вариации различают дискретные и непрерыв­ные признаки. Дискретные признаки отличаются друг от дру­га на некоторую конечную величину, т.е. даны в виде прерыв­ных чисел. Непрерывные признаки могут отличаться один от другого на сколь угодно малую величину и в определенных границах принимать лю­бые значения.

Способы построения вариационного ряда для этих видов при­знаков различны. Для построения дискретного ряда с небольшим числом вариантов достаточно перечислить все встречающиеся ва­рианты значений признака, обозначаемые через х,а затем под­считать частоту повторения каждого варианта  (например, рас­пределение рабочих по разрядам, студентов по успеваемости и т.п.). Вместо абсолютного числа можно установить долю. Частоты, представленные в относительном выражении, на­зывают частостями и обозначают

В тех случаях, когда число вариантов дискретного признака достаточно велико, а также при анализе вариации непрерывного признака, когда значения признака у отдельных единиц могут во­обще не повторяться, строятся интервальные ряды распределе­ния.

При построении интервальных рядов распределения необхо­димо прежде всего установить число групп (интервалов), на ко­торые следует разбить все единицы изучаемой совокупности.

Определение величины интервала i для построения вариаци­онного ряда с равными интервалами производится следующим образом:

1) вычисляется разность между максимальным и минималь­ным значениями признака первичного ряда (определяется раз­мах вариации, R):

2) размах вариации делится на число групп к, т.е.

Число групп приближенно определяется по формуле Стерджесса: k = 1+3,322 lg n, где n- общее число изучаемых единиц сово­купности.

Указанное выражение почти всегда оказывается дробной ве­личиной, которую округляют до целого числа, поскольку коли­чество групп не может быть дробным.

Рассмотрим построение ряда распределения по первичным данным о размере прибыли 20 коммерческих банков за год (млрд руб.):

3,7; 4,3; 6,7; 5,6; 5,1; 8,1; 4,6; 5,7; 6,4; 5,9; 5,2; 6,2; 6,3; 7,2; 7,9; 5,8; 4,9; 7,6; 7,0; 6,9.

Определяем количество групп интервального вариационного ряда:

к=1+3,3221g20= 1+3,322*1,301= 5,32. Округляя, получим число групп, равное 5. Величина интервала составит 0,9 млрд руб.

Размер прибыли, млрд руб. Число банков Накопленная частота
3,7 - 4,6               (-) 2 2
4,6 - 5,5 4 6
5,5 - 6,4 6 12
6,4 – 7,3 5 17
7,3 – 8,1 3 20
Итого 20  

 

Показатели центра распределения

Средняя арифметическая для дискретного ряда распределе­ния рассчитывается по формуле

x- варианты значений признака

f- частота повторений данного варианта

 

В интервальном вариационном ряду средняя арифметиче­ская определяется по формуле

где  - середина соответствующего интервала.

В отличие от средней арифметической, рассчитываемой на основе использования всех вариантов значений признака, мода и медиана характеризуют величину варианта, занимающего определенное положение в ранжированном вариационном ряду. Медиана (Ме) соответствует варианту, стоящему в середине ран­жированного ряда.

Положение медианы определяется ее номером , где n-число единиц в совокупности.

В интервальном ряду распределения сразу можно указать только интервал, в котором будут находиться мо­да или медиана. Для определения их величины используются сле­дующие формулы:

где нижняя граница медианного интервала;

- величина интервала;

 - накопленная частота интервала, предшествующего медианному;

- частота медианного интервала.

Мода (Мо) - наиболее часто встречающееся значение призна­ка в совокупности - для данного ряда распределения также равна четвертому разряду (этому разряду соответствует максимальная частота, равная 8).

Наибольшая частота соответствует также интервалу 5,5 - 6,4, т.е. мода должна находиться в этом интервале. Ее величину опре­деляем по формуле:

где - начало модального интервала;

 - частота, соответствующая модальному интервалу;

предмодальная частота;

- послемодальная частота.

Показатели вариации (колеблемости) признака

Размах колебаний, или размах вариации, представляет со­бой разность между максимальным и минимальным значениями признака в изучаемой совокупности:

Среднее линейное отклонение а вычисляется по следующим формулам:

для несгруппированных данных  

для сгруппированных данных

Дисперсия - средняя из квадратов отклонений вариантов значений признака от их средней величины. Дисперсия рассчи­тывается по следующим формулам:

для несгруппированных данных:

для сгруппированных данных

 

Среднее квадратическое отклонение  представляет собой корень квадратный из дисперсии:

для несгруппированных данных

для сгруппированных данных

Размах вариации, среднее линейное и среднее квадратиче­ское отклонение являются величинами именованными. Они имеют те же единицы измерения, что и индивидуальные зна­чения признака.

 

Расчет показателей вариации для банков, сгруппированных по размеру прибыли, показан в Таблице

 

Размер прибыли, млрд руб.

Число банков

Расчетные показатели

/ /f
3,7-4,6 (-) 2 4,15 8,30 -1,935 3,870 7,489
4,6-5,5 4 5,05 20,20 -1,035 4,140 4,285
5,5-6,4 6 5,95 35,70 -0,135 0,810 0,109
6,4-7,3 5 6,85 34,25 +0,765 3,825 2,926
7,3-8,2 3 7,75 23,25 +1,665 4,995 8,317
Итого 20   121,70   17,640 23,126

 

 млрд руб

 млрд руб.

 млрд руб.

Если в качестве показателя центра распределения использу­ется медиана, то для характеристики вариации признаков в сово­купности можно применить так называемое квартильное откло­нение

где Q1 и Q3—соответственно первая и третья квартили распределения

Квартили определяются по формулам, аналогичным при­веденной выше формуле для расчета медианы.

При сравнении колеблемости различных признаков в одной и той же совокупности или же при сравнении колеблемости од­ного и того же признака в нескольких совокупностях с различ­ной величиной средней арифметической пользуются относитель­ными показателями вариации. Эти показатели вычисляются как отношение абсолютных показателей вариации к средней ариф­метической (или медиане).

Коэффициент осцилляции:

Относительное линейное отклонение

Коэффициент вариации

Относительный показатель квартильной вариации

, или

Наиболее часто применяемый показатель относительной ко­леблемости - коэффициент вариации. Его используют не только для сравнительной оценки вариации, но и для характеристики од­нородности совокупности. Совокупность считается однородной, если коэффициент вариации не превышает 33% (для распределе­ний, близких к нормальному).

 

Теорема сложения дисперсий

Вариацию, обусловленную влиянием фактора, положенно­го в основу группировки, характеризует межгрупповая дисперсия, которая является мерой колеблемости частных средних по группам вокруг общей средней и исчисляется по формуле:

где f –число единиц в группах, частная средняя по группам, - общая средняя по совокупности единиц.

Вариацию, обусловленную влиянием прочих факторов, харак­теризует в каждой группе внутригрупповая дисперсия

По совокупности в целом вариация значений признака под влиянием прочих факторов характеризуется средней из внутригрупповых дисперсий:

Общая дисперсия равна сумме средней из внутригруп­повых и межгрупповой дисперсий

Рассмотрим правило сложения дисперсий на следующем при­мере. По результатам маркетингового обследования туристиче­ских фирм, организующих недельные туры в Испанию в различ­ные курортные города, получены следующие данные о вариации стоимости туров.

Местоположение курорта Число туристических фирм Средняя цена недельного тура, долл. Дисперсия цен тура в группе
Коста-Брава 7 528,57 2728,04
Коста-дель-Соль 6 588,33 8851,14
Итого 13 556,16 5554,09

 

Вариация цен в обследованной группе туристических фирм, обусловленная различием в местоположении курорта, будет ха­рактеризоваться величиной межгрупповой дисперсии.

Средняя цена недельного тура по всем фирмам составляет:

долл.

Тогда межгрупповая дисперсия составит:

Вариация цен под влиянием всех прочих факторов, кроме ме­стоположения курорта, будет характеризоваться величиной сред­ней из внутригрупповых дисперсий:

Вариация цен на недельные туры в Испанию, обусловленная влиянием всех факторов, формирующих уровень цен в данной группе, состоящей из 13 туристических фирм, определяется ве­личиной общей дисперсии:

Отсюда можно сделать вывод, что на 6,91% дисперсия цеп на недельные туры объясняется различиями в местоположении курорта, а на 93,09% влиянием про­чих факторов. Таким образом, преобладающие влияние на ва­риацию цен недельных туров в Испанию оказывают прочие факторы.

Дисперсия альтернативного признака:

Анализ вариации в рядах распределения целесообразно допол­нить показателями дифференциации. По первичным данным мо­жет быть рассчитан так называемый коэффициент фондовой дифференциации , который рассчитывают соотношением двух сред­них, полученных из 10% наибольших и наименьших значений признака.

Если представлены сгруппированные данные, то для харак­теристики дифференциации можно воспользоваться соотноше­нием десятой и первой децили (децили делят все число единиц в совокупности на 10 равных частей).

Для определения децилей ис­пользуются формулы, аналогичные тем, что приведены выше для расчета квартилей. Общая схема их расчета такова:

1) определяется номер децили  для первой децили ,

для девятой , где D-дециль

2) устанавливается интервал, где должны будут находиться децили;

3) рассчитывается значение децилей при предположении рав­номерного наращения величины интервала на каждую единицу частоты;

4) определяется коэффициент децильной дифференциации

Изучение формы распределения

Симмет­ ричным является распределение, в котором частоты любых двух вариантов, равноотстоящих в обе стороны от центра распреде­ления, равны между собой. Для симметричных распределений име­ет место равенство средней арифметической, моды и медианы. В связи с этим простейший показатель асимметрии основан на со­отношении показателей центра распределения: чем больше раз­ница между средними (х- М()), тем больше асимметрия ряда.

Для сравнительного анализа степени асимметрии нескольких распределений рассчитывают относительный показатель :

Величина показателя асимметрии  может быть положитель­ной и отрицательной. Положительная величина показателя асим­метрии указывает на наличие правосторонней асимметрии (пра­вая ветвь относительно максимальной ординаты вытянута боль­ше, чем левая). При правосторонней асимметрии между показателями центра распределения существует соотношение: Мо<Ме <х. Отрицательный знак показателя асимметрии свиде­тельствует о наличии левосторонней асимметрии. Между показателями центра распределения в этом случае имеется такое соотношение: Мо > Ме > х.

Правосторонняя асимметрия

 

Левосторонняя асимметрия

 

Эксцесс представляет собой выпад вершины эмпирического распределения вверх или вниз от вершины кривой нормального распределения. В нормальном распределении отношение

 


Дата добавления: 2021-05-18; просмотров: 389; Мы поможем в написании вашей работы!

Поделиться с друзьями:




Мы поможем в написании ваших работ!