Показатели центра распределения
ЛЕКЦИЯ
СТАТИСТИЧЕСКИЕ РАСПРЕДЕЛЕНИЯ И ИХ ОСНОВНЫЕ ХАРАКТЕРИСТИКИ
Составной частью сводной обработки данных статистического наблюдения является построение рядов распределения. Цель его - выявление основных свойств и закономерностей исследуемой статистической совокупности.
Представленные выше данные без какой-либо систематизации образуют так называемый первичный ряд данных.
Первым шагом в упорядочении первичного ряда является его ранжирование, т.е. расположение всех вариантов ряда в возрастающем (или убывающем) порядке.
Число повторений отдельных вариантов значений признаков называют частотой повторения. В дальнейшем частоту повторения значения признака будем обозначать а сумму частот, равную объему изучаемой совокупности или , где n - число вариантов значений признака.
По характеру вариации различают дискретные и непрерывные признаки. Дискретные признаки отличаются друг от друга на некоторую конечную величину, т.е. даны в виде прерывных чисел. Непрерывные признаки могут отличаться один от другого на сколь угодно малую величину и в определенных границах принимать любые значения.
Способы построения вариационного ряда для этих видов признаков различны. Для построения дискретного ряда с небольшим числом вариантов достаточно перечислить все встречающиеся варианты значений признака, обозначаемые через х,а затем подсчитать частоту повторения каждого варианта (например, распределение рабочих по разрядам, студентов по успеваемости и т.п.). Вместо абсолютного числа можно установить долю. Частоты, представленные в относительном выражении, называют частостями и обозначают
|
|
В тех случаях, когда число вариантов дискретного признака достаточно велико, а также при анализе вариации непрерывного признака, когда значения признака у отдельных единиц могут вообще не повторяться, строятся интервальные ряды распределения.
При построении интервальных рядов распределения необходимо прежде всего установить число групп (интервалов), на которые следует разбить все единицы изучаемой совокупности.
Определение величины интервала i для построения вариационного ряда с равными интервалами производится следующим образом:
1) вычисляется разность между максимальным и минимальным значениями признака первичного ряда (определяется размах вариации, R):
2) размах вариации делится на число групп к, т.е.
Число групп приближенно определяется по формуле Стерджесса: k = 1+3,322 lg n, где n- общее число изучаемых единиц совокупности.
Указанное выражение почти всегда оказывается дробной величиной, которую округляют до целого числа, поскольку количество групп не может быть дробным.
|
|
Рассмотрим построение ряда распределения по первичным данным о размере прибыли 20 коммерческих банков за год (млрд руб.):
3,7; 4,3; 6,7; 5,6; 5,1; 8,1; 4,6; 5,7; 6,4; 5,9; 5,2; 6,2; 6,3; 7,2; 7,9; 5,8; 4,9; 7,6; 7,0; 6,9.
Определяем количество групп интервального вариационного ряда:
к=1+3,3221g20= 1+3,322*1,301= 5,32. Округляя, получим число групп, равное 5. Величина интервала составит 0,9 млрд руб.
Размер прибыли, млрд руб. | Число банков | Накопленная частота |
3,7 - 4,6 (-) | 2 | 2 |
4,6 - 5,5 | 4 | 6 |
5,5 - 6,4 | 6 | 12 |
6,4 – 7,3 | 5 | 17 |
7,3 – 8,1 | 3 | 20 |
Итого | 20 |
Показатели центра распределения
Средняя арифметическая для дискретного ряда распределения рассчитывается по формуле
x- варианты значений признака
f- частота повторений данного варианта
В интервальном вариационном ряду средняя арифметическая определяется по формуле
где - середина соответствующего интервала.
В отличие от средней арифметической, рассчитываемой на основе использования всех вариантов значений признака, мода и медиана характеризуют величину варианта, занимающего определенное положение в ранжированном вариационном ряду. Медиана (Ме) соответствует варианту, стоящему в середине ранжированного ряда.
|
|
Положение медианы определяется ее номером , где n-число единиц в совокупности.
В интервальном ряду распределения сразу можно указать только интервал, в котором будут находиться мода или медиана. Для определения их величины используются следующие формулы:
где нижняя граница медианного интервала;
- величина интервала;
- накопленная частота интервала, предшествующего медианному;
- частота медианного интервала.
Мода (Мо) - наиболее часто встречающееся значение признака в совокупности - для данного ряда распределения также равна четвертому разряду (этому разряду соответствует максимальная частота, равная 8).
Наибольшая частота соответствует также интервалу 5,5 - 6,4, т.е. мода должна находиться в этом интервале. Ее величину определяем по формуле:
где - начало модального интервала;
- частота, соответствующая модальному интервалу;
предмодальная частота;
- послемодальная частота.
Показатели вариации (колеблемости) признака
Размах колебаний, или размах вариации, представляет собой разность между максимальным и минимальным значениями признака в изучаемой совокупности:
|
|
Среднее линейное отклонение а вычисляется по следующим формулам:
для несгруппированных данных
для сгруппированных данных
Дисперсия - средняя из квадратов отклонений вариантов значений признака от их средней величины. Дисперсия рассчитывается по следующим формулам:
для несгруппированных данных:
для сгруппированных данных
Среднее квадратическое отклонение представляет собой корень квадратный из дисперсии:
для несгруппированных данных
для сгруппированных данных
Размах вариации, среднее линейное и среднее квадратическое отклонение являются величинами именованными. Они имеют те же единицы измерения, что и индивидуальные значения признака.
Расчет показателей вариации для банков, сгруппированных по размеру прибыли, показан в Таблице
Размер прибыли, млрд руб. | Число банков | Расчетные показатели | ||||
/ /f | ||||||
3,7-4,6 (-) | 2 | 4,15 | 8,30 | -1,935 | 3,870 | 7,489 |
4,6-5,5 | 4 | 5,05 | 20,20 | -1,035 | 4,140 | 4,285 |
5,5-6,4 | 6 | 5,95 | 35,70 | -0,135 | 0,810 | 0,109 |
6,4-7,3 | 5 | 6,85 | 34,25 | +0,765 | 3,825 | 2,926 |
7,3-8,2 | 3 | 7,75 | 23,25 | +1,665 | 4,995 | 8,317 |
Итого | 20 | 121,70 | 17,640 | 23,126 |
млрд руб
млрд руб.
млрд руб.
Если в качестве показателя центра распределения используется медиана, то для характеристики вариации признаков в совокупности можно применить так называемое квартильное отклонение
где Q1 и Q3—соответственно первая и третья квартили распределения
Квартили определяются по формулам, аналогичным приведенной выше формуле для расчета медианы.
При сравнении колеблемости различных признаков в одной и той же совокупности или же при сравнении колеблемости одного и того же признака в нескольких совокупностях с различной величиной средней арифметической пользуются относительными показателями вариации. Эти показатели вычисляются как отношение абсолютных показателей вариации к средней арифметической (или медиане).
Коэффициент осцилляции:
Относительное линейное отклонение
Коэффициент вариации
Относительный показатель квартильной вариации
, или
Наиболее часто применяемый показатель относительной колеблемости - коэффициент вариации. Его используют не только для сравнительной оценки вариации, но и для характеристики однородности совокупности. Совокупность считается однородной, если коэффициент вариации не превышает 33% (для распределений, близких к нормальному).
Теорема сложения дисперсий
Вариацию, обусловленную влиянием фактора, положенного в основу группировки, характеризует межгрупповая дисперсия, которая является мерой колеблемости частных средних по группам вокруг общей средней и исчисляется по формуле:
где f –число единиц в группах, частная средняя по группам, - общая средняя по совокупности единиц.
Вариацию, обусловленную влиянием прочих факторов, характеризует в каждой группе внутригрупповая дисперсия
По совокупности в целом вариация значений признака под влиянием прочих факторов характеризуется средней из внутригрупповых дисперсий:
Общая дисперсия равна сумме средней из внутригрупповых и межгрупповой дисперсий
Рассмотрим правило сложения дисперсий на следующем примере. По результатам маркетингового обследования туристических фирм, организующих недельные туры в Испанию в различные курортные города, получены следующие данные о вариации стоимости туров.
Местоположение курорта | Число туристических фирм | Средняя цена недельного тура, долл. | Дисперсия цен тура в группе |
Коста-Брава | 7 | 528,57 | 2728,04 |
Коста-дель-Соль | 6 | 588,33 | 8851,14 |
Итого | 13 | 556,16 | 5554,09 |
Вариация цен в обследованной группе туристических фирм, обусловленная различием в местоположении курорта, будет характеризоваться величиной межгрупповой дисперсии.
Средняя цена недельного тура по всем фирмам составляет:
долл.
Тогда межгрупповая дисперсия составит:
Вариация цен под влиянием всех прочих факторов, кроме местоположения курорта, будет характеризоваться величиной средней из внутригрупповых дисперсий:
Вариация цен на недельные туры в Испанию, обусловленная влиянием всех факторов, формирующих уровень цен в данной группе, состоящей из 13 туристических фирм, определяется величиной общей дисперсии:
Отсюда можно сделать вывод, что на 6,91% дисперсия цеп на недельные туры объясняется различиями в местоположении курорта, а на 93,09% влиянием прочих факторов. Таким образом, преобладающие влияние на вариацию цен недельных туров в Испанию оказывают прочие факторы.
Дисперсия альтернативного признака:
Анализ вариации в рядах распределения целесообразно дополнить показателями дифференциации. По первичным данным может быть рассчитан так называемый коэффициент фондовой дифференциации , который рассчитывают соотношением двух средних, полученных из 10% наибольших и наименьших значений признака.
Если представлены сгруппированные данные, то для характеристики дифференциации можно воспользоваться соотношением десятой и первой децили (децили делят все число единиц в совокупности на 10 равных частей).
Для определения децилей используются формулы, аналогичные тем, что приведены выше для расчета квартилей. Общая схема их расчета такова:
1) определяется номер децили для первой децили ,
для девятой , где D-дециль
2) устанавливается интервал, где должны будут находиться децили;
3) рассчитывается значение децилей при предположении равномерного наращения величины интервала на каждую единицу частоты;
4) определяется коэффициент децильной дифференциации
Изучение формы распределения
Симмет ричным является распределение, в котором частоты любых двух вариантов, равноотстоящих в обе стороны от центра распределения, равны между собой. Для симметричных распределений имеет место равенство средней арифметической, моды и медианы. В связи с этим простейший показатель асимметрии основан на соотношении показателей центра распределения: чем больше разница между средними (х- М()), тем больше асимметрия ряда.
Для сравнительного анализа степени асимметрии нескольких распределений рассчитывают относительный показатель :
Величина показателя асимметрии может быть положительной и отрицательной. Положительная величина показателя асимметрии указывает на наличие правосторонней асимметрии (правая ветвь относительно максимальной ординаты вытянута больше, чем левая). При правосторонней асимметрии между показателями центра распределения существует соотношение: Мо<Ме <х. Отрицательный знак показателя асимметрии свидетельствует о наличии левосторонней асимметрии. Между показателями центра распределения в этом случае имеется такое соотношение: Мо > Ме > х.
Правосторонняя асимметрия
Левосторонняя асимметрия
Эксцесс представляет собой выпад вершины эмпирического распределения вверх или вниз от вершины кривой нормального распределения. В нормальном распределении отношение
Дата добавления: 2021-05-18; просмотров: 389; Мы поможем в написании вашей работы! |
Мы поможем в написании ваших работ!