Средние величины и характеристики рассеяния значений признака
Группировка и построение частотного распределения — лишь первый этап статистического анализа полученных данных. Следующим шагом обработки является получение некоторых обобщающих характеристик, позволяющих глубже понять особенности объекта наблюдения. Сюда относится, прежде всего, среднее значение признака, вокруг которого варьируют остальные его значения, и степень колеблемости рассматриваемого признака. В математической статистике различают несколько видов средних величин: среднее арифметическое, медиана, мода и т. д.; существует также несколько показателей колеблемости (мер рассеяния): вариационный размах, среднее квадратическое отклонение, среднее абсолютное отклонение, дисперсия и т. п.17
Среднее значение признака.
Среднее есть абстрактная типическая характеристика всей совокупности. Оно уничтожает, погашает, сглаживает случайные и неслучайные колебания, влияние индивидуальных особенностей и позволяет представить в одной величине, некоторую общую характеристику реальной совокупности единиц. Основное условие научного использования средних заключается в том, чтобы каждое среднее характеризовало такую совокупность единиц, которая в существенном отношении, и в первую очередь в отношении осредняемых значений признака, была бы качественно однородной. Среди всего многообразия средних практически наиболее часто используемой считается среднее арифметическое.
|
|
Среднее арифметическое. Среднее арифметическое есть частное от деления суммы всех значений признака на их число. Обозначается оно х. Формула для вычисления имеет вид
По следующим данным вычислим среднее число газет, читаемых ежедневно индивидами в выборке, из 10 человек:
Формула (1) для сгруппированных данных преобразуется в следующую:
где nt — частота для i-го значения признака.
Если находят среднюю для интервального ряда .распределения, то в качестве значения признака для каждого интервала условно принимают его середину.
Процедуру вычисления среднего по сгруппированным данным удобно выполнять по следующей схеме (табл. 3).
Существует ряд упрощенных приемов вычисления средних. На с. 163 как промежуточный этап рассмотрено вычисление среднего методом отсчета от условного нуля.
Пример. Вышеприведенные данные о количестве прочитанных газет (см. с. 159) сгруппируем следующим образом:
Медиана. Медианой называется значение признака у той единицы совокупности, которая расположена в середине ряда частотного распределения.
Если в ряду четное число членов (2k), то медиана равна среднему арифметическому из двух серединных значений признака. При нечетном числе членов (2k+ 1) медианным будет значение признака у (k + 1) объекта.
|
|
Предположим, что в выборке из 10 человек респонденты проранжированы по стажу работы на данном предприятии:
Серединные ранги 5 и 6, поэтому медиана равна
В интервальном ряду с различными значениями частот вычисление медианы распадается на два этапа: сначала находят медианный интервал, которому соответствует первая из накопленных частот, превышающая половину всего объема совокупности, а затем находят значение медианы по формуле
где Х0 — начало (нижняя граница) медианного интервала; d — величина медианного интервала; n = Snt — сумма частот (относительных частот) интервалов; nн — частота (относительная), накопленная до медианного интервала; nмe — частота (относительная) медианного интервала.
Проведем вычисление по данным табл. 2, где в нижней строке приведены накопленные относительные частоты. Первая из них, превышающая половину совокупности (100/2 = 50%), равна 57,9%. Следовательно, медиана принадлежит интервалу 3—4 года. Поэтому
Таким образом, для данной выборки медиана, равная 3,7 года, показывает, что 50% семей имеют соотношение возрастов, меньшее этой величины, а другие 50%—большее. Медиана может быть легко определена графически по кумуляте распределения (см. рис. 3).
|
|
Медиана может быть применена для дискретных переменных, хотя дробные значения часто не имеют непосредственной содержательной интерпретации.
По данным распределения рабочих по тарифным разрядам см. с. 156) вычислим медиану этого распределения, используя приведенную выше формулу18. Получим
Узнали, что 50% рабочих имеют разряд, меньший 3,1, и 50%—больший.
Медиана, как уже отмечалось, делит упорядоченный вариационный ряд на две равные по численности группы.
Наряду с медианой можно рассматривать величины, называемые квантилями, которые делят ряд распределения на 4 равные части, на 10 и т. д.
Квантили, которые делят ряд на 4 равные по объему совокупности, называются квартилями. Различают нижний Q1/4 и верхний квартили (рис. 6). Величина Q1/2 является медианой. Вычисление квартилей совершенно аналогично вычислению медианы:
где х0 — минимальная граница интервала, содержащего нижний (верхний) квартиль; nн — частота (относительная частота), накопленная до квартального интервала; nQ — частота (относительная частота) квартального интервала; d — величина квартального интервала.
|
|
Процентили делят множество наблюдений на 100 частей с равным числом наблюдений в каждой. Децили делят множество наблюдений на десять равных частей. Квантили легко вычисляются по распределению накопленных частот (по кумуляте).
Мода. Модой в статистике называется наиболее часто встречающееся значение признака, т. е. значение, с которым наиболее вероятно можно встретиться в серии зарегистрированных наблюдений. В дискретном ряду мода (Мо) — это значение с наибольшей частотой.
В интервальном ряду (с равными интервалами) модальным является класс с наибольшим числом наблюдений. Значение моды находится в его пределах и вычисляется по формуле
где х0 — нижняя граница модального интервала; d — величина интервала; n- — частота интервала, предшествующего модальному; nМо — частота модального класса; n+ — частота интервала, следующего за модальным.
В совокупностях, в которых может быть произведена лишь операция классификации объектов по какому-нибудь качественному признаку, вычисление моды является единственный способом указать некий центр тяжести совокупности.
К недостаткам моды следует отнести следующие: невозможность совершать над ней алгебраические действия; зависимость ее величины от интервала группировки; возможность существования в ряду распределения нескольких модальных значений признака (см., например, рис. 4, в).
Сравнение средних. Целесообразность использования того или иного типа средней величины зависит по крайней мере от следующих условий: цели усреднения, вида распределения, уровня измерения признака, вычислительных соображений. Цель усреднения связана с содержательной трактовкой рассматриваемой задачи. Однако форма распределения может существенно усложнить исследование средних. Если для симметричного распределения (см. рис. 4, а) мода, медиана и среднее арифметическое тождественны, то для асимметричного распределения это не так. На выбор средней может повлиять и вид распределения. Например, для ряда с открытыми конечными интервалами нельзя вычислять среднее арифметическое, но если распределение близко к симметричному, можно подсчитать тождественную ему в этом случае медиану.
Дата добавления: 2018-10-26; просмотров: 274; Мы поможем в написании вашей работы! |
Мы поможем в написании ваших работ!