Статистические взаимосвязи и их анализ



 

Понятие о статистической зависимости. Исходя из известного положения исторического материализма о всеобщей взаимозависимо­сти и взаимообусловленности явлений общественной жизни, социо­лог-марксист не может ограничиться изучением отдельно взятого явления изолированно от других процессов и событий, а должен стремиться по возможности охватить весь комплекс явлений, отно­сящихся к тому или иному социальному процессу и изучить суще­ствующие между ними зависимости.

Различают два вида зависимостей: функциональные (примером которых могут служить законы Ньютона в классической физике) и статистические.

Закономерности массовых общественных явлений складываются под влиянием Множества причин, которые действуют одновременно и взаимосвязанно. Изучение такого рода закономерностей в стати­стике и называется задачей о статистической зависимости. В этой задаче полезно различать два аспекта: изучение взаимозависимости между несколькими величинами и изучение зависимости одной или большего числа величин от остальных. В основном первый аспект связан с теорией корреляции (корреляционный анализ), второй — с теорией регрессии (регрессионный анализ). Основное внимание в этом параграфе уделено изучению взаимозависимостей нескольких признаков, а основные принципы регрессионного анализа рассмотре­ны очень кратко.

В основе регрессионного анализа статистической зависимости ряда признаков лежит представление о форме, направлении и тес­ноте (плотности) взаимосвязи.

В табл. 7 приведено эмпирическое распределение заработной пла­ты рабочих в зависимости от общего стажа работы (условные

данные) для выборки в 25 человек, а на рис. 9 эти численные данные представлены в виде так называемой диаграммы рассеяния, или разброса. Вообще говоря, визуально не всегда можно определить, су­ществует или нет значимая взаимосвязь между рассматриваемыми признаками и насколько она значима, хотя очень часто уже на диаграмме просматривается общая тенденция в изменении значе­ний признаков и направление связи между изучаемыми признаками. Уравнение регрессии. Статистическая зависимость одного или большего числа признаков от остальных выражается спомощью уравнений регрессии. Рассмотрим две величины х и у, такие, например, как на рис. 9. Зафиксируем какое-либо значение пере­менной х, тогда у принимает целый ряд значений. Обозначим у среднюю величину этих значений у при данном фиксированном х. Уравнение, описывающее зависимость средней величины ух от x называется уравнением регрессии у по х:

Аналогичным образом можно дать геометрическую интерпрета­цию регрессионному уравнению22

Уравнение регрессии описывает числовое соотношение между величинами, выраженное в виде тенденции к возрастанию (или убыванию) одной переменной величины при возрастании (убывании) другой. Эта тенденция проявляется на основе некоторого чис­ла наблюдений, когда из общей, массы выделяются, контролируют­ся, измеряются главные, решающие факторы.

Характер связи взаимодействующих признаков отражается в ее форме. В этом отношении полезно различать линейную и нелиней­ную регрессии. На рис. 10, 11 приведены графики линейной и кри­волинейной форм линий регрессии и их диаграммы разброса для случая двух переменных величин.

Направление и плотность (теснота) линейной связи между дву­мя переменными измеряются с помощью коэффициента корреляции.

Меры взаимозависимости для интервального уровня измерения. Наиболее широко известной мерой связи служит коэффициент кор­реляций Пирсона (или, как его иногда называют, коэффициент кор­реляции, равный произведению моментов). Одно из важнейших предположений, на котором покоится использование коэффициента г, состоит в том, что регрессионные уравнения для изучаемых переменных имеют линейную форму23, т. е.

где у — среднее арифметическое для переменной у; х — среднее арифметическое для переменной х; b 1 и b 2  - некоторые коэффи­циенты.

Поскольку вычисление коэффициента корреляции и коэффици­ентов регрессии b1 и b2 проводится по схожим формулам, то, вычисляя r, получаем сразу же и приближенные регрессионные модели24.

 

Выборочные коэффициенты регрессии и корреляции вычисляются по формулам

Здесь s2x —дисперсия признака х; s2xдисперсия признака у.Величина sxy, называется ковариацией х и у.

Расчет r для не с группированных данных. Для вычислительных целей эти выражения в случае не сгруппированных данных можно переписать в следующем виде:

Рассчитаем коэффициент корреляции и коэффициенты регрессии для данных табл. 7:

Тогда уравнение регрессии имеет вид

Линии регрессии y = F(x) изображены на рис. 10-. Отсюда вид­но, что между заработной платой и общим стажем работы сущест­вует прямая зависимость: по мере увеличения общего стажа рабо­ты на предприятии растет и заработная плата. Величина коэффи­циента корреляции довольно большая и свидетельствует о положи­тельной связи между переменными величинами. Следует отметить, что вопрос о том, какую переменную в данном случае принимать в качестве зависимой величины, а какую — в качестве независимой, исследователь решает на основе качественного анализа и профес­сионального опыта. Коэффициент корреляции по определению яв­ляется симметричным показателем связи: rxy = ryx. Область возмож­ного изменения коэффициента корреляции г лежит в пределах от +1 до —1.

Вычисление r для сгруппированных данных. Для сгруппирован­ных данных примем ширину интервала по каждой переменной за единицу (если по какой-либо переменной имеются неодинаковые размеры интервала, то возьмем из них наименьший). Выберем так­же начало координат для каждой переменной где-нибудь возле среднего значения, оцененного на глаз.

Для условных данных, помещенных в табл. 8, за нулевую точ­ку отсчета выберем значение у, равное 64, а по x — значение 134,5.

Тогда коэффициент корреляции определяется по следующей формуле:

 

Для вышеприведенного примера порядок вычислений представлен в табл. 9. Для определения Snijaxby вычислим последовательно все произведения частоты в каждой клетке таблицы на ее коор­динаты. Так

В соответствии с формулой вычисляем

Таким образом, величина связи достаточно велика, как, впрочем, и следовало ожидать на основе визуального анализа таблицы.

Статистическая значимость r. После вычисления коэффициента корреляции возникает вопрос, насколько показателен этот коэффи­циент и не обусловлена ли зависимость, которую он фиксирует, случайными отклонениями. Иначе говоря, необходимо проверить гипотезу о том, что полученное значение r значимо отличается от 0.

Если гипотеза H 0 (r = 0) будет отвергнута, говорят, что величи­на коэффициента корреляции статистически значима (т. е. эта ве­личина не обусловлена случайностью) при уровне значимости a.

Для случая, когда п < 50, применяется критерий t, вычисляе­мый по формуле

Распределение t дано в табл. В приложения.

Если п > 50, то необходимо использовать Z-критерий

В табл. А приложения приведены значения величины Z Kp для соответствующих a.   

Вычислим величину Z для коэффициента корреляции по табл. 7 (вычисление проделаем лишь для иллюстрации, так как число на­блюдений п — 25 и нужно применять критерий t). Величина r (см. табл. 7) равна 0,86. Тогда

Для уровня значимости a = 0,01 ZKp = 2,33 (см. табл. А прило­жения).

Поскольку Z > ZKp, мы должны констатировать, что коэффици­ент корреляции г = 0,86 значим и лишь в 1 % случаев может ока­заться равным нулю. Аналогичный результат дает и проверка по критерию t для а = 0,01 (односторонняя область); tкр— 2,509, tвы­борочное равно 8,08.

Другой часто встречающейся задачей, является проверка равен­ства на значимом уровне двух коэффициентов корреляции. i = г2 при заданном уровне а, т. е. различия между r1 и r2 обусловлены лишь колебаниями выборочной совокупности.

Критерий для проверки значимости следующий:

где значения zrj и z r находят по табл. Д приложения для r1 и r2.

Значения ZКp определяют по табл. А. приложения аналогично вышеприведенному примеру.

Частная и множественная регрессия и корреляция. Ранее нами было показано, как можно по опытным данным найти зависимость одной переменной от другой, а именно как построить уравнение регрессии вида у = а + bх. Если исследователь изучает влияние не­скольких переменных х 1, х 2, ..., х k  результатирующий признак y, то возникает необходимость в умении строить регрессионное урав­нение более общего вида, т. е.

где a, b 1,. b 2, ..., b k — постоянные коэффициенты, коэффициенты регрессии.   

В связи с уравнением (26) необходимо рассмотреть следующие вопросы: а) как по эмпирическим данным вычислить коэффициенту регрессии а, b1, b2…bк ; б)какую интерпретацию можно припи­сать этим коэффициентам; в) оценить тесноту связи между у и каждым из Xi в отдельности (при элиминировании действия остальных); г) оценить тесноту связи между у и всеми переменными х 1, ..., x к в совокупности.

Рассмотрим этот вопрос на примере построения двухфакторного регрессионного уравнения. Предположим, что изучается зависимость недельного бюджета свободного времени (у) от уровня образования i) и возраста 2) определенной группы трудящихся по данным выборочного обследования. Будем искать эту зависимость в виде линейного уравнения следующего вида:

При расчете коэффициентов уравнения множественной регрессии полезно преобразовать исходные эмпирические данные следующим образом. Пусть в результате обследования п человек получены эм­пирические значения, сведенные в следующую таблицу (в каждом столбце представлены не сгруппированные данные):

Каждое значение переменной в таблице преобразуем по формулам

Коэффициенты с 1 и с г находятся по следующим формулам 

с 1 и с 2 называются стандартизированными коэффициентами регрес­сии. Следовательно, зная коэффициенты корреляции между изучае­мыми признаками, можно подсчитать коэффициенты регрессии. Подставим конкретные значения rij из следующей таблицы25;

Коэффициенты исходного регрессионного уравнения b0, b1 и b2 на­ходятся по формулам

Подставляя сюда данные из вышеприведенной таблицы, получим b1= 3,13; b2= -0,17; b0= - 8,56.

Как же следует интерпретировать это уравнение? Например, значение b 2 показывает, что в среднем недельный бюджет свободного времени при увеличении возраста на один год и при фиксированном признаке Xi уменьшается на 0,17 час. Аналогично интер­претируется b1. (Исходные эмпирические данные можно изобразить на диаграмме рассеяния аналогично тому, как это сделано на рис. 10, но уже в трехмерном пространстве (у, x t, х 2).

Коэффициенты х1 и х2 можно в то же время рассматривать и как показатели тесноты связи между переменными у и, например, Xi при постоянстве х г.

Аналогичную интерпретацию можно применять и к стандарти­зированным коэффициентам регрессии сi. Однако поскольку c i вы­числяются исходя из нормированных переменных, они являются безразмерными и позволяют сравнивать тесноту связи между пере­менными, измеряемыми в различных единицах. Например, в выше­приведенном примере Xi измеряется в классах, a x2в годах. C1и с2 позволяют сравнить, насколько z1 теснее связан с у, чем х г26.

Поскольку коэффициенты biи сi измеряют частную односторон­нюю связь, возникает необходимость иметь показатель, характери­зующий связь в обоих направлениях. Таким показателем является частный коэффициент корреляции

Для рассматриваемого примера ry1.2 = 0,558, rу2.1 i = —0,140.

Для любых трех переменных x1, х2, х3частный коэффициент корреляции между двумя из них при элиминировании третьей стро­ится следующим образом:

Аналогично можно определить и частные коэффициенты корре­ляции для большего числа переменных (r12, 34 ...). Однако ввиду громоздкости вычисления они применяются достаточно редко.

Для характеристики степени связи результатирующего признака у с совокупностью независимых переменных служит множествен­ный коэффициент корреляции R 2 y , который вычисляется по формуле (иногда он выражается в процентах)

Так, для вышеприведенного примера он равен

Множественный коэффициент корреляции показывает, что включе­ние признаков х 1 и х 2 в уравнение

на 32% объясняет изменчивость результатирующего фактора. Чем больше R t, тем полнее независимые переменные х 2 ..., x k описы­вают признак у. Обычно служит критерием включения или ис­ключения новой переменпой в регрессионное уравнение. Если Л мало изменяется при включении новой переменной в уравнение, то такая переменная отбрасывается. 

Корреляционное отношение. Наиболее общим показателем связи при любой форме зависимости между переменными является корре­ляционное отношение h 2. Корреляционное отношение h 2 у/х опреде­ляется через отношение межгрупповой дисперсии к общей диспер­сии по признаку у:

где у iсреднее значение i-ro y-сечения (среднее признака у для объектов, у которых x=x i, т. е. столбец «г»); x i —среднее значе­ние i-го x-сечения т. е. строка «i» nyi —число наблюдений в y сечении; n Xi — число наблюдений в x-сечении; у — среднее зна­чение у.

Величина h 2 у/х показывает, какая доля изменчивости значений у обусловлена изменением значения х. В отличие от коэффициента корреляции h 2 у/х не является симметричным показателем связи, т. е, h 2 у/х не равно h 2 х/y. Аналогично определяется корреляционное отношение х по у27.

Пример. По данным таблицы сопряженности (табл. 9) найдем h 2 у/х.  Вычислим общую среднюю

Сравнение статистических показателей r и h 2 у/х. Приведем сравнительную характеристику коэффициента корреляции (будем срав­нивать r2) и корреляционного отношения h 2 у/х.

а) r2 = 0, если x и у независимы (обратное утверждение не­верно);

б) r2 =h 2 у/х =1 тогда и только тогда, когда имеется строгая ли­нейная функциональная зависимость у от х.

в) r2 = r\y/ x<i тогда и только тогда, когда регрессия х и у стро­го линейна, но нет функциональной зависимости;

г) r2 <h 2 у/х < 1 указывает на то, что нет функциональной зави­симости и существует нелинейная кривая регрессии.


Дата добавления: 2018-10-26; просмотров: 391; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!