Проранжируйте полученные данные и найдите коэффициент ранговой корреляции Кенделла для доходов и расходов на душу населения в областях Центрального федерального округа



ЗАДАЧА 14. За пять лет ввод общей площади (в тыс. кв. м) жилых домов в области и в городе Ярославле характеризуются следующими данными:

Год 1997 1998 1999 2000 2001
Яр. область 222,6 231,7 221 130,6 162,3
г. Ярославль 118,6 119,7 113,3 66,5 89

Что можно сказать о степени зависимости ввода жилья в Ярославской области и в городе Ярославле?

ЗАДАЧА 15. Четыре преподавателя расположили 10 студентов по результатам текущей успеваемости по алгебре, аналитической геометрии, общей физике и истории отечества:

Ранг успев. по алгебре 1 2 3 4 5 6 7 8 9 10
Ранг успев. по анал. геом. 1 2 4 3 6 7 5 10 8 9
Ранг успев. по физике 3 5 1 4 2 9 7 6 10 8
Ранг успев. по истории 8 6 10 1 9 2 4 3 5 8

Найдите два предмета, оценки по которым наиболее согласуются.

cito-web.yspu.org/link1/metod/theory/node42.html

 Вопросы для самоконтроля

1. Для чего служат выборочные коэффициенты ранговой корреляции?

2. Как получается выборочный коэффициент ранговой корреляции Спирмена?

3. В чем отличие коэффициента Кендалла от коэффициента Спирмена?

4. В каком случае связь между качественными признаками небольшая?


Часть 5. Таблицы сопряженности

 

Таблицы сопряженности предназначены для описания связи 2-х и более качественных переменных. ТС не могут быть построены для непрерывных переменных, однако, значения таких переменных можно сгруппировать, то есть преобразовать их в интервальные переменные (например, такие переменные, как возраст, доход).

Число ячеек ТС определяется числом градаций исследуемых переменных.

Так, возможно построение таблицы сопряженности по таким признакам, как пол и хобби. Если признак «хобби» будет иметь три градации, а признак «пол», соответственно две градации, то таблица сопряженности будет иметь 2*3=6 ячеек.

Построение более сложных таблиц сопряженности, включающих в себя три и более признака, имеет смысл лишь для большого объема данных, иначе частоты в таблицах будут принимать слишком малые или даже нулевые значения. Например, если имеем выборку и 100 респондентов, а в таблице сопряженности задействуем четыре признака – пол, хобби (3 градации), вуз (3 градации) и специальность (4 градации), то на выходе получим число ячеек 2*3*3*4=72 ячейки, в которых будет упорядочена частота в 100 человек, что сделает такую таблицу затрудненной для анализа.

Помимо частот (наблюдаемых величин) SPSS вычисляет ожидаемые величины, рассчитываемые на предположении о независимости рассчитываемых величин.

Пусть из 100 респондентов 70 – женщины, 30 – мужчины. Из 100 человек 10 человек увлекаются искусством. Тогда ожидаемые частоты – 7 женщин и 3 мужчины (увлекаются искусством). Сопоставляя эти частоты с наблюдаемыми, можно сделать вывод о том, действительно ли эти переменные независимы – чем больше расхождения в значениях наблюдаемых и ожидаемых величин, тем сильнее эти величины связаны.

Две переменные считаются взаимно независимыми, если наблюдаемые частоты совпадают с ожидаемыми.

В основе критерия независимости лежит вычисление величины «хи-квадрат», называемым также статистикой критерия Пирсона, который определяется формулой:

.

При больших отклонениях ожидаемых и наблюдаемых частот величина хи-квадрат возрастает. Значение коэффициента зависит от количества ячеек и определяется объемом выборки, по его значению можно судить о наличии связи между исследуемыми переменными, но нельзя судить о силе связи или ее направленности.

 

 

Итак, значение коэффициента зависит от количества ячеек.

В частном случае для таблицы 2*2

 

  Y1 Y2
X1 a b
X2 c d

критерий Пирсона рассчитывается по формуле:

r=a+b+c+d

Пример: имеем данные о поступивших на факультет в зависимости от посещения абитуриентами компьютерных курсов. H0:ПК не эффективны (нет зависимости числа поступивших от посещения курсов)

  поступили Не поступили
Посещали курсы 106 42
Не посещали курсы 219 208

=18,49

 

H0:ПК не эффективны отвергаем


Дата добавления: 2018-04-04; просмотров: 162;