Использование ранговых критериев Уилкоксона-Манна-Уитни



Мастицкий , глава 5 (128)

КЛАССИЧЕСКИЕ МЕТОДЫ И КРИТЕРИИ СТАТИСТИКИ

Гипотеза о равенстве средних двух генеральных совокупностей

Гипотеза об однородности дисперсий

Используемые тесты:

· Критерий Стьюдента для гипотезы о равенстве средних. Может проверять равенство среднего нулю, сравнивать средние независимых и парных выборок. Для независимых выборок предполагается равенство дисперсий

· Ранговый критерий сравнения средних Уилкоксона-Манна-Уитни. Может проверять равенство среднего нулю, сравнивать средние независимых и парных выборок.

· Критерий Фишера сравнения двух дисперсий

· Тест Левене однородности нескольких дисперсий

· Тест Бартлетта однородности нескольких дисперсий

· Тест Флигнера-Килина однородности нескольких дисперсий

· Тест Кокрана однородности нескольких дисперсий при равном объеме групп

· Дисперсионный анализ, функции lm(), aov().

· Корреляция, функции cor(), cor.test()

· Критери случайности для таблиц Хи-квадрат, функции chisq.test()

· Точный критерий Фишера для таблиц, функция fisher.test().  

Используемые наборы данных

Описание набора данных InsectSprays

Название Описание
count Целочисленный скаляр. Число погибших насекомых
spray Номинальный. Тип использованного спрея

 

Описание набора данных Energy

Название Описание
expend Скаляр. Суточное потребление энергии худыми (lean) и полными (obese) женщинами
stature Фактор с уровнями lean и obese.

 

Описание набора данных Intake

Название Описание
pre Скаляр. Потребление энергии женщиной до процедур
post Скаляр. Потребление энергии женщиной после процедур

 

Описание набора данных Warpbreaks (разрывы нитей в ткацком станке)

Название Описание
breaks Целочисленный скаляр. Число разрывов
wool Номинальный. Тип шерсти
tension Ординальный. Уровни трения (L, M, H)

 

Описание набора данных Weightgain (набор веса крысами на разных диетах)

Название Описание
source Номинальный. Источник протеина, уровни Beef и Cereal
type Ординальный. Количество протеина, уровни High и Low
weightgain Прирост, грамм.

 

Набор данных Dreissena_Conchophthirus (уровень зараженности двустворчатого моллюска Dreissena polymorpha инфузорией-комменсалом Conchophthirus acuminatus)

Название Описание
Month Ординальный. Месяц, уровни  May, July, September
Lake Номинальный. Озеро, уровни  Batorino, Myastro, "Naroch
Site Номинальный. Место отбора, вложен в озеро (три точки на озеро)
ZMlength Целочисленный скаляр. Длина Dreissena polymorpha
CAnumber Целочисленный скаляр. Количество Conchophthirus acuminatus

 

Критерий Стьюдента о равенстве средних.

Пример

Library ( ISwR )

Data ( energy )

Names ( energy )

# [1] "expend" "stature"

Str ( energy )

'data.frame': 22 obs. of 2 variables:

 $ expend : num 9.21 7.53 7.48 8.08 8.09 ...

 $ stature: Factor w/ 2 levels "lean","obese": 2 1 1 1 1 1 1 1 1 1 ...

boxplot(energy$expend~energy$stature)

Для правильного применения критерия Стьюдента необходимо убедиться в однородности дисперсий (что в данном случае отсутствует), и нормальности распределений в классах.

 

levels(energy$stature)

[1] "lean" "obese"

 

ind.lean <-(energy$stature == "lean")

ind.obese <-(energy$stature == "obese")

x<-energy$expend[ind.lean]; ks.test(x,"pnorm",mean(x),sd(x))

 

   One-sample Kolmogorov-Smirnov test

 

data: x

D = 0.25511, p-value = 0.366

alternative hypothesis: two-sided

 

Warning message:

In ks.test(x, "pnorm", mean(x), sd(x)) :

ties should not be present for the Kolmogorov-Smirnov test

 

x<-energy$expend[ind.obese]; ks.test(x,"pnorm",mean(x),sd(x))

 

   One-sample Kolmogorov-Smirnov test

 

data: x

D = 0.25936, p-value = 0.5009

alternative hypothesis: two-sided

 

var.test (expend ~ stature,data=energy)

 

   F test to compare two variances

 

data: expend by stature

F = 0.78445, num df = 12, denom df = 8, p-value = 0.6797

alternative hypothesis: true ratio of variances is not equal to 1

95 percent confidence interval:

 0.1867876 2.7547991

sample estimates:

ratio of variances

     0.784446

 

 

t.test (expend ~ stature,data=energy)

data: expend by stature

t = -3.8555, df = 15.919, p-value = 0.001411

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

 -3.459167 -1.004081

sample estimates:

 mean in group lean mean in group obese

      8.066154      10.297778

 

Data(InsectSprays)

Library(car)

boxplot(count ~ spray,

   data = InsectSprays,xlab="spray",ylab="car",main="InsectSprays")

leveneTest (count ~ spray, data = InsectSprays)

Levene's Test for Homogeneity of Variance (center = median)

Df F value Pr(>F)  

group 5 3.8214 0.004223 **

66                   

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

 

ind<-(InsectSprays$spray=="C"|InsectSprays$spray=="D"|InsectSprays$spray=="E")

leveneTest (count ~ spray, data = InsectSprays[ ind,])

 

Levene's Test for Homogeneity of Variance (center = median)

Df F value Pr(>F)

group 2 0.0111 0.989

33              

 

leveneTest (count ~ spray, data = InsectSprays[!ind,])

Levene's Test for Homogeneity of Variance (center = median)

Df F value Pr(>F)

group 2 0.7387 0.4855

33              

 

Аналогично тесты Бартлетта и Флигнера-Килина выполняются при помощи функций bartlett.test() и fligner.test() соответственно:

 

bartlett.test (count ~ spray, data = InsectSprays)

 

   Bartlett test of homogeneity of variances

 

data: count by spray

Bartlett's K-squared = 25.96, df = 5, p-value = 9.085e-05

 

bartlett.test (count ~ spray, data = InsectSprays[ind,])

 

   Bartlett test of homogeneity of variances

 

data: count by spray

Bartlett's K-squared = 1.504, df = 2, p-value = 0.4714

 

fligner.test (count ~ spray, data = InsectSprays)

 

   Fligner-Killeen test of homogeneity of variances

 

data: count by spray

Fligner-Killeen:med chi-squared = 14.483, df = 5, p-value = 0.01282

 

fligner.test (count ~ spray, data = InsectSprays[ind,])

 

   Fligner-Killeen test of homogeneity of variances

 

data: count by spray

Fligner-Killeen:med chi-squared = 0.096713, df = 2, p-value = 0.9528

 

spray.s2<-aggregate(InsectSprays[,"count"],

+                by=list(spray=InsectSprays$spray),

+                FUN=function(x) { c(var(x),length(x))} )

Str (spray.s2)

 

'data.frame': 6 obs. of 2 variables:

 $ spray: Factor w/ 6 levels "A","B","C","D",..: 1 2 3 4 5 6

 $ x : num [1:6, 1:2] 22.27 18.24 3.9 6.27 3 ...

 

spray.s2$x

     [,1] [,2]

[1,] 22.272727  12

[2,] 18.242424 12

[3,] 3.901515 12

[4,] 6.265152 12

[5,] 3.000000 12

[6,] 38.606061 12

 

cochran.test (spray.s2$x[,1], spray.s2$x[,2])

 

   Cochran test for outlying variance

 

data: spray.s2$x[, 1]

C = 0.41832, df = 12, k = 6, p-value = 0.004435

alternative hypothesis: Group 6 has outlying variance

sample estimates:

   1    2    3    4    5    6

22.272727 18.242424 3.901515 6.265152 3.000000 38.606061

 

Использование ранговых критериев Уилкоксона-Манна-Уитни

d.intake <- c(5260, 5470, 5640, 6180, 6390, 6515,

         6805, 7515, 7515, 8230, 8770)

d.norm <-7725

plot(0,0,type="n",main="",xlab="",ylab="",xlim=range(d.intake),ylim=c(0,2))

points(d.intake,rep(1,length(d.intake)),type="h",lwd=3)

points(d.norm,1.5,type="h",lwd=2,col="red")

 

wilcox.test (d.intake, mu = 7725)

 

   Wilcoxon signed rank test with continuity correction

 

data: d.intake

V = 8, p-value = 0.0293

alternative hypothesis: true location is not equal to 7725

 

Warning message:

In wilcox.test.default(d.intake, mu = 7725) :

cannot compute exact p-value with ties

 

wilcox.test (d.intake, mu = mean(d.intake))

 

   Wilcoxon signed rank test with continuity correction

 

data: d.intake

V = 32, p-value = 0.9645

alternative hypothesis: true location is not equal to 6753.636

 

Warning message:

In wilcox.test.default(d.intake, mu = mean(d.intake)) :

cannot compute exact p-value with ties

 

wilcox.test (expend ~ stature, paired = FALSE,data=energy)

 

   Wilcoxon rank sum test with continuity correction

 

data: expend by stature

W = 12, p-value = 0.002122

alternative hypothesis: true location shift is not equal to 0

 

Warning message:

In wilcox.test.default(x = c(7.53, 7.48, 8.08, 8.09, 10.15, 8.4, :

cannot compute exact p-value with ties

 

Data(intake)

Head(intake)

pre post

1 5260 3910

2 5470 4220

3 5640 3885

4 6180 5160

5 6390 5645

6 6515 4680

 

Data(intake)

tmp.x <-c(intake$pre,intake$post)

tmp.c <-factor(rep(c("pre","post"),each=nrow(intake)))

boxplot(tmp.x~tmp.c)

 

wilcox.test (intake$pre, intake$post, paired = TRUE)

 

   Wilcoxon signed rank test with continuity correction

 

data: intake$pre and intake$post

V = 66, p-value = 0.00384

alternative hypothesis: true location shift is not equal to 0

 

Warning message:

In wilcox.test.default(intake$pre, intake$post, paired = TRUE) :

cannot compute exact p-value with ties

 

wilcox.test (intake$pre, intake$post, paired = TRUE, conf.int = TRUE)

 

   Wilcoxon signed rank test with continuity correction

 

data: intake$pre and intake$post

V = 66, p-value = 0.00384

alternative hypothesis: true location shift is not equal to 0

95 percent confidence interval:

 1037.5 1582.5

sample estimates:

(pseudo)median

1341.332

 

Warning messages:

1: In wilcox.test.default(intake$pre, intake$post, paired = TRUE, conf.int = TRUE) :

cannot compute exact p-value with ties

2: In wilcox.test.default(intake$pre, intake$post, paired = TRUE, conf.int = TRUE) :

cannot compute exact confidence interval with ties

 

 


Дата добавления: 2018-11-24; просмотров: 476; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!