Использование ранговых критериев Уилкоксона-Манна-Уитни
Мастицкий , глава 5 (128)
КЛАССИЧЕСКИЕ МЕТОДЫ И КРИТЕРИИ СТАТИСТИКИ
Гипотеза о равенстве средних двух генеральных совокупностей
Гипотеза об однородности дисперсий
Используемые тесты:
· Критерий Стьюдента для гипотезы о равенстве средних. Может проверять равенство среднего нулю, сравнивать средние независимых и парных выборок. Для независимых выборок предполагается равенство дисперсий
· Ранговый критерий сравнения средних Уилкоксона-Манна-Уитни. Может проверять равенство среднего нулю, сравнивать средние независимых и парных выборок.
· Критерий Фишера сравнения двух дисперсий
· Тест Левене однородности нескольких дисперсий
· Тест Бартлетта однородности нескольких дисперсий
· Тест Флигнера-Килина однородности нескольких дисперсий
· Тест Кокрана однородности нескольких дисперсий при равном объеме групп
· Дисперсионный анализ, функции lm(), aov().
· Корреляция, функции cor(), cor.test()
· Критери случайности для таблиц Хи-квадрат, функции chisq.test()
· Точный критерий Фишера для таблиц, функция fisher.test().
Используемые наборы данных
Описание набора данных InsectSprays
Название | Описание |
count | Целочисленный скаляр. Число погибших насекомых |
spray | Номинальный. Тип использованного спрея |
Описание набора данных Energy
Название | Описание |
expend | Скаляр. Суточное потребление энергии худыми (lean) и полными (obese) женщинами |
stature | Фактор с уровнями lean и obese. |
|
|
Описание набора данных Intake
Название | Описание |
pre | Скаляр. Потребление энергии женщиной до процедур |
post | Скаляр. Потребление энергии женщиной после процедур |
Описание набора данных Warpbreaks (разрывы нитей в ткацком станке)
Название | Описание |
breaks | Целочисленный скаляр. Число разрывов |
wool | Номинальный. Тип шерсти |
tension | Ординальный. Уровни трения (L, M, H) |
Описание набора данных Weightgain (набор веса крысами на разных диетах)
Название | Описание |
source | Номинальный. Источник протеина, уровни Beef и Cereal |
type | Ординальный. Количество протеина, уровни High и Low |
weightgain | Прирост, грамм. |
Набор данных Dreissena_Conchophthirus (уровень зараженности двустворчатого моллюска Dreissena polymorpha инфузорией-комменсалом Conchophthirus acuminatus)
Название | Описание |
Month | Ординальный. Месяц, уровни May, July, September |
Lake | Номинальный. Озеро, уровни Batorino, Myastro, "Naroch |
Site | Номинальный. Место отбора, вложен в озеро (три точки на озеро) |
ZMlength | Целочисленный скаляр. Длина Dreissena polymorpha |
CAnumber | Целочисленный скаляр. Количество Conchophthirus acuminatus |
Критерий Стьюдента о равенстве средних.
Пример
Library ( ISwR )
|
|
Data ( energy )
Names ( energy )
# [1] "expend" "stature"
Str ( energy )
'data.frame': 22 obs. of 2 variables:
$ expend : num 9.21 7.53 7.48 8.08 8.09 ...
$ stature: Factor w/ 2 levels "lean","obese": 2 1 1 1 1 1 1 1 1 1 ...
boxplot(energy$expend~energy$stature)
Для правильного применения критерия Стьюдента необходимо убедиться в однородности дисперсий (что в данном случае отсутствует), и нормальности распределений в классах.
levels(energy$stature)
[1] "lean" "obese"
ind.lean <-(energy$stature == "lean")
ind.obese <-(energy$stature == "obese")
x<-energy$expend[ind.lean]; ks.test(x,"pnorm",mean(x),sd(x))
One-sample Kolmogorov-Smirnov test
data: x
D = 0.25511, p-value = 0.366
alternative hypothesis: two-sided
Warning message:
In ks.test(x, "pnorm", mean(x), sd(x)) :
ties should not be present for the Kolmogorov-Smirnov test
x<-energy$expend[ind.obese]; ks.test(x,"pnorm",mean(x),sd(x))
One-sample Kolmogorov-Smirnov test
data: x
D = 0.25936, p-value = 0.5009
alternative hypothesis: two-sided
var.test (expend ~ stature,data=energy)
F test to compare two variances
data: expend by stature
F = 0.78445, num df = 12, denom df = 8, p-value = 0.6797
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.1867876 2.7547991
sample estimates:
ratio of variances
0.784446
t.test (expend ~ stature,data=energy)
data: expend by stature
t = -3.8555, df = 15.919, p-value = 0.001411
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-3.459167 -1.004081
sample estimates:
mean in group lean mean in group obese
8.066154 10.297778
|
|
Data(InsectSprays)
Library(car)
boxplot(count ~ spray,
data = InsectSprays,xlab="spray",ylab="car",main="InsectSprays")
leveneTest (count ~ spray, data = InsectSprays)
Levene's Test for Homogeneity of Variance (center = median)
Df F value Pr(>F)
group 5 3.8214 0.004223 **
66
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
ind<-(InsectSprays$spray=="C"|InsectSprays$spray=="D"|InsectSprays$spray=="E")
leveneTest (count ~ spray, data = InsectSprays[ ind,])
Levene's Test for Homogeneity of Variance (center = median)
Df F value Pr(>F)
group 2 0.0111 0.989
33
leveneTest (count ~ spray, data = InsectSprays[!ind,])
Levene's Test for Homogeneity of Variance (center = median)
Df F value Pr(>F)
group 2 0.7387 0.4855
33
Аналогично тесты Бартлетта и Флигнера-Килина выполняются при помощи функций bartlett.test() и fligner.test() соответственно:
bartlett.test (count ~ spray, data = InsectSprays)
Bartlett test of homogeneity of variances
data: count by spray
Bartlett's K-squared = 25.96, df = 5, p-value = 9.085e-05
bartlett.test (count ~ spray, data = InsectSprays[ind,])
Bartlett test of homogeneity of variances
data: count by spray
Bartlett's K-squared = 1.504, df = 2, p-value = 0.4714
fligner.test (count ~ spray, data = InsectSprays)
Fligner-Killeen test of homogeneity of variances
data: count by spray
Fligner-Killeen:med chi-squared = 14.483, df = 5, p-value = 0.01282
fligner.test (count ~ spray, data = InsectSprays[ind,])
Fligner-Killeen test of homogeneity of variances
data: count by spray
Fligner-Killeen:med chi-squared = 0.096713, df = 2, p-value = 0.9528
|
|
spray.s2<-aggregate(InsectSprays[,"count"],
+ by=list(spray=InsectSprays$spray),
+ FUN=function(x) { c(var(x),length(x))} )
Str (spray.s2)
'data.frame': 6 obs. of 2 variables:
$ spray: Factor w/ 6 levels "A","B","C","D",..: 1 2 3 4 5 6
$ x : num [1:6, 1:2] 22.27 18.24 3.9 6.27 3 ...
spray.s2$x
[,1] [,2]
[1,] 22.272727 12
[2,] 18.242424 12
[3,] 3.901515 12
[4,] 6.265152 12
[5,] 3.000000 12
[6,] 38.606061 12
cochran.test (spray.s2$x[,1], spray.s2$x[,2])
Cochran test for outlying variance
data: spray.s2$x[, 1]
C = 0.41832, df = 12, k = 6, p-value = 0.004435
alternative hypothesis: Group 6 has outlying variance
sample estimates:
1 2 3 4 5 6
22.272727 18.242424 3.901515 6.265152 3.000000 38.606061
Использование ранговых критериев Уилкоксона-Манна-Уитни
d.intake <- c(5260, 5470, 5640, 6180, 6390, 6515,
6805, 7515, 7515, 8230, 8770)
d.norm <-7725
plot(0,0,type="n",main="",xlab="",ylab="",xlim=range(d.intake),ylim=c(0,2))
points(d.intake,rep(1,length(d.intake)),type="h",lwd=3)
points(d.norm,1.5,type="h",lwd=2,col="red")
wilcox.test (d.intake, mu = 7725)
Wilcoxon signed rank test with continuity correction
data: d.intake
V = 8, p-value = 0.0293
alternative hypothesis: true location is not equal to 7725
Warning message:
In wilcox.test.default(d.intake, mu = 7725) :
cannot compute exact p-value with ties
wilcox.test (d.intake, mu = mean(d.intake))
Wilcoxon signed rank test with continuity correction
data: d.intake
V = 32, p-value = 0.9645
alternative hypothesis: true location is not equal to 6753.636
Warning message:
In wilcox.test.default(d.intake, mu = mean(d.intake)) :
cannot compute exact p-value with ties
wilcox.test (expend ~ stature, paired = FALSE,data=energy)
Wilcoxon rank sum test with continuity correction
data: expend by stature
W = 12, p-value = 0.002122
alternative hypothesis: true location shift is not equal to 0
Warning message:
In wilcox.test.default(x = c(7.53, 7.48, 8.08, 8.09, 10.15, 8.4, :
cannot compute exact p-value with ties
Data(intake)
Head(intake)
pre post
1 5260 3910
2 5470 4220
3 5640 3885
4 6180 5160
5 6390 5645
6 6515 4680
Data(intake)
tmp.x <-c(intake$pre,intake$post)
tmp.c <-factor(rep(c("pre","post"),each=nrow(intake)))
boxplot(tmp.x~tmp.c)
wilcox.test (intake$pre, intake$post, paired = TRUE)
Wilcoxon signed rank test with continuity correction
data: intake$pre and intake$post
V = 66, p-value = 0.00384
alternative hypothesis: true location shift is not equal to 0
Warning message:
In wilcox.test.default(intake$pre, intake$post, paired = TRUE) :
cannot compute exact p-value with ties
wilcox.test (intake$pre, intake$post, paired = TRUE, conf.int = TRUE)
Wilcoxon signed rank test with continuity correction
data: intake$pre and intake$post
V = 66, p-value = 0.00384
alternative hypothesis: true location shift is not equal to 0
95 percent confidence interval:
1037.5 1582.5
sample estimates:
(pseudo)median
1341.332
Warning messages:
1: In wilcox.test.default(intake$pre, intake$post, paired = TRUE, conf.int = TRUE) :
cannot compute exact p-value with ties
2: In wilcox.test.default(intake$pre, intake$post, paired = TRUE, conf.int = TRUE) :
cannot compute exact confidence interval with ties
Дата добавления: 2018-11-24; просмотров: 476; Мы поможем в написании вашей работы! |
Мы поможем в написании ваших работ!