Использование ранговых критериев Уилкоксона-Манна-Уитни

Мастицкий , глава 5 (128)

КЛАССИЧЕСКИЕ МЕТОДЫ И КРИТЕРИИ СТАТИСТИКИ

Гипотеза о равенстве средних двух генеральных совокупностей

Гипотеза об однородности дисперсий

Используемые тесты:

· Критерий Стьюдента для гипотезы о равенстве средних. Может проверять равенство среднего нулю, сравнивать средние независимых и парных выборок. Для независимых выборок предполагается равенство дисперсий

· Ранговый критерий сравнения средних Уилкоксона-Манна-Уитни. Может проверять равенство среднего нулю, сравнивать средние независимых и парных выборок.

· Критерий Фишера сравнения двух дисперсий

· Тест Левене однородности нескольких дисперсий

· Тест Бартлетта однородности нескольких дисперсий

· Тест Флигнера-Килина однородности нескольких дисперсий

· Тест Кокрана однородности нескольких дисперсий при равном объеме групп

· Дисперсионный анализ, функции lm(), aov().

· Корреляция, функции cor(), cor.test()

· Критери случайности для таблиц Хи-квадрат, функции chisq.test()

· Точный критерий Фишера для таблиц, функция fisher.test().

Используемые наборы данных

Описание набора данных InsectSprays

Название	Описание
count	Целочисленный скаляр. Число погибших насекомых
spray	Номинальный. Тип использованного спрея

Описание набора данных Energy

Название	Описание
expend	Скаляр. Суточное потребление энергии худыми (lean) и полными (obese) женщинами
stature	Фактор с уровнями lean и obese.

Описание набора данных Intake

Название	Описание
pre	Скаляр. Потребление энергии женщиной до процедур
post	Скаляр. Потребление энергии женщиной после процедур

Описание набора данных Warpbreaks (разрывы нитей в ткацком станке)

Название	Описание
breaks	Целочисленный скаляр. Число разрывов
wool	Номинальный. Тип шерсти
tension	Ординальный. Уровни трения (L, M, H)

Описание набора данных Weightgain (набор веса крысами на разных диетах)

Название	Описание
source	Номинальный. Источник протеина, уровни Beef и Cereal
type	Ординальный. Количество протеина, уровни High и Low
weightgain	Прирост, грамм.

Набор данных Dreissena_Conchophthirus (уровень зараженности двустворчатого моллюска Dreissena polymorpha инфузорией-комменсалом Conchophthirus acuminatus)

Название	Описание
Month	Ординальный. Месяц, уровни May, July, September
Lake	Номинальный. Озеро, уровни Batorino, Myastro, "Naroch
Site	Номинальный. Место отбора, вложен в озеро (три точки на озеро)
ZMlength	Целочисленный скаляр. Длина Dreissena polymorpha
CAnumber	Целочисленный скаляр. Количество Conchophthirus acuminatus

Критерий Стьюдента о равенстве средних.

Пример

Library ( ISwR )

Data ( energy )

Names ( energy )

# [1] "expend" "stature"

Str ( energy )

'data.frame': 22 obs. of 2 variables:

$ expend : num 9.21 7.53 7.48 8.08 8.09 ...

$ stature: Factor w/ 2 levels "lean","obese": 2 1 1 1 1 1 1 1 1 1 ...

boxplot(energy$expend~energy$stature)

Для правильного применения критерия Стьюдента необходимо убедиться в однородности дисперсий (что в данном случае отсутствует), и нормальности распределений в классах.

levels(energy$stature)

[1] "lean" "obese"

ind.lean <-(energy$stature == "lean")

ind.obese <-(energy$stature == "obese")

x<-energy$expend[ind.lean]; ks.test(x,"pnorm",mean(x),sd(x))

One-sample Kolmogorov-Smirnov test

data: x

D = 0.25511, p-value = 0.366

alternative hypothesis: two-sided

Warning message:

In ks.test(x, "pnorm", mean(x), sd(x)) :

ties should not be present for the Kolmogorov-Smirnov test

x<-energy$expend[ind.obese]; ks.test(x,"pnorm",mean(x),sd(x))

One-sample Kolmogorov-Smirnov test

data: x

D = 0.25936, p-value = 0.5009

alternative hypothesis: two-sided

var.test (expend ~ stature,data=energy)

F test to compare two variances

data: expend by stature

F = 0.78445, num df = 12, denom df = 8, p-value = 0.6797

alternative hypothesis: true ratio of variances is not equal to 1

95 percent confidence interval:

0.1867876 2.7547991

sample estimates:

ratio of variances

0.784446

t.test (expend ~ stature,data=energy)

data: expend by stature

t = -3.8555, df = 15.919, p-value = 0.001411

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

-3.459167 -1.004081

sample estimates:

mean in group lean mean in group obese

8.066154 10.297778

Data(InsectSprays)

Library(car)

boxplot(count ~ spray,

data = InsectSprays,xlab="spray",ylab="car",main="InsectSprays")

leveneTest (count ~ spray, data = InsectSprays)

Levene's Test for Homogeneity of Variance (center = median)

Df F value Pr(>F)

group 5 3.8214 0.004223 **

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

ind<-(InsectSprays$spray=="C"|InsectSprays$spray=="D"|InsectSprays$spray=="E")

leveneTest (count ~ spray, data = InsectSprays[ ind,])

Levene's Test for Homogeneity of Variance (center = median)

Df F value Pr(>F)

group 2 0.0111 0.989

leveneTest (count ~ spray, data = InsectSprays[!ind,])

Levene's Test for Homogeneity of Variance (center = median)

Df F value Pr(>F)

group 2 0.7387 0.4855

Аналогично тесты Бартлетта и Флигнера-Килина выполняются при помощи функций bartlett.test() и fligner.test() соответственно:

bartlett.test (count ~ spray, data = InsectSprays)

Bartlett test of homogeneity of variances

data: count by spray

Bartlett's K-squared = 25.96, df = 5, p-value = 9.085e-05

bartlett.test (count ~ spray, data = InsectSprays[ind,])

Bartlett test of homogeneity of variances

data: count by spray

Bartlett's K-squared = 1.504, df = 2, p-value = 0.4714

fligner.test (count ~ spray, data = InsectSprays)

Fligner-Killeen test of homogeneity of variances

data: count by spray

Fligner-Killeen:med chi-squared = 14.483, df = 5, p-value = 0.01282

fligner.test (count ~ spray, data = InsectSprays[ind,])

Fligner-Killeen test of homogeneity of variances

data: count by spray

Fligner-Killeen:med chi-squared = 0.096713, df = 2, p-value = 0.9528

spray.s2<-aggregate(InsectSprays[,"count"],

+ by=list(spray=InsectSprays$spray),

+ FUN=function(x) { c(var(x),length(x))} )

Str (spray.s2)

'data.frame': 6 obs. of 2 variables:

$ spray: Factor w/ 6 levels "A","B","C","D",..: 1 2 3 4 5 6

$ x : num [1:6, 1:2] 22.27 18.24 3.9 6.27 3 ...

spray.s2$x

[,1] [,2]

[1,] 22.272727 12

[2,] 18.242424 12

[3,] 3.901515 12

[4,] 6.265152 12

[5,] 3.000000 12

[6,] 38.606061 12

cochran.test (spray.s2$x[,1], spray.s2$x[,2])

Cochran test for outlying variance

data: spray.s2$x[, 1]

C = 0.41832, df = 12, k = 6, p-value = 0.004435

alternative hypothesis: Group 6 has outlying variance

sample estimates:

1 2 3 4 5 6

22.272727 18.242424 3.901515 6.265152 3.000000 38.606061

Использование ранговых критериев Уилкоксона-Манна-Уитни

d.intake <- c(5260, 5470, 5640, 6180, 6390, 6515,

6805, 7515, 7515, 8230, 8770)

d.norm <-7725

plot(0,0,type="n",main="",xlab="",ylab="",xlim=range(d.intake),ylim=c(0,2))

points(d.intake,rep(1,length(d.intake)),type="h",lwd=3)

points(d.norm,1.5,type="h",lwd=2,col="red")

wilcox.test (d.intake, mu = 7725)

Wilcoxon signed rank test with continuity correction

data: d.intake

V = 8, p-value = 0.0293

alternative hypothesis: true location is not equal to 7725

Warning message:

In wilcox.test.default(d.intake, mu = 7725) :

cannot compute exact p-value with ties

wilcox.test (d.intake, mu = mean(d.intake))

Wilcoxon signed rank test with continuity correction

data: d.intake

V = 32, p-value = 0.9645

alternative hypothesis: true location is not equal to 6753.636

Warning message:

In wilcox.test.default(d.intake, mu = mean(d.intake)) :

cannot compute exact p-value with ties

wilcox.test (expend ~ stature, paired = FALSE,data=energy)

Wilcoxon rank sum test with continuity correction

data: expend by stature

W = 12, p-value = 0.002122

alternative hypothesis: true location shift is not equal to 0

Warning message:

In wilcox.test.default(x = c(7.53, 7.48, 8.08, 8.09, 10.15, 8.4, :

cannot compute exact p-value with ties

Data(intake)

Head(intake)

pre post

1 5260 3910

2 5470 4220

3 5640 3885

4 6180 5160

5 6390 5645

6 6515 4680

Data(intake)

tmp.x <-c(intake$pre,intake$post)

tmp.c <-factor(rep(c("pre","post"),each=nrow(intake)))

boxplot(tmp.x~tmp.c)

wilcox.test (intake$pre, intake$post, paired = TRUE)

Wilcoxon signed rank test with continuity correction

data: intake$pre and intake$post

V = 66, p-value = 0.00384

alternative hypothesis: true location shift is not equal to 0

Warning message:

In wilcox.test.default(intake$pre, intake$post, paired = TRUE) :

cannot compute exact p-value with ties

wilcox.test (intake$pre, intake$post, paired = TRUE, conf.int = TRUE)

Wilcoxon signed rank test with continuity correction

data: intake$pre and intake$post

V = 66, p-value = 0.00384

alternative hypothesis: true location shift is not equal to 0

95 percent confidence interval:

1037.5 1582.5

sample estimates:

(pseudo)median

1341.332

Warning messages:

1: In wilcox.test.default(intake$pre, intake$post, paired = TRUE, conf.int = TRUE) :

cannot compute exact p-value with ties

2: In wilcox.test.default(intake$pre, intake$post, paired = TRUE, conf.int = TRUE) :

cannot compute exact confidence interval with ties

Дата добавления: 2018-11-24; просмотров: 476; Мы поможем в написании вашей работы!

Поделиться с друзьями:

12 3 Следующая ⇒

Мы поможем в написании ваших работ!