Выбор критерия математической обработки
Таблица выбора статистического критерия в зависимости от типа исследовательских задач
Задачи | Условия | Методы | ||
1. Выявление различий в уровне исследуемого признака | А) 2 выборки испытуемых | Q – Критерий Розенбаума U – Критерий Манна-Уитни j* - критерий (угловое преобразование Фишера) | ||
Б) 3 и более выборок испытуемых | S – критерий тенденций Джонкира H – критерий Крускала-Уоллиса | |||
2. Оценка сдвига значений исследуемого признака | А) 2 замера на одной и той же выборке испытуемых | T – критерий Вилкоксона G – критерий знаков j* - критерий (угловое преобразование Фишера) | ||
Б) 3 и более замеров на одной и той же выборке испытуемых | c - критерий Фридмана L – критерий тенденций Пейджа | |||
3. Выявление различий в распределении признака | А) при сопоставлении эмпирического распределения с теоретическим | c - критерий Пирсона l - критерий Колмогорова-Смирнова m – биноминальный критерий | ||
Б) при сопоставлении двух эмпирических распределений | c - критерий Пирсона l - критерий Колмогорова-Смирнова j* - критерий (угловое преобразование Фишера) | |||
4. Выявление степени согласованности изменений | А) двух признаков | r - коэффициент ранговой корреляции Спирмена | ||
Б) двух иерархий или профилей | r - коэффициент ранговой корреляции Спирмена | |||
5. Анализ изменений признака под влиянием контролирующих условий
| А) под влиянием одного фактора | S – критерий тенденций Джонкира L – критерий тенденций Пейджа Однофакторный дисперсионный анализ Фишера | ||
Б) под влиянием двух факторов одновременно | Двухфакторный дисперсионный анализ Фишера |
Таблица выбора статистического критерия в зависимости от типа исследовательских задач и измерительной шкалы
Тип шкалы Задача | Номинальная | Ранговая | Интервальная |
Различия между 2-мя н/з выборки по одному признаку | χ2-Pearson, Fisher’s Exact P-test, z-criterion, Fisher’s φ*, Kolmogorov-Smirnov 2-sample test | Van der Waerden X-method, Wald-Wolfowitz Runs Test, White T-method, Rozenbaum Q-Test, Mann-Whitney U-test, 2-sample Median Test | t-Student; ANOVA; F-Fisher |
То же, 3 и > н/з выборок | χ2-Pearson | H-Kruskal-Wallis, K-sample Median Test Jonckheere-Terpstra S-Test | ANOVA; MANOVA for independent samples |
Множественные попарные сравнения выборок, k ³ 3 | χ2-Pearson, Kolmogorov-Smirnov 2-sample test | Newman-Keuls pairwise multiple comparisons test, Dunnett's pairwise multiple comparison t-test, Dunn’s Q-Test | Bonferroni test, Tukey's honestly significant difference test, Dunnett's pairwise multiple comparison t-test, Newman-Keuls test |
Сдвиг признака в 2-х условиях на 1 выборке или парных выборках | χ2-McNemar, G- Sign Test, Cochran Q-test | Wilcoxon W-test | t-Student for related samples |
То же, 3 и > условий измерения | Cochran Q-test | χ2Fr-Friedman; Page L-Test | ANOVA; MANOVA for relates samples |
Связь признаков (корреляции) | Association φ-coeff. K.Pearson, Contingency Q-coeff. D. Yule Concordance C-coeff. K.Pearson, Чупров | ρ Spearmen; τ Kendall; Gamma, Concordance W-coeff. M.Kendall, Pearson’ correlation η-coeff. | Lineal correlation r Pearson; η; KMK; Factor Analysis Blend-Altman method comparison test |
Многофункц. критерии | φ* Fisher; binominal m; | ρ Spearmen | |
Межобъектные отношения (Proximities/Distances) | Percent Disagreement | City Blocks Metric (Manhattan) Concordance W-coeff. M.Kendall | Euclidean Distance, Weighted, Centralized E.D. Lineal correlation r Pearson |
Замечания:
|
|
1. Разумеется, таблица не отличается абсолютной полнотой.
2. Статистические критерии для интервальных данных пригодны при условии нормальности распределения признака и (иногда) равенства дисперсий.
3. Для данных более высокого уровня пригодны статистические критерии более низкого уровня. Так интервальную шкалу можно свести к ранговой и номинальной, а ранговую – только к номинальной.
4. Метод статобработки (критерий) должен соотноситься с типом исследования и рабочей гипотезой исследования.
5. Перед применением метода обязательно посмотрите его ограничения.
Критерии для оценки значимости различий.
Q-критерий Розенбаума.
|
|
Используется для оценки различий между двумя выборками по уровню какого-либо признака; если отличия значимы при р=0.01, то можно ограничиться этим критерием.
Ограничения:
· n>=11,
· объемы выборок должны примерно совпадать,
· диапазоны разброса значений в двух выборках должны несовпадать,
· как минимум порядковая шкала,
Н0: уровень признака в выборке 1 не превышает уровня признака в выборке 2.
Н1: уровень признака в выборке 1 превышает уровень признака в выборке 2.
Пояснение: 1 группой (выборкой, рядом) называется та группа значений, в которой значения, по предварительной оценке, выше, а группой 2 – та, где значения предположительно ниже.
Алгоритм подсчета:
- Упорядочить значения отдельно в каждой выборке по степени возрастания признака. 1-я выборка – где значения предположительно выше, 2-я выборка – где значения предположительно ниже.
- Определить максимальное значение в выборке 2.
- Подсчитать количество значений в выборке 1, которые больше максимального значения 2-ой выборки. Обозначить их количество как S1.
- Определить минимальное значение в выборке 2, которое ниже минимального значения в выборке 1. Обозначить их количество как S2.
- Подсчитать Qэмп = S1+S2.
- По таблицам значений определить Qкр для данных n1 и n2. Если Qэмп>=Qкр (при р=0.05), Н0 отвергается.
- При n1,n2>26 сопоставьте полученное эмпирическое значение с Qкр=8 (р=0.05), и Qкр=10 (р=0.01). Если Qэмп. Превышает или равна этим значениям, то Н0 отвергается.
|
|
Пример: определить, действительно ли студенты-психологи превосходят студентов-математиков по уровню вербального интеллекта.
Психологи (п=12) | Математики (п=14) | ® | 1. Математики | 2. Психологи |
|
| Поскольку по числам мы видим, что в выборке математиков значения выше, то этот столбец становится первым. |
|
|
Поучается, что максимальное значение во 2-ой выборке – 132, больше его в 1-ой выборке значения 134 и 135, т.е. S1 = 2.
Минимальное значение в 1-ой выборке – 124, количество значений во второй выборке, которые меньше его – 115, 119, 120, т.е. S2 = 3.
Соответственно Qэмп = S1+ S2 = 2+3 = 5.
Qкр для данных выборок = 7 (р=0.05), следовательно Qэмп< Qкр, соответственно Н0 принимается. Уровень признака в выборке 1 не превышает уровень признака в выборке 2. Различий в вербальном интеллекте между психологами и математиками нет.
Задача: В исследовании С.К.Скаковского (1990) изучалась проблема психологических барьеров при обращении в службу знакомств у мужчин и женщин. Испытуемые должны были отметить на отрезке длиной 100 мм точку, соответствующую интенсивности внутреннего сопротивления, которое им пришлось преодолеть, чтобы обратиться в службу знакомств.
Результаты мужчин (17 чел.): 73, 72, 69, 69, 65, 65, 62, 60, 54, 54, 43, 30, 26, 24, 15, 8, 3.
Женщины (23 человека): 70, 66, 66, 63, 63, 61, 60, 54, 47, 43, 41, 40, 39, 38, 38, 35, 30, 27, 25, 23, 17, 10, 9.
Можно ли сказать, что мужчинам приходится преодолевать субъективно более мощное сопротивление? При р = 0,05 Qкр=7; при р = 0,01 Qкр=9.
U-Критерий Манна-Уитни ( Mann- Whitney U- test) предназначен для оценки различий между двумя выборками по уровню выраженности какого-либо признака, измеренного количественно. Его параметрический аналог – t-тест Стьюдента для независимых выборок.
Ограничения
· В каждой выборке должно быть не менее 3 наблюдений: n1,n2 ³ 3. Допускается, чтобы в одной выборке было 2 наблюдения, но тогда во второй их должно быть не менее 5.
· В каждой выборке n1,n2 £ 60.
· Если n>20, то целесообразно воспользоваться другими критериями.
Н0 – уровень признака в группе 2 не ниже уровня признака в группе 1;
Н1 – уровень признака в группе 2 ниже уровня признака в группе 1.
Пояснение: 1 группой (выборкой, рядом) называется та группа значений, в которой значения, по предварительной оценке, выше, а группой 2 – та, где значения предположительно ниже.
Алгоритм:
- Пометить данные испытуемых 1–ой группы красным, а 2-ой группы – синим цветом.
- Объединить карточки обоих групп и распределить по степени возрастания признака.
- Проранжировать значения. Результаты ранжируются в порядке возрастания: минимальному результату присваивается ранг 1, максимальному – ранг N, где N – количество испытуемых в обеих выборках вместе. Общая сумма рангов должна совпадать с расчётной:
где N – общее количество ранжируемых значений признака (наблюдений).
- Далее подсчитывается сумма рангов в каждой группе (отдельно для помеченных красным, отдельно для помеченных синим цветом) и определяется большая из них.
- Эмпирическое значение U-критерия определяется по формуле:
где n1,n2 – количество испытуемых (значений, измерений) в группах 1 и 2 соответственно; nх – количество испытуемых в группе с большей суммой рангов; Тx – большая из двух ранговых сумм.
- Далее по статистическим таблицам определяется критическое значение U. Если Uэмп>Uкр, при р £ 0,05, то Н0 принимается. Если Uэмп<Uкр, Н0 отвергается. Чем меньше значения Uэмп, тем выше достоверность различий.
Пример: Существует и отличие в уровне общего интеллекта между замужними и незамужними студентками факультета психологии.
1 незамужние | 2 замужние | Общая выборка | Ранги | Суммы рангов |
|
| 1.113 2.128 3.129 4.131 5.135 6.146 7.148 8.149 | 1 2 3 4 5 6 7 8 | S = 1+2+6+7=16 S = 3+4+5+8= 20 Тх=20 Uэмп ={4 ´4+[4 ´(4+1)]/2}-20=6 Uкр=1 Uэмп > Uкр – принимается Н0: уровень признака в группе 2 не ниже уровня признака в группе 1. |
Задача: Была обследована случайная группа школьников 9 класса из обычной СОШ и группа школьников гуманитарной гимназии по тесту вербального интеллекта. Вербальный интеллект отражает умение оперировать понятиями, а также сформированность таких операций мышления как категоризация, классификация, систематизация, обобщение. Является ли уровень вербального интеллекта выше у детей из гуманитарной гимназии, где глубина изучения гуманитарных дисциплин выше, чем в обычной школе?
Н0: Уровень вербального интеллекта у детей из гимназии не выше уровня вербального интеллекта у детей из обычной школы.
Н1: Уровень вербального интеллекта у детей из гимназии выше уровня вербального интеллекта у детей из обычной школы.
№ детей (СОШ) | Ур. верб инт. детей из СОШ | Ранги | № детей (гимназия) | Ур. верб инт. детей из гимн. | Ранги |
1 | 111 | 6 | 1 | 113 | 7 |
2 | 104 | 2 | 2 | 107 | 4 |
3 | 107 | 4 | 3 | 123 | 11 |
4 | 90 | 1 | 4 | 122 | 10 |
5 | 115 | 8 | 5 | 117 | 9 |
6 | 107 | 4 | – | – | – |
å= 25 | å= 41 |
Расчетная сумма рангов равна 11∙12/2 = 66. Общая сумма рангов в таблице также равна 66. Ранжирование проведено верно. Uэмп = 6∙5+5∙6/2–41 = 4. При р = 0,05 Uкр=5; при р = 0,01 Uкр=2. Uэмп<Uкр на уровне значимости р = 0,05. Н0 отвергается, принимается Н1: уровень вербального интеллекта у детей из гимназии выше уровня вербального интеллекта у детей из обычной школы.
Н-критерий Крускала-Уоллиса:
Критерий предназначен для оценки различий одновременно между тремя, четырьмя и т.д. выборками, но не указывает направления этих изменений (растет уровень признака или понижается).
Ограничения:
· При сопоставлении трех выборок допускается n1=3, n2=2, n3=2 (р=0.05).
· Для достоверности значений р=0.01, необходимы объемы выборок n как минимум 3,3,3 или 4,2,2.
· Нкр рассчитаны только для трех выборок и n<=5.
· При больших объемах выборок пользуются критическими значениями критерия χ2 количество степеней свободы определяется как v=c-1, где с – количество сопоставляемых выборок.
· Критерий может определить различия в случае: n1=n2>n3. то бы определить то между 1-ой и 2-ой выборками нет отличий требуется попарное сравнение.
Н0: Между выборками 1,2,3, существуют лишь случайные различия по уровню исследуемого признака.
Н1: Между выборками 1,2,3, существуют неслучайные различия по уровню выраженности исследуемого признака.
Алгоритм:
- Посчитать сумму рангов в каждой выборке, аналогичен подсчету критерия Манна-Уитни.
- Проверить совпадение общей суммы рангов с расчетной.
- Подсчитать значение критерия Н по формуле:
ФОРМУЛА!
Где N – общее количество испытуемых во всех выборках, n – количество испытуемых в каждой группе, Т – сумма рангов по каждой группе.
- Если Нэмп>=Нкр, то Н0 отвергается.
Задача: Действительно и наблюдаются различия в уровне общего интеллекта у спортсменов занимающихся разными видами спорта?
Единоборства: 150, 141, 132, 111.
Коньки: 123, 134, 140, 114.
Теннис: 112, 129, 127, 149.
Н кр = 5.6 (р=0.05), Н кр = 7.5 (р=0.01)
Ответ: Нэмп = -3.09; Нэмп<Нкр – Н0 подтверждается: между выборками 1,2,3 существуют лишь случайные отличия.
Т-критерий Вилкоксона. Wilcoxon W- test ( Wilcoxon matched pairs test) применяется для сопоставления показателей, измеренных в двух разных условиях на одной выборке испытуемых. Он даёт ответ на вопрос, является ли сдвиг показателей в каком-то одном направлении более интенсивным, чем в другом.
Его параметрический аналог – t-критерий для связанных данных.
По направлению сдвиги могут быть разделены на «типичные», «нетипичные» и «нулевые». Первые – это сдвиги в более часто встречающемся направлении, характерные для большинства испытуемых выборки. Вторые – это изменения в более редко встречающемся направлении, противоположном «типичным» и свойственные меньшинству испытуемых выборки. Третьи – это отсутствие сдвига или сдвиг мал настолько, что его можно не принимать в расчёт.
Ограничения:
· Признаки измерены в шкалах порядка или интервалов.
· Минимальное количество испытуемых, прошедших измерения в двух условиях – 5 человек; максимальное количество – 50 человек.
· Нулевые сдвиги из рассмотрения исключаются, и количество наблюдений n при этом уменьшается на это количество нулевых сдвигов.
Н0 – интенсивность сдвигов в типичном направлении не превосходит интенсивности сдвигов в нетипичном направлении;
Н1 – интенсивность сдвигов в типичном направлении превышает интенсивность сдвигов в нетипичном направлении.
Алгоритм:
1. Убедиться, что значения показателя в первом и втором замерах произведены в одной шкале.
2. В первый столбец поместить результаты первого замера, во второй столбец – второго, сохранив последовательность испытуемых.
3. Рассчитать разность между индивидуальными значениями в первом и втором замерах. Определить «типичные» сдвиги (те, что ожидаются исходя из теоретических гипотез). Типичный или нетипичный сдвиг определяется соответствующим знаком (+/ - ).
4. Модули разностей проранжировать в порядке возрастания абсолютных величин, т.е. наименьшему значению присваивается ранг «1», наибольшему – ранг «n», где n – количество испытуемых в выборке, имеющих отличную от нуля разность. Полученная сумма рангов должна совпадать с расчётной.
5. Отметить ранги, соответствующие сдвигам в «нетипичном» направлении и просуммировать их. Это и будет эмпирическое значение Т-критерия:
Т = ∑Rr, где
Rr – ранговые значения «нетипичных» сдвигов. Если Т имеет мантиссу (дробную часть), её следует округлить до целого значения.
6. По статистическим таблицам определяется значение Ткр для данного n. Если Wэмп £ Wкр, Н0 отвергается, т.е. сдвиг в «типичную» сторону по интенсивности достоверно преобладает. Если же при р £ 0,05 Wэмп > Wкр, то Н0 принимается. Чем меньше значения Wэмп, тем выше достоверность различий.
Пример: подчиненные отметили степень управленческой компетентности своих руководителей до и после прохождения курсов по управлению персоналом. Принесли ли эффект данные курсы?
ФИО | “До занятия” | “После занятия” | Разность | Модуль разности | Ранг |
1. У.Н. 2. К.Л. 3. О.Д. 4. С.М. 5. В.Р. 6. Д.В. | 12 3 20 7 6 10 | 11 10 7 9 12 14 | -1 7 -13 2 6 4 | 1 7 13 2 6 4 | 1 5 6 2 4 3 |
Тэмп =1+6=7; Ткр (для n=6) = 2; Тэмп>Ткр, следовательно сдвиг в типичном направлении не превосходит интенсивности сдвигов в нетипичном направлении; обучение не принесло значимых результатов.
Задача: С группой операторов (11 чел.) была проведена работа по изучению влияния релаксационных упражнений на количество ошибок в корректурной пробе. Работа требовала только внимания и темпа. Количество ошибок измеряли до и после релаксационных упражнений. Как повлияли эти упражнения на эффективность выполнения теста?
Н0: Уровень снижения количества ошибок (типичный эффект) не превышает уровня увеличения количества ошибок (нетипичный эффект).
Н1: Уровень снижения количества ошибок (типичный эффект) превышает уровня увеличения количества ошибок (нетипичный эффект).
№ | “До занятия” | “После занятия” | «После» – «До» | Модуль разности | Ранг |
1 | 18 | 3 | +15 | 15 | 11 |
2 | 11 | 1 | +10 | 10 | 8 |
3 | 4 | 5 | –1 | 1 | 1 |
4 | 10 | 2 | +8 | 8 | 6 |
5 | 20 | 9 | +11 | 11 | 9,5 |
6 | 8 | 4 | +4 | 4 | 4 |
7 | 5 | 8 | –3 | 3 | 2,5 |
8 | 7 | 4 | +3 | 3 | 2,5 |
9 | 11 | 0 | +11 | 11 | 9,5 |
10 | 2 | 11 | –9 | 9 | 7 |
11 | 7 | 0 | +7 | 7 | 5 |
∑ = 66 |
Серым цветом выделены «нетипичные» сдвиги, когда количество ошибок увеличилось. Расчётная сумма рангов равна 66. Wэмп = ∑Rr = 1+2,5+7 = 10,5 ≈ 11. Для n=11 и p=0,05 Wкр.=13. Wэмп<Wкр. Н0 отвергается, сдвиг в «типичную» сторону по интенсивности достоверно преобладает над «нетипичными» и «нулевыми» сдвигами.
Мы только что подтвердили, что специальные релаксационные упражнения действительно уменьшили количество совершаемых ошибок. Следует ли из этого, что упражнения можно рекомендовать к практическому применению всем операторам? Нет. Реакция людей на эти упражнения различна. Стали бы вы внедрять релаксационные занятия для операторов атомных электростанций, если наблюдался хотя бы 1 случай ухудшения деятельности?
Это отступление мы привели как пример того, что даже корректно проведённый количественный анализ может быть неверно проинтерпретирован без качественного, особенно в отношении «минорных» реакций.
Дата добавления: 2018-09-23; просмотров: 509; Мы поможем в написании вашей работы! |
Мы поможем в написании ваших работ!