Статистический анализ номинативных данных
Если переменные в качественных (номинативных) шкалах, то производят Анализ номинативных данных (Кто чаще ходит в продовольственный магазин: М или Ж?).
В зависимости от цели исследования и структуры исходных данных выделяются три группы методов, соответствующих решаемым задачам:
· анализ классификаций;
Когда для каждого испытуемого, объекта определена его принадлежность к одной из двух категорий номинативной переменной. Сравниваем численность двух долей объектов в совокупности обладающих или нет некоторым свойством. Нулевая гипотеза: сравниваемые доли равны между собой. Путин: 50 челов «ЗА» и 50 «Против». Выдвигается теоретическое распределение (73 на 23) и эмпирическое распределение (67 на 33). Вывод: численность проголосовавших за Путина выше, чем за другого. Метод: Хи-квадрат Пирсона)
· анализ таблиц сопряженности;
Применяется в случае необходимости сравнить два или более сравнения между собой, определить связь между ними: пол (м,ж) и предпочтение в книгах (худ, фант, детектив). (когда для каждого объекта выборки определена его принадлежность к одной из категорий Х и к одной из категорий Y. Три ситуации:
число градаций больше 2х (метод Хи-квадрат Пирсона)
таблицы сопряженности 2Х2 с независимыми выборками, метод Хи-квадрат Пирсона с поправкой на непрерывность Йетса, точный критерий Фишера (метод лечения 1 и 2, наличие рецедива: да и нет)
таблицы сопряженности 2Х2 с повторными измерениями. Метод: критерий Мак-Нимара
|
|
Пр.: лечение (до и после, одна группа), уровень сахар в крови превышен и не превышен
· анализ последовательностей (серий).
Применяется, когда объекты упорядочены и каждый объект отнесен к одной из двух категорий). Метод: критерий серий. Пример: 2 игрока, последть попаданий в десятку. Смотрим вероятность успеха после попадания и непопадания.
Таблицы сопряженности
Таблица сопряженности - средство представления совместного распределения двух переменных, предназначенное для исследования связи между ними. Таблица сопряженности является наиболее универсальным средством изучения статистических связей, так как в ней могут быть представлены переменные с любым уровнем измерения.
Строки таблицы сопряженности соответствуют значениям одной переменной, столбцы - значениям другой переменной (количественные шкалы предварительно должны быть сгруппированы в интервалы). На пересечении строки и столбца указывается частота совместного появления fij соответствующих значений двух признаков xi и yj. Сумма частот по строке fi называется маргинальной частотой строки; сумма частот по столбцу fj - маргинальной частотой столбца. Сумма маргинальных частот равна объему выборки n; их распределение представляет собой одномерное распределение переменной, образующей строки или столбцы таблицы.
|
|
В таблицах сопряженности м.б. представлены как абсолютные, так и относительные частоты (в долях или процентах). Относительные частоты могут рассчитываться по отношению:
- к маргинальной частоте по строке
- к маргинальной частоте по столбцу
- к объему выборки
Таблицы сопряженности используются для проверки гипотезы о наличии связи между двумя признаками (Статистическая связь, Критерий "хи-квадрат"), а также для измерения тесноты связи (Коэффициент фи, Коэффициент контингенции, Коэффициент Крамера).
50. χ2-критерий Пирсона
Критерий χ2 Пирсона – это непараметрический метод, который позволяет оценить значимость различий между фактическим (выявленным в результате исследования) количеством исходов или качественных характеристик выборки, попадающих в каждую категорию, и теоретическим количеством, которое можно ожидать в изучаемых группах при справедливости нулевой гипотезы. Выражаясь проще, метод позволяет оценить статистическую значимость различий двух или нескольких относительных показателей (частот, долей).
|
|
Критерий хи-квадрат для анализа таблиц сопряженности был разработан и предложен в 1900 году английским математиком, статистиком, биологом и философом, основателем математической статистики и одним из основоположников биометрики Карлом Пирсоном (1857-1936).
Условия и ограничения применения критерия хи-квадрат Пирсона
1. Сопоставляемые показатели должны быть измерены в номинальной шкале (например, пол пациента - мужской или женский) или в порядковой (например, степень артериальной гипертензии, принимающая значения от 0 до 3).
2. Данный метод позволяет проводить анализ не только четырехпольных таблиц, когда и фактор, и исход являются бинарными переменными, то есть имеют только два возможных значения (например, мужской или женский пол, наличие или отсутствие определенного заболевания в анамнезе...). Критерий хи-квадрат Пирсона может применяться и в случае анализа многопольных таблиц, когда фактор и (или) исход принимают три и более значений.
3. Сопоставляемые группы должны быть независимыми, то есть критерий хи-квадрат не должен применяться при сравнении наблюдений "до-"после". В этих случаях проводится тест Мак-Немара (при сравнении двух связанных совокупностей) или рассчитывается Q-критерий Кохрена (в случае сравнения трех и более групп).
|
|
4. При анализе четырехпольных таблиц ожидаемые значения в каждой из ячеек должны быть не менее 10. В том случае, если хотя бы в одной ячейке ожидаемое явление принимает значение от 5 до 9, критерий хи-квадрат должен рассчитываться с поправкой Йейтса. Если хотя бы в одной ячейке ожидаемое явление меньше 5, то для анализа должен использоваться точный критерий Фишера.
5. В случае анализа многопольных таблиц ожидаемое число наблюдений не должно принимать значения менее 5 более чем в 20% ячеек.
Дата добавления: 2018-08-06; просмотров: 3902; Мы поможем в написании вашей работы! |
Мы поможем в написании ваших работ!