Статистический анализ номинативных данных



Если переменные в качественных (номинативных) шкалах, то производят Анализ номинативных данных (Кто чаще ходит в продовольственный магазин: М или Ж?).

В зависимости от цели исследования и структуры исходных данных выделяются три группы методов, соответствующих решаемым задачам:

· анализ классификаций;

Когда для каждого испытуемого, объекта определена его принадлежность к одной из двух категорий номинативной переменной. Сравниваем численность двух долей объектов в совокупности обладающих или нет некоторым свойством. Нулевая гипотеза: сравниваемые доли равны между собой. Путин: 50 челов «ЗА» и 50 «Против». Выдвигается теоретическое распределение (73 на 23) и эмпирическое распределение (67 на 33). Вывод: численность проголосовавших за Путина выше, чем за другого. Метод: Хи-квадрат Пирсона)

· анализ таблиц сопряженности;

Применяется в случае необходимости сравнить два или более сравнения между собой, определить связь между ними: пол (м,ж) и предпочтение в книгах (худ, фант, детектив). (когда для каждого объекта выборки определена его принадлежность к одной из категорий Х и к одной из категорий Y. Три ситуации:

число градаций больше 2х (метод Хи-квадрат Пирсона)

таблицы сопряженности 2Х2 с независимыми выборками, метод Хи-квадрат Пирсона с поправкой на непрерывность Йетса, точный критерий Фишера (метод лечения 1 и 2, наличие рецедива: да и нет)

таблицы сопряженности 2Х2 с повторными измерениями. Метод: критерий Мак-Нимара

Пр.: лечение (до и после, одна группа), уровень сахар в крови превышен и не превышен

· анализ последовательностей (серий).

Применяется, когда объекты упорядочены и каждый объект отнесен к одной из двух категорий). Метод: критерий серий. Пример: 2 игрока, последть попаданий в десятку. Смотрим вероятность успеха после попадания и непопадания.

Таблицы сопряженности

Таблица сопряженности - средство представления совместного распределения двух переменных, предназначенное для исследования связи между ними. Таблица сопряженности является наиболее универсальным средством изучения статистических связей, так как в ней могут быть представлены переменные с любым уровнем измерения.

Строки таблицы сопряженности соответствуют значениям одной переменной, столбцы - значениям другой переменной (количественные шкалы предварительно должны быть сгруппированы в интервалы). На пересечении строки и столбца указывается частота совместного появления fij соответствующих значений двух признаков xi и yj. Сумма частот по строке fi называется маргинальной частотой строки; сумма частот по столбцу fj - маргинальной частотой столбца. Сумма маргинальных частот равна объему выборки n; их распределение представляет собой одномерное распределение переменной, образующей строки или столбцы таблицы.

В таблицах сопряженности м.б. представлены как абсолютные, так и относительные частоты (в долях или процентах). Относительные частоты могут рассчитываться по отношению:

- к маргинальной частоте по строке

- к маргинальной частоте по столбцу

- к объему выборки

Таблицы сопряженности используются для проверки гипотезы о наличии связи между двумя признаками (Статистическая связь, Критерий "хи-квадрат"), а также для измерения тесноты связи (Коэффициент фи, Коэффициент контингенции, Коэффициент Крамера).

50.                         χ2-критерий Пирсона

Критерий χ2 Пирсона – это непараметрический метод, который позволяет оценить значимость различий между фактическим (выявленным в результате исследования) количеством исходов или качественных характеристик выборки, попадающих в каждую категорию, и теоретическим количеством, которое можно ожидать в изучаемых группах при справедливости нулевой гипотезы. Выражаясь проще, метод позволяет оценить статистическую значимость различий двух или нескольких относительных показателей (частот, долей).

Критерий хи-квадрат для анализа таблиц сопряженности был разработан и предложен в 1900 году английским математиком, статистиком, биологом и философом, основателем математической статистики и одним из основоположников биометрики Карлом Пирсоном (1857-1936).

Условия и ограничения применения критерия хи-квадрат Пирсона

1. Сопоставляемые показатели должны быть измерены в номинальной шкале (например, пол пациента - мужской или женский) или в порядковой (например, степень артериальной гипертензии, принимающая значения от 0 до 3).

2. Данный метод позволяет проводить анализ не только четырехпольных таблиц, когда и фактор, и исход являются бинарными переменными, то есть имеют только два возможных значения (например, мужской или женский пол, наличие или отсутствие определенного заболевания в анамнезе...). Критерий хи-квадрат Пирсона может применяться и в случае анализа многопольных таблиц, когда фактор и (или) исход принимают три и более значений.

3. Сопоставляемые группы должны быть независимыми, то есть критерий хи-квадрат не должен применяться при сравнении наблюдений "до-"после". В этих случаях проводится тест Мак-Немара (при сравнении двух связанных совокупностей) или рассчитывается Q-критерий Кохрена (в случае сравнения трех и более групп).

4. При анализе четырехпольных таблиц ожидаемые значения в каждой из ячеек должны быть не менее 10. В том случае, если хотя бы в одной ячейке ожидаемое явление принимает значение от 5 до 9, критерий хи-квадрат должен рассчитываться с поправкой Йейтса. Если хотя бы в одной ячейке ожидаемое явление меньше 5, то для анализа должен использоваться точный критерий Фишера.

5. В случае анализа многопольных таблиц ожидаемое число наблюдений не должно принимать значения менее 5 более чем в 20% ячеек.


Дата добавления: 2018-08-06; просмотров: 3902; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!