Список используемых источников

Департамент охраны здоровья населения Кемеровской области

Новокузнецкий филиал

Государственного бюджетного профессионального образовательного учреждения

«Кемеровский областной медицинский колледж»

Реферат

по дисциплине «Информатика»

Статистическая обработка данных

Выполнила: студентка группы ФШ-161

специальности 31.02.01 Лечебное дело

Локтюшина Екатерина Андреевна

Проверила: Маслова Татьяна Федоровна

Новокузнецк, 2018

СОДЕРЖАНИЕ

 

ВВЕДЕНИЕ. 3

АКТУАЛЬНОСТЬ СТАТИСТИКИ В МЕДИЦИНЕ. 4

ВИДЫ СТАТИСТИЧЕСКИХ ДАННЫХ В МЕДИЦИНЕ. 6

ТИПЫ СТАТИСТИЧЕСКОГО АНАЛИЗА ДАННЫХ.. 8

ОПИСАТЕЛЬНАЯ СТАТИСТИКА.. 9

ИНДУКТИВНАЯ СТАТИСТИКА.. 11

ЗАКЛЮЧЕНИЕ. 15

СПИСОК ИСПОЛЬЗУЕМОЙ ЛИТЕРАТУРЫ.. 16

ПРИЛОЖЕНИЕ 17

 

 


 

Введение

 

 

Статистика - это наука, изучающая сбор, анализ и обработку цифровых данных. Математический анализ данных необходим для интерпретации медицинских исследований и является важнейшим этапом изучения клинических, диагностических, лечебных и профилактических мероприятий.

Цель данной работы: изучить методы статистической обработки данных в медицине.

Объект изучения: методы обработки.

Предмет изучения: медицинские данные.

Задачи работы:

1. Узнать понятия методов статистической обработки и их происхождения.

2. Изучить методы обработок.

3. Рассмотреть достоинства и недостатки методов обработки.

Тема актуальна в настоящий момент, так как почти не осталось людей, не использующих компьютер.

 

 

АКТУАЛЬНОСТЬ СТАТИСТИКИ В МЕДИЦИНЕ

 

 

Статистика в медицине является одним из инструментов анализа экспериментальных данных и клинических наблюдений, а также языком, с помощью которого сообщаются полученные математические результаты.

Однако, это не единственная задача статистики в медицине. Математический аппарат широко применяется в диагностических целях, решении классификационных задач и поиске новых закономерностей, для постановки новых научных гипотез. Использование статистических программ предполагает знание основных методов и этапов статистического анализа: их последовательности, необходимости и достаточности. В предлагаемом изложении основной упор сделан не на детальное представление формул, составляющих статистические методы, а на их сущность и правила применения.

Рис.1 Статистика в медицине.

 

Статистическая обработка медицинских исследований базируется на принципе того, что верное для случайной выборки[1] верно и для генеральной совокупности (популяции), из которой эта выборка получена. Однако выбрать или набрать истинно случайную выборку из генеральной совокупности практически очень сложно.

 Поэтому следует стремиться к тому, чтобы выборка была репрезентативной по отношению к изучаемой популяции, т.е. достаточно адекватно отражающей все возможные аспекты изучаемого состояния или заболевания в популяции, чему способствует чёткое формулирование цели и строгое соблюдение критериев включения и исключения как в исследование, так и в статистический анализ.


 

ВИДЫ СТАТИСТИЧЕСКИХ ДАННЫХ В МЕДИЦИНЕ

 

Статистические данные могут быть представлены как количественными (числовыми непрерывными или дискретными), так и качественными (категориальными порядковыми или номинальными) переменными.

Необходимо чётко указывать тип (вид) переменной при заполнении базы данных и точно придерживаться выбранного типа данных, так как от этого может зависеть дальнейшая обработка переменных во многих используемых в настоящее время 5 статистических программах.

Например, нельзя одновременно вносить в столбец переменных и числовые и текстовые, даже аналогичные по смыслу, данные: если заполнение «да/нет» в виде 1 или 0, то не вносить буквенные аббревиатуры и наоборот. Количественные (числовые) данные предполагают, что переменная принимает некоторое числовое значение. Из них выделяют дискретные данные, которые могут принимать строго определённые значения, в то время как непрерывные могут быть представлены любыми значениями.

Уникальным примером количественных данных является представление возраста двумя типами: в виде непрерывной переменной – указывается точный возраст пациента, и в виде дискретной переменной – указывается только количество полных лет (50,3 года и 50 лет; 50,9 года и 51 год).

Категориальность является основой смыслового понимания качественных переменных. Категориальные данные применяются для описания состояния объекта путем присвоения ему номера, соответствующего категории, к которой этот объект принадлежит. Важным условием для применения категориальных данных является принадлежность одного объекта исследования только к одной возможной категории для одного критерия.

Качественные номинальные данные используются в том случае, если категории не упорядочены. Числа в данном случае являются лишь обозначением для состояния объекта и не упорядочивают это состояние. Например, по полу: 1 – мужской, 2 – женский. Качественные порядковые (ранговые, ординарные) данные – данные, для которых категории могут быть упорядочены. Например, от плохого самочувствия к хорошему: 1 – хорошее, 2 – удовлетворительное, 3 – плохое.

 На практике часто используется перевод количественных данных в качественное категориальное упорядоченное представление, особенно при расчётах пороговых значений (cut-off) для последующих расчётов характеристик риска или прогностической значимости с использованием таблицы сопряжённости. Например, 1 – концентрация общего холестерина меньше или равна 5,2 ммоль/л (отношение рисков развития ИБС менее 6 1, прогностическая ценность положительного результата более 80%), 2 – концентрация общего холестерина более 5,2 ммоль/л (отношение рисков развития ИБС более 1, прогностическая ценность положительного результата более 80%).


 

ТИПЫ СТАТИСТИЧЕСКОГО АНАЛИЗА ДАННЫХ

 

 

В практике обработки результатов проведённых исследований используются два типа статистического анализа данных — первичный (запланированный) и вторичный (незапланированный).

Первичный анализ данных — используется для изучения и описания закономерностей, существование которых предполагается исследователем, и которые являются собственно гипотезой исследования. В таком случае анализируются признаки, изучение которых учтено при планировании исследования, и проверяются заранее сформулированные гипотезы.

Вторичный анализ данных — используется для формирования перспектив проведённого исследования, поиска, разведки потенциальных закономерностей и гипотез. В таком случае выполняется «просеивание» незапланированных в конкретной работе данных, что часто бывает целесообразно уже на первом этапе знакомства с данными.


 

ОПИСАТЕЛЬНАЯ СТАТИСТИКА

 

 

 Одной из основных составляющих любого анализа данных является описательная статистика (дескриптивная статистика). Её главной задачей является предоставление сжатой и концентрированной характеристики изучаемого явления в числовом и графическом виде.

Популяционное значение параметра (среднее значение, медиану, долю и т.д.) получить невозможно (исключение составляют случаи, когда исследование проводится на группе, которая включает всех членов популяции). Однако популяционное значение параметра можно оценить по выборке.

Точность такой оценки зависит от метода измерения (ошибки измерения), объема и репрезентативности выборки (ошибка выборки) и биологической вариации. 7 Показатели описательной статистики можно разбить на несколько групп: - показатели положения, описывающие положение экспериментальных данных на числовой оси.

 Примеры таких данных – максимальный и минимальный элементы выборки, среднее значение, медиана, мода и др.; - показатели разброса, описывающие степень разброса данных относительно центральной тенденции. К ним относятся: выборочная дисперсия, разность между минимальным и максимальным элементами (размах, интервал выборки) и др.; - показатели асимметрии: положение медианы относительно среднего и др.; - графические представления результатов – гистограмма, частотная диаграмма и др.

Данные показатели используются для наглядного представления и анализа результатов всей исследовательской выборки, экспериментальной и контрольной группы. При использовании описательной статистики важно учитывать тип данных и параметры распределения, характеризующиеся показателями асимметрии и гистограммой распределения. Наиболее часто употребляемыми критериями для проверки гипотезы о законе распределения являются критерий Пирсона, критерий χ2 и критерий Колмогорова-Смирнова: при отличии распределения признака в изучаемой выборке от нормального распределения со статистической значимостью менее 0,05.


 

ИНДУКТИВНАЯ СТАТИСТИКА

 

 

Задачей индуктивной статистики является проверка статистических гипотез о законе распределения, а основной областью применения – использование в медико-биологических исследованиях для сравнения двух разных выборок на предмет принадлежности к общей генеральной совокупности. Принадлежность двух выборок к одной генеральной совокупности свидетельствует об отсутствии различия между ними. Для этого формулируются статистические гипотезы: - Н0 гипотеза об отсутствии различий (нулевая гипотеза); - Н1 гипотеза о значимости различий (альтернативная гипотеза).

То есть, необходимо решить вопрос о случайности выявленных различий, от этого зависит принятие решения о том, являются ли выявленные различия свидетельством различного состояния и/или свидетельством эффекта от вмешательства. Количественную характеристику случайности представляет теория вероятностей в виде р-значения. Чем это значение больше, тем больше вероятность отсутствия различий в пользу нулевой гипотезы, и чем оно меньше, тем больше вероятность наличия различий в пользу альтернативной гипотезы. NB!!! - р-значение является количественной характеристикой только лишь статистической, НО не клинической значимости. При наличии статистической значимости необходимо принять решение о клинической важности выявленных различий. Особенно это касается вторичного анализа данных, незапланированного.

При первичном запланированном анализе данных обычно проверяется статистическая значимость клинически важных различий. Теория вероятностей в основе своей оперирует понятием допустимой 12 ошибки, и ошибка является обязательным компонентом статистического анализа, влияющая на р-значение. Допустимый уровень ошибок, от которого зависит р-значение, выбирается исследователем.

 В медико-биологических исследованиях принято использовать два вида ошибок: ошибка первого рода, которой соответствует понятие уровня статистической значимости α (альфа), и ошибка второго рода β (бета), которой соответствует понятие статистической мощности 1-β. Ошибка первого рода (уровень значимости α) – допустимость ошибочного признания различий, то есть альтернативной гипотезы. В медико-биологических исследованиях в качестве критического порога значимости традиционно выбирается уровень 0,05, что допускает наличие ошибки первого рода 5 раз в 100 сравнениях. При р≤ α различия принимаются статистически значимыми.

 И чем меньше р-значение, тем меньше подобных ошибок: например, при р=0,01 считается, что ошибка первого рода возможна 1 раз в 100 сравнениях, при р=0,001 – 1 раз в 1000 сравнениях.

Однако в разведочных/пилотных исследованиях допускается уровень значимости α=0,1 для выявления намечающихся различий и/или взаимосвязей с целью дальнейшего планирования на их основе новых исследований с достаточной значимостью. Ошибка второго рода β (статистическая мощность 1-β) – допустимость ошибочного отказа от наличия различий или, что то же самое, ошибочного признания отсутствия различий, соответственно ошибочного признания нулевой гипотезы, обусловленное недостаточным количеством данных. Ошибка второго рода выражается в виде статистической мощности равной 1- β. Мощность необходима для определения достаточности объёма выборки, особенно при доказательстве отсутствия статистических значимых различий в биоэквивалентных исследованиях.

При адекватной статистической мощности отсутствие статистических значимых различий действительно признаётся таковым. При неадекватной мощности нельзя утверждать об эквивалентности (схожести) групп. В медико-биологических 13 исследованиях в качестве критического порога принимается значение ошибки второго рода β=0,1 или β=0,2, что в виде статистической мощности, выраженной в процентах, равно 90% или 80%, чаще всего – 80%: вероятность того, что из 100 в 80 случаях действительно существующее различие будет выявлено и в 20 случаях – упущено.

Необходимым условием формирования гипотезы является предположение о смещении признака между изучаемыми группами: одностороннее или двустороннее. Вычисляемое для односторонних тестов значение статистической значимости (р) примерно в 2 раза меньше, чем для двусторонних тестов, что позволяет при обосновании одностороннего тестирования чаще выявлять клинически важные статистические закономерности. Односторонние тесты учитывают исходное (априорное) предположение о том, что в одной из групп распределение признака смещено в определенную сторону (в сторону увеличения либо уменьшения) по отношению к другой.

Однако для того чтобы воспользоваться таким тестом, необходимо обосновать свое предположение. Двусторонние тесты используются в отсутствие исходного (априорного) предположения о том, что в одной из групп распределение признака смещено в определенную сторону (в сторону уменьшения или увеличения) по отношению к другой.

Экспертным медицинским сообществом рекомендуется чаще использовать двусторонние тесты. Выборки могут быть независимыми, если идёт сравнение контрольной и опытной группы, или зависимыми, если обе выборки представлены одними и теми же пациентами до и после вмешательства.

Для расчёта р-значения используют решающие правила – статистические критерии. То есть, на основании информации о результатах наблюдений (характеристиках членов экспериментальной и контрольной групп) вычисляется число, называемое эмпирическим значением критерия. Это число сравнивается с известным (заданным таблично) эталонным числом, называемым критическим значением критерия. Математическим результатом 14 такого сравнения является р-значение.

Главная задача исследователя при использовании индуктивной статистики заключается в формулировке статистических гипотез и выборе правильного статистического критерия для проверки этих гипотез.

 Выбор критерия зависит от поставленной задачи, типа данных и количества измерений. Так, для количественных данных при распределениях, близких к нормальным, используют параметрические методы, основанные на таких показателях, как среднее значение и стандартное отклонение. Для сравнения двух независимых выборок используется непарный t-критерий, для двух зависимых выборок используется парный t-критерий.

При обработке малых выборок (менее 16 объектов, при котором t- распределение начинает существенно отличаться от нормального) для сравнения неколичественных данных используют непараметрические методы — U-тест Манна-Уитни для двух независимых выборок, критерий Вилкоксона для сравнения двух зависимых выборок, критерий χ2 (хи-квадрат) для проверки статистической гипотезы о наличии связи между двумя качественными признаками.


ЗАКЛЮЧЕНИЕ

 

 

Статистический анализ является неотъемлемой частью практически любого исследования, и только с его помощью можно пополнить доказательную базу.

Во многих случаях необходимо участие специалиста с профессиональной подготовкой в области математической статистики. Именно в ходе сотрудничества с математиком можно рассчитывать на проведение глубокого и корректного статистического анализа данных.


Список используемых источников

 

 

1. Статистическая обработка данных [Электронный ресурс] // https://studfiles.net/preview/3859470/page:12/ - 20.05.2018. – Заглавие с экрана

2. Методы статистической обработки данных [Электронный ресурс] // http://u4isna5.ru/konspektlekcii/38-putvnauku/155-putvnauku212 - 23.05.2018. – Заглавие с экрана.

3. Медико – биологическая статистика [Электронный ресурс] // https://www.mediasphera.ru/journals/mjmp/99/2/r2-99-16.htm - 24.05.2018. – заглавие с экрана.


 

Приложение 1

 

 

Рис.2 Статистические данные по алкоголизму в мире

 


[1] Выборка или выборочная совокупность — часть генеральной совокупности элементов, которая охватывается экспериментом (наблюдением, опросом).


Дата добавления: 2018-11-24; просмотров: 191; Мы поможем в написании вашей работы!

Поделиться с друзьями:




Мы поможем в написании ваших работ!