Оценка достоверности отличий по t-критерию Стьюдента



Наиболее часто в психологическом исследовании встречается задача выявления различий между двумя или более группами признаков. Выявление таких различий на уровне средних арифметических мы уже рассмотрели выше в процедуре анализа первичных статистик. Однако, возникает вопрос насколько эти различия достоверны и можно ли их распространить (экстраполировать) на всю популяцию. Для решения этой задачи чаще всего используется (при условии нормального или близкого к нормальному распределения) t-критерий (или критерий Стьюдента). Этот критерий предназначен для того, чтобы выяснить, на сколько достоверно различаются показатели одной выборки испытуемых от другой (например, когда испытуемые получают в результате тестирования одной группы более высокие баллы, чем представители другой). Это параметрический критерий, имеющий две основные формы. Первая из них - несвязанный t-критерий (который также называют непарным t-критерием) - предназначен для того, чтобы выяснить, имеются ли различия между оценками, полученными при использовании одного и того же теста для тестирования двух групп, составленных из разных людей.

Например: это может быть сравнение уровня интеллекта или нервно-психической устойчивости, тревожности «успешных» учащихся и «отстающих» или сравнение по этим признакам учащихся разных классов, возрастных групп, социальных уровней и т.д. Это могут быть разнополые, различных национальностей выборки, а также подвыборки в исследуемых выборках, выделенные по определенному признаку.  Мы на это указывали, когда говорили о независимых переменных, «L», «Q», и «T»- данных, на основании которых возможно выделение подвыборок в основной выборке исследуемых.

Критерий называется «несвязанным», потому что сравниваемые группы составлены из разных людей. Связанный t-критерий (который иногда называют парным t-критерием) предназначен для сравнения показателей двух групп, между членами которых существует специфическая связь. Это означает, что каждому члену первой группы соответствует какой-либо член второй группы, который похож на него по какому-то параметру, интересующему исследователя. Чаще всего сравниваются параметры одних и тех же людей до и после определенного события или воздействия (например, в процессе проведения лонгитюдного исследования или формирующего эксперимента). Поэтому данный критерий используется для сравнения показателей одних и тех же людей до и после обследования, эксперимента или прошествии некоторого времени.

В случаях, когда данные не подчиняются нормальному закону распределения, используются непараметрические критерии, эквивалентные t-критериям. Это критерий Манна-Уитни, который эквивалентен непарному t- критерию, и двухвыборочный критерий Вилкоксона, эквивалентный парному t-критерию.

С помощью t-критериев и их непараметрических эквивалентов можно лишь сравнивать результаты двух групп, полученные с использованием одного и того же теста. Однако в некоторых случаях возникает необходимость сравнения нескольких групп или оценок нескольких видов. Это можно сделать поэтапно, разбив задачу на несколько пар сравнений (например, если надо сравнить группы А, Б и В по результатам тестов Х и У, то можно с помощью t-критерия сначала сравнить группы А и Б по результатам теста X, потом А и Б по результатам теста У, А и В по результатам теста Х и так далее). Однако это очень трудоемкий метод; кроме того, по некоторым причинам, в объяснение которых мы не будем здесь углубляться, при его использовании резко возрастает вероятность совершения ошибки первого рода. Поэтому необходим более сложный метод, метод дисперсионного анализа, который требует использования прикладных программ и силу определенной сложности нами не рассматривается

И так, рассмотрим более подробно метод оценки достоверность различий средних арифметических по достаточно эффективному параметрическомукритерию Стьюдента, который предназначен для решения одной из наиболее часто встречающихся задач при обработке данных - выявления достоверности различий между двумя, или более, рядами значений.

Данная оценка часто необходима при сравнительном анализе полярных групп. Эти группы можно выделить, учитывая различную выраженность определенного целевого признака (характеристики) изучаемого явления. Какими критериями при этом руководствоваться мы указывали выше. Обычно анализ начинают с подсчета первичных статистик выделенных групп, затем оценивают достоверность отличий. Он вычисляется по формуле:

 
t St =                                                                                                           (7.5)                                                                                               где M1 и M2 - значения сравниваемых средних арифметических; t St - величина вычисленного эмпирического критерия, который необходимо сравнивать с критическим; m1 и m2 - соответствующие величины статистических ошибок средних арифметических.

 

Значения критерия Стьюдента для трех уровней доверительной (статистической) значимости (p) приведены в приложении 4. Число степеней свободы определяется по формуле d = v = n1 + n2 - 2, где n и n - объемы сравниваемых выборок. С уменьшением объемов выборок (n < 10) критерий Стьюдента становится чувствительным к форме распределения исследуемого признака в генеральной совокупности. Поэтому в сомнительных случаях рекомендуется использовать непараметрические методы или сравнивать полученные значения с критическими (приведенными в таблице) для более высокого уровня значимости.

Решение о достоверности различий принимается в том случае, если вычисленная величина tSt превышает табличное значение для данного числа степеней свободы (d (v)). В тексте публикации или научного отчета указывают наиболее высокий уровень значимости из трех: p<0.05; p<0.01; p<0.001.

Приведенная формула проста. Используя ее, можно с помощью бытового калькулятора с памятью вычислить t-критерий без промежуточных записей. Однако, на наш взгляд, целесообразнее вычислять его, используя компьютерные программы. Алгоритм вычисления в программе Excel мы рассмотрим ниже.

Однако, следует помнить, что при любом численном значении критерия достоверности различия между средними этот показатель оценивает не степень выявленного различия (она оценивается по самой разности между средними), а лишь статистическую достоверность его, т.е. право распространять полученный на основе сопоставления выборок вывод о наличии разницы на все явление (весь процесс) в целом. Низкий вычисленный критерий различия не может служить доказательством отсутствия различия между двумя признаками (явлениями), ибо его значимость (степень вероятности) зависит не только от величины средних, но и от численности сравниваемых выборок. Он говорит не об отсутствии различия, а о том, что при данной величине выборок оно статистически недостоверно: слишком велик шанс, что разница при данных условиях определения случайна, слишком мала вероятность ее достоверности [25, c. 70].

Алгоритм вычисления t-критерия Стьюдента в программе Excel:

При условии нормального или близкого к нормальному распределения, сравниваются две выборки или подвыбоки (из основной выборки), различающиеся по какому-либо показателю (независимой переменной).

Для выборок это могут быть мужчины и женщины (если ставится задача выявления гендерных различий), лица подросткового и юношеского возраста (при выявлении психологических особенностей возрастного развития) и т. д.

Если выборка одна, то одной из задач исследования может быть выявление психологических особенностей, характеристик, присущих «успешным» и «не успешным» в данной выборке по каким-либо психологическим характеристикам. Решение этого рода задач мы и рассмотрим в качестве примера.

В любом случае, в выборках, подвыборках вычисляются первичные статистики: M, σ, n, m.

Выделения подвыборок в основной выборке осуществляется при помощи функции «Сортировка». Необходимо отсортировать выборку по какому-либо признаку. На примере эмпирических данных нашей таблицы это могут быть:

1) интегральная шкала опросника МЛО «Адаптивность» - ЛАП (личностный адаптационный потенциал) и основные подшкалы: ПР (поведенческая регуляция, нервно-психическая устойчивость), КК (коммуникативные качества), МН (моральная нормативность);

2) шкалы опросника «Спилбергера-Ханина» - РТ (реактивная тревожность – ситуативная) и ЛТ (личностная тревожность – как черта личности);

3) интегральная шкала интеллектуальной батареи – Балл.

По каждой из этих шкал мы можем выделить группы «успешных» и «не успешных» по данному признаку и выявить различаются они на достоверно значимом уровне или не различаются по остальным психологическим характеристикам.

Пример:

Гипотеза (предположение): учащиеся с более высоким уровнем развития основных познавательных процессов отличаются от учащихся с более низким уровнем развития познавательных психических процессов по ряду личностных характеристик.

Задача: выделить группы «успешных» и «не успешных» учащихся по уровню развития основных познавательных психических процессов с целью дальнейшего выявления различий между ними по личностным характеристикам.

Алгоритм сортировки данных сводной таблицы исследования студентов-психологов по шкале «Балл» (Рисунок 7.17).

Открываем Excel «лист 1» сводной таблицы. Выделяем данные для сортировки: начиная от первой ячейки шкалы наименований признаков (в данном примере – A3) и заканчивая последней ячейкой численного показателя в последнем столбце признаков (в данном примере – P29). В меню выбираем «Данные» > «Сортировка» > «Сортировать по …»> «Балл» > ◙ «по возрастанию» (или «убыванию») > ОК.

 

Рисунок 7.17 – Сортировка по шкале «Балл» (Р)

Данные отсортированы по возрастанию, начиная от меньшего показателя признака к большему. Затем начинается творческая работа исследователя. Поскольку выборка одна и подчиняется закону нормального распределения признака, то следует в ней определить крайние границы «успешных» и «не успешных» по интеллекту. В целом, можно придерживаться правила, что 50% признаков от средней арифметической составляют популяционную норму, а следовательно, из расчетов должны быть исключены. Однако, в практике эти границы можно варьировать, но в разумных пределах, при определении подвыборок в основной выборке. 

Выделим в качестве «не успешных» выборку с параметрами P 4 : P 12 (т.е. n1 = 9), а «успешных» - P 24 : P 29 (т.е. n2 = 6). Вычислим для каждой этой выборки отдельно M, σ (S), n, m, придерживаясь алгоритма, указанного раннее для вычисления первичных статистик, используя «Вставку функций» (Рисунок 7.18).

Рисунок 7.18 – вычисление первичных статистик по подвыборкам

Будьте внимательны! Вы определяете параметры выборок «успешных» и «не успешны» по столбцу «P» («Балл»). Но вычисления будете проводить в столбце первого признака под таблицей – «С». Поэтому параметры выборки «не успешных» будут С 4 : С 12, а «успешных» - С 24: С 29. (см. Рисунок 7.18). После того как вычислены первичные статистики по выборкам «успешных» и «не успешных», переходим к вычислению t-критерия Стьюдента.

Алгоритм вычисления t-критерия Стьюдента:

Курсор помещаем в ячейку С 45 (см. Рисунок 7.18) и на клавиатуре небираем формулу вычисления t-критерия. Напоминаем как она выглядит и ее вид при введении через клавиатуру в программе Excel.

t St =                                                                                                                  = (С 34 – С 40)/корень(C 37^2 + C 43^2)

Обращаем внимание, формула набирается только в английском шрифте, за исключение слова «корень», после чего не забудьте вновь переключиться на английский. Будьте внимательны в соблюденнии знаков и их порядка.

С 34 –координаты М1 – «не успешных».

С 40 –координаты М2 – «успешных».

^ - показатель степени в которую возводится значение в данной ячейке.

Набирается следующим образом: нажимаем одновременно две клавиши

«Shift + 6» и появляется значок ^ показателя степени. Затем, набираем

квадрат числа – 2.

C 37 –координаты m1 – «не успешных».

C 43 –координаты m1 – «не успешных».

Далее > ОК, появляется вычисленное значение t-критерия для значений признака данного столбца – 3,44. Копируем эту ячейку. Выделяем область втавки по другими сталбцами признаков – «Вставить» > появляются вычисленные значения для других столбцов признаков.

Затем обращаемся к таблице «Квантили t-распределения Стьюдента для доверительной вероятности (1-а = 0,95; 0,99; 0,999)» (см. Приложение 4). Вычисляем число степеней свободы по формуле v = d = n1 + n2 – 2,для нашего примера v =6 + 9 – 2 = 13. Выписывем критические значения для p<0,05 оно равно 2,160; для p<0,01 равно 3,012; для p<0,001 равно 4,221. Сравниваем данные значения с эмпирическими, полученными в результате вычислений и оформляем их в виде таблицы. Например:

Таблица 7.3 - Оценка достоверности отличий «успешных» и «не успешных» студентов 521 группы ЛГУ по уровню развития познавательных психических процессов

 

ПР

КК

МН

ЛАП

ЛТ

РТ

АН

ЧР

ЗП

ОМ

АС

ВП

УЗ

Бал

t-Studenta

3,44

1,58

0,054

3,40

2,49

1,05

-2,32

-3,36

-2,14

-5,6

-3,19

-3,03

-4,96

-12

                                     

Возможен и другой вариант таблицы более информативный:   

       

Таблица 7.4 - Оценка достоверности отличий «успешных» и «не успешных» студентов 521 группы ЛГУ по уровню развития познавательных психических процессов

Психологический признак

«успешные» (n = 6)

«не успешные» (n = 9)

t-Stud

p

M±m σ M±m σ
1. Поведенческая регуляция (ПР) 22,3 ± 1,76 10,1 36,1 ± 3,6 10,2 3,44 p < 0,01
2. Коммуникативные качества (КК) 11,0 ± 0,82 2,0 13,8 ± 1,53 4,33 1,58  
3. Моральная нормативность (МН) 9,17 ± 0,91 2,23 9,25 ± 1,26 3,58 0,05  
4. Личностныйадапта-ционный потенциал 42,5 ± 1,18 2,89 59,13 ± 4,74 13,41 3,40 p < 0,01
5. Личностная тревожность (ЛТ) 40,33 ± 2,12 5,20 47,75 ± 2,09 5,92 2,49 p<0,05
6. Реактивная тревожность (РТ) 43,67 ± 5,36 13,13 51,13 ± 4,68 13,23 1,05  
7. Аналогии 26,33 ± 0,76 1,86 22,89 ± 1,27 3,82 2,32 p < 0,05
8. Числовые ряды 18,17 ± 0,79 1,94 13,56 ± 1,12 3,36 3,36 p < 0,01
9. Зрительная память 24,67 ± 1,02 2,50 19,44 ± 2,22 6,65 2,14  
10. Образное мышление 20,67 ± 1,12 2,73 9,22 ± 1,71 5,14 5,60 p<0,001
11. Арифметический счет 16,33 ± 1,75 4,27 9,22 ± 1,38 4,15 3,19 p < 0,01
12. Вербальная память 27,17 ± 0,65 1,60 22,22 ± 1,50 4,49 3,03 p < 0,01
13. Установл. закономерн 28,83 ± 0,30 0,75 23,89 ± 0,94 2,85 4,96 p<0,00
14. Интегральный балл 162,2 ± 2,70 6,62 120,4 ± 2,19 6,58 12,0 p<0,00

Мы видим, что по всем субтестам (методикам) интеллектуальной батареи (кроме «зрительная память») группы «успешных» и «не успешных» студентов значимо различаются на уровне p<0,05. По методикам «Числовые ряды» (ЧР), «Арифметический счет» (АС), «Вербальная память» (ВП) студенты различаются на уровне p<0,01, а по методикам «Образное мышление» (ОМ) и «Установление закономерностей» (УЗ) на уровне p<0,001, не говоря уже об интегральной шкале «Балл» на основании которой мы выделяли подгруппы.

Анализ личностных характеристик показывает, что «успешные» студенты значимо различаются от «не успешных» по таким признакам, как уровень поведенческой регуляциии (p<0,01), личностному адаптационному потенциалу (p<0,01), личностной тревожности (p<0,05). И это вполне закономерно, поскольку в основе адаптивных возможностей лежат такие психологические характеристики как нервно-психическая устойчивость, повышенная тревожность, наличие определенных акцентуаций характера, адекватность самооценки и некоторые другие, которые оказывают несомненное влияние на особенности протекания познавательных психических процессов. В тоже время, по таким характеристикам как коммуникативные качества, общительность, коммуникабельность, моральная нормативность и ситуативная тревожность, выделенные выборки студентов значимо не различаются. Значит эти характеристики оказывают меньшее влияние на эффективность интеллектуальной деятельности.

Однако, данный пример обобщений и сделанные выводы нельзя экстраполировать на всю популяцию в целом. Поскольку выборка единична, малочисленна и ограничена, то мы не вправе сделать, например, такой обощающий вывод: что студенты, которые выделяются высоким уровнем развития познавательных психических процессов, обладают или имеют высокие адаптивные возможности. Не совсем верен буден и обратный вывод: наличие высоких адаптивных возможностей не есть прямое свидетельство или причина успехов в сфере интеллектуальной деятельности.

Закономерные причинные взаимосвязи, тенденции здесь несомненно присутствуют. Но исследования по данной проблеме показывают, что все обстоит не так просто и прямолинейно. Об этом мы еще будем говорить ниже, при рассмотрении метода корреляционного анализа. Пока же мы предостерегаем вас от скоропалительных обобщений, особенно в случае когда на малочисленных выборках и при использовании одного метода получены достаточно убедительные результаты.

Корреляционный анализ

Мы рассмотрели t-критерий предназначенный, в основном, для сравнения результатов различных групп испытуемых (при условии нормального распределения и данных, представленных в нормированных шкалах). Другой довольно часто встречающейся задачей психологического исследования является выявление взаимосвязей между двумя или более наборами данных. Одной из простейших форм выявления такой связи является корреляция.

Корреляционный анализ дает возможностьточной количественной оценки степени согласованности изменений (варьирования) двух и более признаков. Степень согласованности изменений характеризует теснота связи - абсолютная величина коэффициента корреляции.

Наличие корреляции между двумя результатами, в сущности, означает, что при изменении одного результата другой также изменяется - таким образом, между результатами существует, выявляется связь. Если значение некоторой величины может изменяться, то такую величину называют переменной. Корреляция между двумя переменными может быть положительной или отрицательной. Положительной корреляцией называется такая связь между переменными, когда значения обеих переменных возрастают или убывают пропорционально: с уменьшением (увеличением) одной уменьшается (увеличивается) другая. Простым примером положительной корреляции является связь между ростом и весом человека - с возрастанием роста возрастает и вес, и, как правило, люди высокого роста имеют больший вес, чем люди маленького роста. В случае отрицательной корреляции, связь является обратно пропорциональной: возрастание одной переменной сопровождается убыванием другой (например, температура воздуха и количество надетой одежды - чем теплее на улице, тем меньше одежды мы надеваем).

Важно отметить другое, что, корреляция еще не означает наличия причинно-следственной связи. Наличие корреляции говорит о том, что между двумя переменными существует связь, но не о том, что одна из переменных является причиной, а другая - следствием. Существование причинно-следственной связи устанавливается другими методами.

Поэтому, достаточно рискован содержательный вывод о причинно-следственной зависимости между изучаемыми явлениями только на основании статистической значимости связи между соответствующими признаками (т.е. на основании коэффициента корреляции). Конечно, статическая связь между признаками - это необходимое, но не достаточное условие причинно-следственной связи между ними. Утверждение о том, что явление А есть причина явления В, справедливо, если одновременно выполняются три условия (Кэмпбелл Д. Модели экспериментов в социальной психологии и прикладных исследованиях. М., 1980):

а) явления А и В статистически связаны;

б) А происходит раньше В;

в) отсутствует альтернативная интерпретация появления В помимо А (другими словами - отсутствует общая причина С совместной изменчивости А и В).

Таким образом, применение корреляционного метода позволяет обосновать наличие только статистической связи - одного из трех признаков причинно-следственной связи [40, c. 108-109].        

Но, вернемся к приведенному выше примеру с температурой воздуха и одеждой. Наличие связи между этими переменными не означает, что если мы снимем одежду, то температура воздуха повысится. Нам придется воспользоваться другими методами, чтобы показать, что в данном случае связь является односторонней и причиной изменения количества одежды, которую надевают люди, является изменение температуры воздуха. В других случаях связь между двумя переменными может быть обусловлена какой-либо третьей переменной, и корреляция просто отражает наличие чего-то общего между двумя переменными и этой третьей. Для иллюстрации подобной ситуации часто приводят следующий пример: если бы у нас возникло странное желание измерить размер ступни школьников и оценить их знания по математике, то мы обнаружили бы положительную корреляцию между длиной ступни и оценками по математике.

Означает ли это, что математические способности зависят от размера ноги или что у тех, кто делает успехи в математике, быстрее растут ноги? Конечно же нет - эта корреляция объясняется влиянием третьей переменной: а именно, возраста (чем старше ребенок, тем больше у него нога и тем лучше он разбирается в математике). Поэтому при интерпретации корреляции необходима осторожность [63, c. 271].

После того как выявлена положительная или отрицательная корреляция, необходимо установить, сколь тесной она является. На это указывает коэффициент корреляции, который обозначают буквой r, величина r варьирует в диапазоне от -1 до +1. В случае прямо пропорциональной зависимости одного признака от другого коэффициент корреляции равен единице (т.е. признак коррелирует (связан) сам с собой). Отрицательный коэффициент корреляции, как указывалось выше, свидетельствует о разной направленности варьирования признаков: при изменении одного в сторону увеличения - другой уменьшается и обратно.

Когда статистическому анализу подвергаются данные, взятые из «реальной жизни», то обычно выявляются корреляции с коэффициентами, находящимися в диапазоне между нулем (отсутствие корреляции) и единицей (идеальная корреляция), и чем ближе значение r к ±1, тем более тесной является связь. Значения r выражаются в десятичных дробях (например, - 0,23; + 0,5 и т. п.). При низких значениях r (обычно низкими считаются значения, не превышающие 0,2 при n ≤ 30) корреляция, как правило, не является статистически значимой.

 Нулевая величина коэффициента корреляции говорит об отсутствии взаимосвязи между признаками, но такое встречается очень редко, ибо в сфере психических явлений все явления со всеми взаимосвязаны (в большинстве случаев опосредованно и могут проявляться лишь на уровне тенденций). Это не требует доказательств. И вся проблема в том, на сколько тесна эта взаимосвязь, чем и какими факторами она опосредуется, от чего зависит, какими методами выявляется и каким образом учитывается в практической деятельности обучения, воспитания, формирования профессионально важных навыков, качеств, мастерства.

Рассматривая числовые значения коэффициентов корреляции, создается впечатление, будто значения r являются непосредственным показателем силы корреляции. Например, можно подумать, что поскольку при идеальной положительной корреляции r (+1), то r = 0,7 соответствует 70 % идеальной корреляции (или, точно так же, что r = 0,4 соответствует 40 % идеальной отрицательной корреляции). На самом же деле коэффициент корреляции - довольно обманчивое число. Чтобы найти, какую процентную долю от идеальной корреляции составляет данное значение r, необходимо возвести его в квадрат, а результат умножить на 100. Если r = 0,7, то такая корреляция составляет 49 % от идеальной (0,7 × 0,7 × 100 = 49). Точно так же отрицательная корреляция r = - 0,4 составляет 16 % от идеальной отрицательной корреляции. Поэтому «степень идеальности» корреляции может быть гораздо меньше, чем можно подумать, если судить по значению r [63, c. 271].

Статистики обычно не пользуются понятием «степени идеальности», а считают, что коэффициент корреляции r указывает на долю изменений одной переменной, которые можно предсказать по изменениям другой переменной. Существует много методов измерения корреляции, и выбор конкретного метода зависит от типа рассматриваемых данных.

Мы с вами рассмотрим алгоритм вычисления коэффициента корреляции Пирсона, который является мерой корреляции между двумя переменными, распределенными по нормальному закону (например, для выявления взаимосвязи уровня развития интеллекта и адаптивных возможностей личности или связи между успеваемостью по математике и временем решения арифметической задачи и т.д.). Преимущество данного метода состоит в том, что на величину корреляции не влияет, то, в каких единицах измерения представлены признаки [40, c. 72]. Недостатком метода является сложность математических вычислений особенно для больших массивов данных. Однако, этот недостаток вполне устраним применением прикладных программ (например, наиболее простая - Excel).

Непараметрическим эквивалентом этой оценки является коэффициент корреляции Спирмена (например, для сравнения порядка прихода к финишу одних и тех же бегунов в двух забегах или выявления связи между успеваемостью по математике и временем решения арифметической задачи и т.д.). Преимущество метода состоит в возможности проведения не очень сложных математических вычислений с использованием калькулятора для небольших по объему выборок. Недостатком метода являются ограничения налагаемые сложностью обработки значительных массивов данных и необходимости ранжирования рядов значений.


Дата добавления: 2018-06-01; просмотров: 45501; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!