Глава 5. Вычисление надежности тестов



 

В первой главе были кратко обсуждены два основных для психо-

метрических тестов понятия - надежность и валидность. В этой

главе будут описаны методы и процедуры установления надежности

теста. Как уже отмечалось, в смысле практического применения по-

нятие надежности имеет два значения: одно связано с внутренней

согласованностью теста, а другое - с воспроизводимостью результа-

тов. Оба они важны, хотя на практике второе существенно для раз-

работки эффективных тестов, тогда как первое, связанное с внутрен-

ней согласованностью, является значением надежности, учитывае-

мым в классической теории погрешностей тестов.

Однако, с точки зрения разработчика психологических тестов,

существуют различные практические вопросы, касающиеся надеж-

ности тестов, которые следовало бы обсудить: о преимуществах и

недостатках различных способов вычисления надежности, о важно-

сти надежности по внутренней согласованности на практике, в отли-

чие от теории, а также об источниках неудовлетворительной надеж-

ности. Эти вопросы и будут рассмотрены в данной главе.

 

Важность надежности по внутренней согласованности

при конструировании тестов

 

Понятие надежности по внутренней согласованности является

центральным для теории погрешностей измерения: чем выше надеж-

ность, тем меньше погрешность и тем ближе значение показателя по

тесту к истинному показателю (см. гл. 1). Из этого делается очевид-

ный вывод: высокая внутренняя согласованность должна быть основ-

ной целью разработчиков тестов, и это точка зрения многих специа-

листов по психометрии (напр., Cronbach, 1970), отражаемая и в

обзорах тестов во многих изданиях Mental Measurement Yearbook

(Buros).

Однако, Кэттелл и его коллеги, являющиеся авторами некоторых

из наиболее известных тестов во многих областях психологических

измерений - например , Культурно-свободного теста интеллекта

(Culture-Fair Intelligence Test, CFIT; Cattell и Cattell, 1960), Шест-

надцатифакторного личностного опросника (16 PF Personality Test;

Cattell и др., 1970), Теста анализа мотивов (Motivation Analysis Test;

Cattell и др., 1970) -постоянно утверждали, что высокая внутренняя

согласованность может быть (а часто и является в таких ложных

областях, как темперамент и динамика) противоположностью высо-

кой валидности. Поскольку валидность определена как степень, в

которой тест измеряет то, для измерения чего он предназначен, то

 

164

 

достижение ее должно быть основной целью при разработке тестов.

Надежность важна лишь постольку, поскольку она может обеспечить

высокую валидность. Как же тогда могло оказаться, что Кэттелл

придерживается точки зрения, не только противоположной мнению

большинства специалистов в этой области, но и такой, которая про-

тиворечит статистическим основаниям разработки тестов?

 

Значение истинных показателей

 

В главе 1 большое внимание было уделено определению значения

истинных показателей - показателей для некоторой бесконечной

генеральной совокупности заданий - потому что это понятие явля-

ется определяющим.

Поскольку я буду утверждать здесь, что важность надежности по

внутренней согласованности была в психометрии излишне преувели-

чена (то есть я соглашаюсь с мнением Кэттелла) и что она может

быть антитезисом валидности, то существенно важно указать, что я

полностью принимаю статистические аргументы, выдвинутые ранее.

Однако то, что не было вынесено на рассмотрение при обсуждении

математических методов (и то, почему понятие истинного показате-

ля является определяющим) - это психологическая значимость ис-

тинных показателей в том виде, как они определены теоретически.

Эту точку зрения лучше всего пояснить на примерах.

Предположим, что мы пытаемся измерить такую переменную,

как вербальные способности. Весьма вероятно, что задания, которые

представляются затрагивающими вербальные способности, в дейст-

вительности их и затрагивают; например, словарный запас, опреде-

ления, синонимы, антонимы, конструирование искусственных язы-

ков с грамматикой, составление конспектов, понимание и способ-

ность к подведению итогов. То есть можно сказать, что переменная

«вербальные способности» является относительно однородным набо-

ром ясно определенных и очерченных навыков. Было бы очень уди-

вительно, если бы испытуемые, хорошо составляющие краткие кон-

спекты, были не очень понятливы и имели плохой словарный запас.

Это означает, что существуют веские психологические основания

для того, чтобы предполагать, что соответствующая выборка заданий

будет внутренне согласована, однородна и надежна, и что любые

задания, которые не могли быть определены таким образом, по всей

вероятности, измеряют некоторую другую переменную, а не вер-

бальные способности. Следовательно, в этом случае можно было бы

ожидать, что выборочный тест будет высоко надежным, потому что

генеральная совокупность истинных заданий была сама однородна. В

самом деле, большинство эффективных тестов способностей дейст-

 

165

 

вительно имеют высокие значения коэффициента О., поскольку в

сфере способностей каждый фактор является обычно четко опреде-

ленным и дискретным. Если тест валиден - то есть если его задания

взяты из той генеральной совокупности заданий, которую мы имели

в виду - то в сфере способностей высокая надежность является,

вероятно; обязательным, условием.

Однако, этот пример также дает нам основания для аргумента

против слишком высокой надежности, то есть речь идет о том, что

высокая надежность является антитезой высокой валидности. Давай-

те представим, что наш тест вербальных способностей состоит из

вопросов по антонимам, синонимам, пониманию, словарному запасу

и краткому конспективному изложению. Такие средства измерения,

при тщательной их разработке, имели высокие значения надежнос-

ти, порядка 0,90. Однако, если бы в стремлении достичь высокой

надежности мы использовали только один тип заданий, скажем, за-

дания на антонимы, то это значение надежности могло, несомненно,

возрасти. Однако, (и надеюсь, большинству читателей это понятно),

очень маловероятно, чтобы этот последний тест вербальных способ-

ностей имел бы более высокую валидность.

В терминах классической модели погрешностей измерений мы

можем ясно увидеть, почему этот тест с более высокой надежностью

является менее валидным. Высокая надежность теста антонимов от-

ражает тот факт, что наша выборка заданий теста (на антонимы) в

высокой степени коррелирует с гипотетической генеральной сово-

купностью заданий, то есть со всеми возможными заданиями на

антонимы. Однако, этот истинный показатель отражает не вербаль-

ные способности, а только способность подбирать антонимы. Таким

образом, можно создать валидные тесты, ограничивая выбор заданий

и конструируя генеральную совокупность заданий, однако это будет

достигнуто только за счет уменьшения валидности. Так, из этого

примера можно видеть, каким образом утверждение о том, что высо-

кая надежность противостоит высокой валидности, не является про-

тиворечащим классической модели погрешностей измерения. Как

отмечалось, все зависит от психологического значения истинных по-

казателей (в данном примере отличия вербальных способностей от

способности подбирать антонимы).

В нашем примере из сферы способностей большинство разработ-

чиков тестов не сделали бы такой ошибки, создавая высоконадежный

тест путем ограничения себя лишь одним типом заданий, потому что

конструкт вербальных способностей хорошо понятен и одних заданий

на антонимы для него недостаточно. Однако в других областях пси-

хологических измерений, особенно личности и мотивов, это не так.

 

166

 

Многие разработчики тестов, например, Кэттелл, Гилфорд и Айзенк

для очерчивания области и определения конструктов используют

факторно-аналитические методы.

Следовательно, в том случае, когда переменная не может быть

определена a priori, существует реальная опасность создания тестов

с такой высокой надежностью, что, и это существенно, генеральная

совокупность заданий будет настолько ограничена, что не будет

представлять сколь-нибудь значительного психологического интере-

са, или, говоря статистическим языком, истинный показатель будет

очень специфичным и не будет коррелировать практически ни с чем.

Это в особенности имеет место тогда, когда мы имеем дело с попыткой

измерить такую переменную, как экстраверсия, которая является

некоторым кластером или синдромом характеристик. Обычно счита-

ется, что экстраверсия (напр., Eysenck и Eysenck, 1975) включает в

себя социабельность, разговорчивость, бодрость, оптимистичность,

уверенность в себе и, помимо всего прочего, интерес к внешнему

миру, а не внутреннему. Шкала экстраверсии, которая содержит в

себе все эти переменные, будет однородной, потому что они вместе

действительно образуют кластер. Однако, она неизбежно будет ме-

нее однородна и, следовательно, будет иметь меньшую надежность,

чем шкала, построенная по такой составляющей этого фактора, как

социабельность. Хотя, разумеется, последняя как тест экстраверсии

будет, несомненно, менее валидной.

Из этого рассмотрения должно быть ясно, что высокая надежность

по внутренней согласованности может противоречить высокой ва-

лидности тогда, когда измеряемая переменная охватывает широкую

область. Это утверждение, как мы уже видели, никоим образом не

обесценивает роль статистической теории погрешностей измерения,

из которой следует, что для того, чтобы результаты измерения не

зависели от погрешностей, существенно важно добиться высокого

значения надежности. Все зависит от значения истинных показате-

лей и состава генеральной совокупности заданий. Из этого следует,

что тест должен быть сделан настолько внутренне согласованным,

насколько возможно, но только не за счет ограничения содержания

заданий. Следовательно, при конструировании тестов необходимо

иметь четкое представление о заданиях, которые мы собираемся

включить в окончательную версию теста (в том, что касается их

содержания), а не просто отбирать из множества заданий те, которые

обеспечивают наибольшее значение надежности. В противном слу-

чае мы создадим тесты ложных особенностей (bloated specifics) (Cat-

tell, 1973). Таким образом, можно заключить, как это и предполага-

 

ется в нашей модели погрешностей измерения, что надежность явля-

ется существенной характеристикой, но не главной.

 

Источники неудовлетворительной надежности

 

Теперь мы должны обратиться к одному важному вопросу, с кото-

рым теория погрешностей измерения сталкивается, однако на реше-

ние которого она не направлена - к вопросу об источниках неудов-

летворительной надежности. Этот вопрос имеет огромное значение

для практики разработки тестов, вероятно даже большее, чем для

теории, поскольку если эти источники нам известны, то становится

возможным, по крайней мере в некоторых случаях, устранить их

влияние при помощи процедур конструирования тестов.

(1) Субъективное оценивание. Субъективное оценивание являет-

ся общим источником ошибок. При таком оценивании допускаются

различия между результатами различных экспериментаторов и меж-

ду результатами работы одного и того же экспериментатора в разных

случаях. Очевидно, что это снижает корреляции между заданиями и,

следовательно, резко уменьшает значение коэффициента а. Очевид-

ным решением этой проблемы будет использование только тех типов

заданий, результаты выполнения которых могут быть обработаны

объективно. При использовании таких заданий источником неудов-

летворительной надежности может стать только случайная ошибка

при подсчетах. Все полезные типы заданий для разных тестов уже

обсуждались в главах 2-4.

(2) Угадывание. Эта проблема обсуждалось уже в главе 2 (стр. 88).

Угадывание ответов испытуемыми действительно снижает надеж-

ность тестов. Однако, как указывалось, оно в основном влияет на

задания с ответами типа «истинно-ложно», использование которых

не рекомендуется в любом случае. При большом количестве заданий

влиянием угадывания вообще можно пренебречь.

(3) Понятные задания. Как указывалось в главе 3, использование

понятных, недвусмысленных заданий улучшает надежность лично-

стных тестов (стр. 97).

(4) Величина теста. Как было показано в главе 1 (стр. 36), чем

длиннее тест, тем он надежнее. Для удовлетворительной надежности

обычно достаточно двадцати заданий.

(5) Инструкции к тесту. Инструкции к тесту должны быть не-

двусмысленными и понятными. Неоднозначные инструкции приво-

дят к неудовлетворительной надежности. При помощи инструкций

можно легко изменять уровень трудности заданий. Например, с ин-

струкцией «составьте эту фигуру из четырех элементов», задание

выполнить легче, чем с инструкцией «составьте эту фигуру из эле-

 

168

 

ментов», если испытуемым предъявляется шесть элементов. Если

необходимо изменить инструкции, то следует заново провести все

статистические процедуры.

(6) Неудовлетворительная ретестовая надежность. Nunnally

( 1978) проводит различия между ошибками, встречающимися в рам-

ках проведения одного теста, и ошибками, появляющимися при тес-

тированиях, проведенных через определенный промежуток времени;

последние являются источником неудовлетворительной ретестовой

надежности. Очевидно, что здесь важными факторами являются из-

менения в условиях тестирования, а также вариации в самочувствии

обследуемых. Могут сыграть роль как субъективность оценивания

показателей, так и реальные различия между заданиями, если ис-

пользуются параллельные формы теста. Нельзя путать реальные

изменения в выраженности измеряемой переменной с неудовлетво-

рительной надежностью или погрешностью измерения.

(7) Другие источники ошибок. Другие источники ошибок при

измерениях исходят от испытуемых, а не от заданий теста. Достаточ-

но лишь упомянуть о них. Испытуемый может почувствовать себя

нехорошо в процессе работы над тестом, так что его производитель-

ность ухудшится. Для некоторых может быть слишком жарко или

слишком холодно в помещении. Испытуемые могут ошибиться в фор-

ме задания и, следовательно, указать неверные ответы, или они мо-

гут перевернуть две страницы одновременно, и таким образом про-

пустят ряд вопросов. Могут проявиться усталость, скука и повлиять

на результаты выполнения последних заданий. Очевидно, что суще-

ствует большое количество таких возможных причин ошибок.

Таковы основные источники ошибок в тестах, снижающие их

надежность.

 

Выборка испытуемых для изучения надежности

 

Все выводы, которые могут быть сделаны на основании надежно-

сти теста об отношении показателей теста к истинным показателям,

предполагают, конечно, что значения корреляций или дисперсий в

уравнениях являются точными. Истинно это или нет, зависит от

подбора адекватной выборки испытуемых в исследованиях надежно-

сти.

Решающее значение при формировании такой выборки имеют две

переменные.

 

Объем выборки

 

Поскольку, как и любая другая статистическая величина, стан-

дартная погрешность коэффициента корреляции связана с объемом

 

169

 

выборки, на которой она была получена, то вполне естественно, что

должны использоваться большие выборки, чтобы минимизировать

погрешность такого рода. Решение вопроса о том, каков минималь-

ный объем выборки, позволяющий пренебречь этим источником по-

грешности, является до некоторой степени произвольным. GuiSford

(1956), обсуждая этот момент по отношению к факторному анализу,

предполагает в качестве минимума 200 испытуемых. Nunnally

(1978), несколько более строго, говорит о 300. Автор этой книги

исследовал стандартные погрешности корреляций при указанных

объемах выборки и пришел к выводу, что с выборкой из 200 испыту-

емых этот источник погрешностей уже можно не принимать в расчет.

Таким образом, рекомендуется, чтобы исследования надежности те-

стов выполнялись на выборках с объемом не менее 200, хотя и жела-

тельны большие объемы. Для точности вычислений по формуле К-

R20, в которой используется процент от количества испытуемых,

давших ключевые ответы, необходимы большие выборки, и 200 - это

в данном случае, конечно, лишь желательный минимум.

 

Состав выборки

 

Однако, даже более важным, чем объем выборки, является ее

состав. Большая, но несоответствующая по составу, выборка может

дать нам полностью ошибочные значения надежности.

Во-первых, существенно, чтобы выборка отражала ту категорию

лиц (популяцию), для которой предназначен тест. Если мы разраба-

тываем тест для высококвалифицированных работников, то показа-

тели надежности должны быть получены именно на этой специали-

зированной выборке. Если тест предназначен для обычных граждан,

то наша выборка должна отражать данную категорию населения.

Аналогично, надежность теста, разработанного для нужд психиат-

рии, должна быть показана на соответствующих пациентах. Не име-

ет смысла доказывать, что тест для испытуемых с отклонениями от

нормы надежен, например, на выборке из школьников.

Для теста, предназначенного к использованию в разных группах,

часто полезно показать, что он надежен для каждой группы в отдель-

ности. Здесь допустимы объемы выборок ниже 200. Например, если

показана устойчивая, высокая надежность для выборок из 100 сту-

дентов, ЮОбывших пациентов психиатрической клиники и 100 шко-

льных учителей, тогда мы можембыть уверены, чтоонбудетнадежен

в этих группах. Обратите внимание, что одна конкретная выборка из

300 испытуемых нс была бы репрезентативной для каждой из этих

групп.

 

С точки зрения надежности тестирования, нет необходимости в

столь же тщательной комплектации выборок, как при стандартиза-

ЦЕИ (см. главу 8). Так, нет необходимости в том, чтобы выборка точно

отражала разнообразные параметры генеральной совокупности (все-

го населения). Однако, это не должны быть только студенты или

только почтовые служащие или лица из какой-либо другой особой

группы, которые, как это случается, могли быть протестированы.

Причина, по которой выборки должны отражать ту категорию

лиц, для которой разрабатывается тест, состоит в том, что для раз-

личных особых групп значение корреляций между заданиями могут

изменяться, как и дисперсии заданий. Так, если мы опять рассмотрим

формулу K-R20 (1.8)- особый случай коэффициента О. для дихото-

мических заданий:

 

k

k-l

 

PQ

 

 

(1.8)

 

то можем увидеть, что если изменяется дисперсия (О у), то изменяет-

ся и надежность. Таким образом, в случае теста способностей, если

мы дадим его испытуемым, для которых он будет слишком легким

или слишком трудным, дисперсия будет незначительной (все резуль-

таты теста будут либо правильными, либо неправильными). Анало-

гично, в зависимости от выборки, Р (доля правильных ответов) и,

следовательно, Q (Р ~ 1) будут различаться. Так, если мы предло-

жим тест, созданный для различения выраженности невротических

симптомов, тем испытуемым, которые не имеют отклонений от нор-

мы, значение Р будет низким, Q - высоким, а дисперсия - незна-

чительной, что и происходит с тестом ММР1 на выборках из нормаль-

ных испытуемых.

 

Выводы

 

Таким образом, существенно, чтобы надежность теста вычисля-

лась на релевантных выборках адекватного объема.

 

Вычисление коэффициентов надежности

 

В этом разделе будут описаны шаги, необходимые для вычисления

различных коэффициентов надежности, обсуждавшихся ранее.

 

Коэффициент а

 

Не может быть никакого сомнения в том, что коэффициент о. -

это наиболее эффективное средство измерения надежности примени-

тельно к классической модели погрешностей измерения, и s идеаль-

 

171

 

ных обстоятельствах (при наличии достаточного времени и средств)

он всегда должен быть рассчитан. Формула (1.7):

 

1 -

 

Scr?

 

 

(1.7)

 

где k - это количество заданий, О у - квадрат стандартного от-

клонения для всего теста, S(7?- сумма квадратов стандартных

отклонений для заданий.

 

Для дихотомических заданий может быть использована формула

K-R20 :

 

где «LPQ=0 и Р - доля испытуемых, давших ключевые

ответы на задания, aQ=l -Р.

 

ПРОЦЕДУРЫ ВЫЧИСЛЕНИЯ ПО ФОРМУЛЕ K-R20 ДЛЯ ТЕ-

СТА Y (ВЫЧИСЛЕНИЕ 5.1)

(1) Вычислите дисперсию для показателей теста. Это дает нам

 

.

 

(2) Вычислите долю испытуемых, давших ключевые ответы для

каждого задания. Это дает нам значение Р для каждого задания.

(3) Для каждого задания вычтите Р из 1. Это дает нам Q.

(4) Для каждого задания перемножьте Р и Q. Это дает нам PQ.

(5) Просуммируйте РОдля всех заданий: Т. PQ.

(6) Затем легко может быть применена формула K-R20, где k -

количество заданий.

 

В справочнике Л.Ф.Бурлачук, С.М.Морозов (1989) в формуле Кьюдера-Ричард-

сона этот коэффициент Р назван индексом трудности, выраженным в виде доли :

/ - NilN , где NI - количество испытуемых, правильно выполнивших задание;

N - общее количество испытуемых. В данной книге правило для вычисления Р

нигде явно не задано (аналогично кратко формула K-R20 приведена и в гл. 1 ). В

гл. 6 указано: P~NI/N , - но в формуле для точечно-бисериальной корреляции.

Впрочем, это не столь существенно, так как в обеих формулах используется про-

изведение PQ, асами значения сомножителей: Р~ 1 -NI/N, wQ~ 1-P~Ni/N

, или J»« NI/N , Q~ I-P ~ I- NI/N ,- на значение произведения не влияют

(Прим.перев.)

Здесь Р-1-NI/N.

 

172

 

ПРОЦЕДУРЫ ВЫЧИСЛЕНИЯ ДЛЯ КОЭФФИЦИЕНТА а (ВЫ-

ЧИСЛЕНИЕ 5.2)

(1) Вычислите дисперсию для показателей теста. Это дает нам

 

.

 

(2) Вычислите дисперсию для каждого задания.

(3) Просуммируйте дисперсии для заданий. Это дает нам lJi .

Формула для вычисление дисперсии:

 

 

где х - отклонение каждого показателя от среднего значения.

 

На практике проще работать непосредственно с необработанными

(«сырыми») показателями, и формула может быть записана:

 

-

 

где Х - необработанный показатель.

 

Вычисление надежности теста при расщеплении

его пополам

 

Надежность теста при расщеплении изменяется в зависимости от

того конкретного разбиения заданий, которое мы произвели. Nun-

nally (1978) утверждает, что ее следует рассматривать как оценку

коэффициента а, а в дихотомическом случае мы должны, следова-

тельно, всегда использовать формулу K-R20. Однако при этом упу-

щен один важный момент. Формула для надежности при расщепле-

нии теста пополам гораздо более проста и удобна в вычислениях, чем

K-R20. Более того, судя по опыту разработки тестов автором данной

книги, различие между K-R20 и надежностью при расщеплении была

несущественной, не имевшей никакого значения для практического

конструирования тестов. Я оправдываю ее использование только

лишь когда у вас нет никакой компьютерной программы для вычис-

ления коэффициента О. , а в процессе конструирования теста требу-

ется быстрая оценка его надежности, чтобы убедиться, что все идет

хорошо. При наличии недорогих, эффективных средств для вычисле-

ний (имеются в виду компьютеры) не имеет смысла использовать

значение надежности при расщеплении теста пополам, кроме случая

быстрой оценки надежности теста.

 

173

 

ПРОЦЕДУРЫ ВЫЧИСЛЕНИЯ НАДЕЖНОСТИ ПРИ РАСЩЕ-

ПЛЕНИИ ТЕСТА ПОПОЛАМ. ПЕРВАЯ ПОЛОВИНА ПО СРАВНЕ-

НИЮ СО ВТОРОЙ ПОЛОВИНОЙ (ВЫЧИСЛЕНИЕ 5.3)

( 1 ) Для каждого испытуемого вычислите его показатель по первой

половине теста: Х.

(2) Для каждого испытуемого вычислите его показатель по второй

половине теста: Y.

(3) Вычислите корреляцию между Х и Y .

ПРИМЕЧАНИЕ. Корреляция между Х и Y вычисляется по формуле:

 

2ху-(2х)(2г)

« Nx-xf V/2y»-(Sy)

где N - количество испытуемых, Х - показатели по тесту 1, Y - показатели по

тесту 2.

 

(4) Пересчитайте результирующую корреляцию, значение на-

дежности, в зависимости от величины частей теста по формуле Спир-

мена-Брауна (1.6):

 

2 ry

 

«J , - __________________У

 

kk - ] _i_ -

I i Гху

 

Это дает нам значение надежности при расщеплении теста попо-

лам (скорректированное по величине полученных частей теста).

 

ПРОЦЕДУРЫ ВЫЧИСЛЕНИЯ НАДЕЖНОСТИ ПРИ РАСЩЕ-

ПЛЕНИИ ТЕСТА ПОПОЛАМ. НАДЕЖНОСТЬ ДЛЯ ЧЕТНЫХ-

НЕЧЕТНЫХ ЗАДАНИЙ (ВЫЧИСЛЕНИЕ 5.4)

( 1 ) Для каждого испытуемого вычислите его показатель по зада-

ниям теста с четными номерами: Х .

(2) Для каждого испытуемого вычислите его показатель по зада-

ниям теста с нечетными номерами: Y.

(3) Вычислите корреляцию между Х и Y .

(4) Пересчитайте результирующую корреляцию, значение на-

дежности в зависимости от величины частей теста по формуле Спир-

мена-Брауна (1.6):

 

2rxy

 

Это дает нам значение надежности при расщеплении теста попо-

лам (скорректированное по величине полученных частей теста).

 

174

 

Метод дисперсионного анализа по Хойту

 

Hoyt (1941) использовал для оценки надежности дисперсионный

анализ. Как указывает Guilford (1956), Хойт рассматривает ответы

на задания как двухфакторный анализ дисперсии без репликации.

Гилфорд утверждает, что алгебраически это идентично формуле

K-R20. Следовательно, это означает, что такой метод идентичен

также применению коэффициента о. (частным случаем которого яв-

ляется формула K-R20). Метод дисперсионного анализа Хойта заслу-

живает рассмотрения как альтернативный для коэффициента О., если

важна простота вычислений.

 

ФОРМУЛА ХОЙТА

 

rft = 1

 

Ve-Vr

 

Ve

 

где Vr - это дисперсия остатка от суммы квадратов, а Ve - это

дисперсия для испытуемых.

 

ФОРМУЛА ДЛЯ СУММЫ КВАДРАТОВ

( 1 ) Сумма квадратов для испытуемых равна:

 

Su=

 

Xt

 

Xt)

 

nN

 

где Xt - общий показатель для каждого испытуемого, п - коли-

чество заданий теста, N - количество испытуемых.

 

(2) Сумма квадратов для заданий равна:

S )2

 

di

 

 

nN

 

где R{ - количество правильных ответов для задания i.

(3) Общая сумма квадратов:

 

у2 _ (Ri) (s Wi)

- )+i)

 

где Wi - количество неправильных ответов на задание / .

(4) Остаток суммы квадратов S Хг равен (3) - (1) - (2).

 

СТЕПЕНИ СВОБОДЫ

Количество испытуемых N - 1 , количество заданий п - 1 ,

остаток Nn -N- п+1. Дисперсии равны суммам квадратов,

деленным на степени свободы.

 

ПРОЦЕДУРЫ ВЫЧИСЛЕНИЯ ПО ФОРМУЛЕ ХОЙТА ( ВЫ-

ЧИСЛЕНИЕ 5.5)

( 1 ) Возведитв квадрат и просуммируйте показатели для каждого

 

испытуемого: S Xi .

(2) Разделите полученное значение на количество заданий:

 

S

 

(3) Просуммируйте эти показатели для всех испытуемых и возве-

дите общую сумму в квадрат: (S Х() .

(4) Перемножьте количество испытуемых и количество заданий и

разделите на это число результат п. (3):

 

ГУ У

nN

 

(5) Вычтите (4) из (2):

 

S

 

S)

nN

 

(6) Разделите (5) на N-1 (степени свободы для испытуемых), то

есть на количество испытуемых минус 1. Это дает нам дисперсию для

испытуемых: Vg.

 

Дисперсия для заданий:

(7) Вычислите количество правильных ответов для каждого зада-

ния, возведите в квадрат и просуммируйте: S Ri .

(8) Разделите полученное значение на количество испытуемых:

 

iRi

 

(9) Из (8) вычтите (4):

Z

 

)

nN

 

(10) Разделите (9) на (п-1), то есть на количество заданий

минус 1. Это дает нам дисперсию для заданий (items): Vi .

 

Общая сумма квадратов:

(II) Просуммируйте количество правильных ответов для всех

заданий: (S Ri).

(12) Просуммируйте количество неправильных ответов для всех

заданий: (S Щ). W: N - R,

(13) Перемножьте (11)и(12).

(14) Сложите (II) и (12).

(15) Деление (13) на (14) дает общую сумму квадратов.

 

Сумма квадратов для остатка:

(16) Вычтите (5) плюс (9) из (15).

 

Остаток дисперсии:

(17) Разделите (16) на Nn-N-п + / (степени свободы):

 

Ретестовая надежность

 

Как уже говорилось, если нам нужно удостовериться в значении

некоторого показателя, то оно должно оставаться неизменным при

измерении переменной в двух случаях (предполагая, что сама пере-

менная со временем не изменилась).

Существует два метода измерения ретестовой надежности. Пер-

вый состоит в предъявлении двух взаимозаменяемых форм данного

теста одним и тем же испытуемым. Для этого метода существует

проблема в том, что чрезвычайно трудно подобрать два набора зада-

ний, которые были бы действительно эквивалентны. В идеале, каж-

дое задание одной формы должно было бы иметь некоторый эквива-

лент в другой форме, с идентичными характеристиками задания, а

следовательно, такой же должна быть доля испытуемых из популя-

ции, дающих ключевые ответы на это задание, и аналогичными дол-

жны быть корреляция с общим показателем и содержание заданий.

Это трудно достижимо, и корреляция между параллельными форма-

ми, предъявляемыми одновременно, редко превышает 0.9, а часто

она значительно меньше, так что правомочность использования тер-

мина «параллельный» вызываетсомнения. Темне менее, чембольше

известно о том, что же измеряется, тем проще сконструировать па-

раллельные формы теста.

 

Обычно ретестовая надежность отделяется от надежности параллельных форм (см.

А.Анастази, 1982; Л.Ф.Бурлачук, С.М.Морозов, 1989) (Прим.ред.)

 

177

 

Второй подход заключается в том, что испытуемым предъявляется

один и тот же тест при двух тестированиях. Nunnally (1978) утверж-

дает, что недостатком этого приема является то, что испытуемые

помнят свои ответы, а в случае тестов способностей это может значи-

тельно повлиять на результаты повторного выполнения теста. Одна-

ко, если между повторными тестированиями прошло много времени,

то это влияние незначительно, а когда после первого тестирования

прошел год, то им можно смело пренебречь. Nunnally также утверж-

дает, что ретестовая корреляция в случае с одной формой теста не

удовлетворяет требованиям классической модели погрешностей из-

мерения, поскольку если бы даже между заданиями была нулевая

корреляция, ретестовая надежность может быть высокой. Это, конеч-

но же, верно, но это не означает, что не стоит вычислять ретестовую

надежность. Напротив, она дает ответ на другой вопрос. При помощи

коэффициента а. и ему подобных оценивается согласованность теста.

А ретестовая надежность связана с другой характеристикой теста: с

надежностью его работы по истечении времени. Это является в рав-

ной степени, а в некоторых случаях и более важным, чем согласован-

ность. Идеально согласованное, но дающее необъяснимые колебания

во времени средство измерения не будет полезным. С нашей точки

зрения, для каждого теста существенно, чтобы его ретестовая надеж-

ность была высокой. Если это не так, то он не будет валидным.

 

ВЫЧИСЛИТЕЛЬНЫЕ ПРОЦЕДУРЫ ДЛЯ РЕТЕСТОВОЙ НА-

ДЕЖНОСТИ (ВЫЧИСЛЕНИЕ 5.6)

Параллельные формы данного теста, А и Б:

(1) Вычислите корреляцию между показателями по тесту А и по

тесту Б, где тесты предъявляются в отдельных процедурах тестиро-

вания.

Ретестовая надежность:

(2) Вычислите корреляцию между показателями теста при тести-

ровании А и при тестировании Б. Во избежание искусственно высо-

ких результатов между тестивованиями должен быть интервал по

крайней мере в шесть месяцев

 

Следует учитывать то, что ретестовая надежность может быть невысокой в силу

динамичности измеряемого конструкта. При этом тест остается высоко валидным

(Прим.ред.)

Р.КПпе, настаивая на интервале не менее чем в шесть месяцев, между повторными

тестированиями, выпускает из виду то, что это требование далеко не всегда может

быть удовлетворено. Столь значительного интервала может быть вполне достаточ-

но для того, чтобы произошли изменения в измеряемых поведенческих функциях.

Для изучения по методу ретеста пригодны только тесты, на которые повторное

применение неоказываетзаметного влияния. А.Анастази (1982) отмечает, что для

большинства психологических тестов этот метод неприменим (Прим.ред.)

 

Факторный подход к вычислению надежности

 

В классической модели погрешностей измерения предполагается,

как мы видели в главе 1, что величина надежности теста равна отно-

шению истинной дисперсии к реально полученной дисперсии, и что

дисперсия для теста состоит из истинной дисперсии плюс дисперсия

погрешности. Факторно-аналитический подход к определению на-

дежности основан на тех же предположениях, но, как указывает

Guilford (1956), в нем расчленяется понятие дисперсии истинного

показателя.

 

ФАКТОРНО-АНАЛИТИЧЕСКАЯ МОДЕЛЬ ДИСПЕРСИИ ИС-

ТИННОГО ПОКАЗАТЕЛЯ

Дисперсия истинного показателя состоит из дисперсии общего

фактора плюс дисперсия специфичного фактора. Например, диспер-

сия истинного показателя для группового теста вербального интел-

лекта (group verbal intelligence test) может состоять из дисперсий для

gt, gc и V (это три общих фактора) плюс дисперсия фактора, специ-

фичного для данного конкретного набора заданий. Это означает, что

полная дисперсия теста равна сумме дисперсий для общих факторов

плюс дисперсии специфичных факторов, плюс дисперсия погрешно-

сти. Следуя Guilford (1956), это может быть записано:

 

Of = Оа + Оь + ... + On + 0s + Ое

 

где Of - дисперсия теста, от Оа до 0ц - дисперсии для общих

 

факторов, Оц - дисперсия для специфичного фактора, и (Те-

дисперсия погрешности.

f)

Можно поделить это уравнение на 0( . Тогда мы получим:

 

,2

 

g? - gi , oj

о? о? о?

 

of

 

+ - = 1.00

of

 

Это может быть записано в виде:

=а1 +bi +

 

+ni +sl +ei

 

f)

где a x - доля дисперсии теста, вносимая общим фактором а , и

 

Таким образом, надежность теста равна:

п=1 -е =а1 +bl + ..

179

 

+ni +sl

 

Следовательно, если мы произведем факторный анализ теста,

возведем в квадрат и просуммируем нагрузки его факторов, то мы

получим его надежность, поскольку нагрузки факторов представля-

ют корреляцию теста с общими или специфичными факторами. Из

сказанного ясно: факторный подход к пониманию дисперсии теста -

это просто расширение классической модели погрешностей измере-

ния, и из этого следует, что надежность (по внутренней согласован-

ности) может быть оценена по общности теста, хотя, строго говоря,

общность определяется как дисперсия общих факторов и не должна

включать в себя дисперсии специфичных факторов, как надежность.

 

ВЫЧИСЛЕНИЕ НАДЕЖНОСТИ ПРИ ПОМОЩИ ФАКТОР-

НОГО АНАЛИЗА (ВЫЧИСЛЕНИЕ 5.7)

( 1 ) Выполните факторный анализ данного теста с настолько боль-

шим количеством разнообразных переменных, насколько возможно.

(2) Возведите в квадрат и просуммируйте нагрузки факторов для

данного теста.

 

Этот метод установления надежности сильно зависит от других

переменных, с которыми факторизуется данный тест. Так, если бы у

нас был тест математических способностей, и мы факторизовали бы

его совместно с личностными и мотивационными переменными, то

почти не было бы факторов, которые данный тест мог бы нагрузить.

Оценка его надежности, основанная на этой выборке переменных,

была бы неадекватной. С другой стороны, если бы этот тест фактори-

зовался совместно с двумя или тремя тестами всех основных факто-

ров способностей, так чтобы каждый тест мог нагружать соответству-

ющие ему факторы, тогда этот метод был бы, по всей вероятности,

весьма точным. Понятно, что он больше подходит для оценки надеж-

ности уже факторизованного теста (который должен нагружать толь-

ко один или два общих фактора и специфичный фактор), чем для

тестов на основании критериально-ключевых признаков, которые

могут измерять широкий набор разнообразных факторов, некоторые

из которых могут и не входить в батарею исследуемых факторов.

 

Общность (communality) теста - сумма дисперсий для общих факторов а, Ь, . . .,

п; это та часть полной дисперсии данной переменной, которая обуславливается

общими для нескольких переменными факторами. Вторая часть полной дисперсии

(специфичная дисперсия и дисперсия, обусловленная погрешностью), связанная

с определенной переменной и свойственная только ей, называется характерно-

стью переменной (теста). См.: Я.Окунь (1974) (Прим.перев.)

 

180

 

Заключение

 

Выводы из нашего обсуждения и методики вычислений коэффи-

циентов надежности ясно очерчены и могут послужить кратким ре-

зюме для данной главы о надежности.

( 1 ) Все исследования надежности должны выполняться на боль-

ших (200 или более) и репрезентативных выборках.

(2) Должна быть установлена надежность по внутренней согласо-

ванности, хотя по оговоренным причинам она не обязательно должна

быть такой высокой, как это часто указывается в некоторых учебни-

ках.

 

(3) Очевидно, что для оценки надежности не существует единого

числового показателя. Для всех результатов должны указываться

объем и тип выборки, а также использовавшийся для вычислений

метод.

(4) Когда возможно, должен быть вычислен коэффициент (X или

его упрощенная версия, формула K-R20.

(5) Определение надежности путем расщепления теста должно

рассматриваться как прием для оценки реальной надежности только

в условиях, когда необходимо быстро получить результаты.

(6) Факторизованные оценки надежности должны использоваться

только с факторизованными тестами и тогда, когда есть широкий

набор других переменных.

(7) При слишком быстром проведении тестирования и для тестов,

оказавшихся трудными для испытуемых, коэффициенты внутренней

согласованности могут быть искусственно, необоснованно завышен-

ными.

(8) Должна быть оценена надежность параллельных форм (если

такие формы существуют).

(9) Должна быть вычислена ретестовая надежность. Интервал

времени между повторными тестированиями должен быть не менее

шести месяцев.

(10) Надежность - это важная характеристика теста, однако

следует помнить, что надежность сама по себе ценности не представ-

ляет. Ее ценность состоит в том, что часто она необходима для дости-

жения валидности. Однако, может случиться так, что тест будет

почти совершенно надежным, но почти полностью невалидным.

 


Дата добавления: 2018-02-18; просмотров: 594; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!