Глава 7. Вычисление дискриминативности и валидности тестов



 

В вводной главе, посвященной средствам измерения, было указа-

но, что у психометрических тестов есть три характеристики, благо-

даря которым они превосходят другие формы измерений: надеж-

ность, валидность и дискриминативность. Прежде чем переходить к

обсуждению методов достижения валидности, будут рассмотрены

приемы для измерения дискриминативности, поскольку, как и на-

дежность, она может быть получена с известной долей объективнос-

ти. При определении же валидности, хотя и существуют определен-

ные методики, все же присутствует некоторый элемент субъектив-

ности.

 

Дискриминативность

 

Как указывалось в главе 1, потенциально тест может быть гораздо

более дискриминативным, чем другие средства измерения, скажем,

интервью или рейтинги, в которых для обеспечения надежности мо-

жет использоваться не более девяти градаций.

Показатели дискриминативности, как указывает Guilford (1956),

связаны по существу с ранжированием исп-ытуемых. Основной пока-

затель коэффициента дискриминативности, ЙФергюсона (Ferguson,

1949), который был рекомендован для оценивания дискриминатив-

ности тестов, прост в вычислении. Его формула указана ниже. Вво-

дится отношение между показателями любых двух испытуемых: эти

показатели либо равны, либо различны. Общее количество возмож-

ных отношений между парами испытуемых в выборке из N испытуе-

мых равно N (N- 1 )/ 2 . Общее количество отношений равенства

среди этих пар:

 

2-2

 

(7.1)

 

где/; - частота встречаемости каждого показателя, следователь-

но, S=.

Общее количество отношений различия среди этих пар:

 

(2)-

 

(7.2)

 

и (7.1) + (7.2) = (YV +N)/2, поскольку это единственные воз-

можные отношения для этих пар. Очевидно, что наибольшее количе-

 

203

 

ство отношений различия - максимум дискриминативности - дос-

тигается тогда, когда все показатели имеют одинаковую частоту. Это

происходит, когда частота встречаемости каждого показателя равна

N/(n +!), где п - количество заданий теста.

Это основные сведения из статистики, на которых основана фор-

мула Фергюсона. Коэффициент д Ферпосона - это отношение меж-

ду показателем дискриминативности, полученным для некоторого

теста, и максимальным значением дискриминативности, которое мо-

жет обеспечить такой тест. Формула выглядит следующим образом:

 

л- -

 

- IN/(п +1)

 

Она может быть упрощена:

 

_ (п+1) -2/)

 

где N - количество испытуемых, п - количество заданий,// -

частота встречаемости каждого показателя.

 

д = 0, когда все испытуемые получили одинаковые показатели (то

есть когда нет дискриминативности), и равно 1 при равномерном

(прямоугольном) распределении.

 

ШАГИ ВЫЧИСЛЕНИЙ ДЛЯ и ФЕРГЮСОНА (ВЫЧИСЛЕНИЕ

 

7.1)

(1) Подсчитайте, как часто встречаются значения показателей

для данного теста.

(2) Возведите эти числа в квадрат и просуммируйте: S .

(3) Прибавьте 1 к количеству заданий: п + 1 .

 

(4) Возведите в квадрат количество испытуемых: N .

 

(5) Помножьте количество заданий на результат шага (4): п N .

(6) Это дает нам все элементы формулы. Теперь можно их подста-

вить в формулу:

 

д _ (3) x[(4j -(2)] _ (п +1) (-2/)

-( - nN

 

Разработчик тестов должен учитывать некоторые характеристики

этого коэффициента, обсуждавшиеся Ferguson (1949). Поскольку

для равномерного (прямоугольного) распределения (наиболее дис-

криминативного) необходимы задания, в которых бы наиболее полно

 

204

 

были реализованы все возможные проявления измеряемого свойства,

это означает, что дискриминативность до некоторой степени проти-

востоит надежности, так как использование заданий с широким пе-

речнем возможных проявлений измеряемого свойства уменьшает

взаимную корреляцию между заданиями. Конечно, как утверждает

Ферпосон, распределение показателей, которое дает тест - это фун-

кция трудности заданий и их взаимной коррелированности, а это

влияет не только на надежность, но также и на дискриминативность,

которая равна 0,86 в том случае, когда слишком мало простых и

слишком мало трудных заданий; 0,90 для биномиального и 0,93 для

бимодального распределений. Из всего этого следует, что при конст-

руировании теста то, до какой степени нашей целью является дости-

жение максимальной надежности или максимальной дискримина-

тивности, зависит от назначения теста.

 

Валидность

 

Когда показатели надежности и дискриминативности соответст-

вующим образом вычислены, то не может быть никаких разночтений

в толковании результатов. В случае с валидностью сделать такие

точные статистические заключения невозможно. Вместо этого долж-

но быть представлено свидетельство в пользу валидности теста. Это

свидетельство трактуется так, чтобы продемонстрировать валид-

ность теста, но такие интерпретации являются в высокой степени

субъективными. В настоящем разделе главы будут изложены лучшие

методы представления такого свидетельства.

В первой главе были полностью описаны различные виды валид-

ности тестов, и в соответствии с ними будут излагаться процедуры

установления валидности.

 

Очевидная валидность

 

Это тривиальный аспект теста, связанный только с тем, какое он

производит впечатление. Если по какой-либо причине тест должен

быть очевидно валидным, то достаточно просто спросить у испытуе-

мых, принимающих участие в процедуре оценки и отбора заданий

для теста, представляется ли он им хорошим средством измерения

данной переменной или нет. Очевидная валидность важна для при-

влечения испытуемых к работу над тестом.

 

Природа этого явления (снижения надежности при высокой дискриминативнос-

ти) сложнее. Подробнее о психометрическом парадоксе см.: БурлачукЛ.Ф. (1989)

(Прим.ред.)

 

205

 

Конкурентная валидность

 

Этот показатель получают из корреляций (или факторных нагру-

зок) с другими тестами, которые предназначены для измерения той

же переменной. Для эффективного изучения конкурентной валид-

ности существует несколько правил, представленных ниже, хотя они

ничем не отличаются от тех, которые имеют место в любой области

научной психологии.

 

(1) Убедитесь, что выборка испытуемых отражает ту категорию

лиц (популяцию), для которой данный тест предназначен, особенно

по отношению к полу, возрасту, уровню образования и социальному

положению. Тесты, разработанные для психиатрических целей, дол-

жны предъявляться соответствующим группам пациентов.

(2) Убедитесь, что выборки достаточно велики для получения

статистически значимых корреляций, могущих быть затем использо-

ванными в факторном анализе. Минимальное количество испытуе-

мых - 200.

(3) Используйте настолько широкое разнообразие других тестов

данной переменной, насколько возможно - чтобы убедиться, что

корреляция получена благодаря близости групповых факторов, а не

специфических. Например, если вы пытаетесь тестом измерить «,

то используйте вербальные и невербальные средства измерения «g,

созданные различными авторами.

(4) Если используется факторный анализ, убедитесь, что получе-

на простая структура.

(5) При обсуждении результатов четко объясняйте, какие корре-

ляции и нагрузки факторов можно ожидать. Это позволяет читателю

судить о психологическом значении этих результатов.

Исследования конкурентной валидности, удовлетворяющие этим

критериям, должны дать недвусмысленное свидетельство валиднос-

ти, которое не может быть методологически опровергнуто.

 

Прогностическая валидность

 

Здесь основной проблемой является выделение критерия предска-

зания. Хотя это представляет трудность всегда, все же степень труд-

ности изменяется в зависимости от типа теста. Обычно для тестов

способностей и интересов прогностическую валидность продемон-

стрировать легче, чем для личностных тестов. В общем, правила,

которым желательно следовать, подобны приведенным для конку-

рентной валидности.

 

(1) Что касается комплектования выборок испытуемых, то все

предыдущие замечания остаются в силе.

 

206

 

(2) Существенно важен размер выборки. Если используются мно-

жественные корреляции с акцентированием внимания на весовых

коэффициентах ft (индексе значимости данного теста в прогнозе по

данному критерию), то выборка должна быть расщеплена или под-

вергнута процедуре кросс-валидизации, так как значения весовых

коэффициентов/? могут изменяться от исследования к исследованию.

(3) При использовании факторного анализа должна быть получе-

на простая структура.

(4) Должна быть показана надежность используемого критерия.

Последняя процедура особенно важна, поскольку неудовлетвори-

тельная надежность измерений снижает корреляции.

 

УМЕНЬШЕНИЕ КОРРЕЛЯЦИЙ ВСЛЕДСТВИЕ НЕУДОВЛЕТ-

ВОРИТЕЛЬНОЙ НАДЕЖНОСТИ

Исходя из классической модели погрешностей измерений может

быть показано, что можно оценить, какой была бы корреляция между

двумя тестами, если бы для них было получено высокое значение

коэффициента надежности. Эта оценка может быть вычислена по

формуле (вывод этой формулы см. в Nunnally, 1978):

 

- - «а

V/-11 n.-i

где га - скорректированное значение коэффициента корреля-

ции, П1 - эмпирическое значение коэффициента корреляция, гц -

значение надежности для переменной 1, /-22 - значение надежности

для переменной 2.

 

Эта формула применяется для корректировки при неудовлетвори-

тельной надежности по обеим переменным. Если необходимо прове-

сти коррекцию только при неудовлетворительной надежности кри-

терия, то тогда в знаменатель подставляется только значение надеж-

ности для критерия.

 

ШАГИ ВЫЧИСЛЕНИЯ КОРРЕКЦИИ ПРИ НЕУДОВЛЕТВО-

РИТЕЛЬНОЙ НАДЕЖНОСТИ

Эта формула настолько проста, что, вероятно, нет необходимости

раскладывать ее на шаги. Коротко:

(1) Вычислите произведение коэффициентов надежности для

двух тестов.

(2) Возьмите квадратный корень: уГип

(3) Разделите полученную корреляцию валидизируемого теста и

критерия на результат, полученный на шаге (2).

 

207

 

ИСПОЛЬЗОВАНИЕ КОРРЕКЦИИ

С моей точки зрения, эта формула коррекции по целому ряду

причин должна использоваться с большой осторожностью. Во-пер-

вых, в практическом применении тестов валидизируемый тест и его

критерий имеют только одно данное значение надежности: такая

коррекция не изменяет этот факт, как бы это ни было неприятно.

Значительно лучше сразу получить надежные тест и критерий, чем

применять коррекцию вследствие неудовлетворительной надежнос-

ти.

Однако, в теоретических исследованиях, где основной интерес

представляет отношение между двумя переменными, скорректиро-

ванная оценка может оказаться более лучшим показателем, чем

значение, заниженное вследствие неудовлетворительной надежнос-

ти. Тем не менее, всегда есть вероятность того, что скорректирован-

ными оценками мы введем себя в заблуждение. По этой причине

скорректированных оценок корреляций следует избегать как тако-

вых. Иноща, однако, имеет смысл привести их рядом с исходными

показателями, в зависимости от цели и характера исследований.

Использование их без указания того, что они являются следствием

коррекции, и без предоставления исходных значений будет большой

ошибкой.

 

Содержательная валидность

 

Содержательная валидность, как указывалось в главе 1, представ-

ляет интерес в основном при конструировании тестов, когда должен

быть точно определен материал, используемый для тестирования.

Очевидными примерами может быть содержание тестов математиче-

ских, музыкальных способностей, словарного запаса и знаний грам-

матики. В терминах классической модели измерений проблема со-

держательной валидности возникает при формировании выборок за-

даний из генеральной совокупности заданий. На практике же случай-

ный выбор заданий для тестирования словарного запаса, вероятно,

вряд ли даст эффективный тест, поскольку не все слова в словаре

имеют одинаковую важность. Даже случайный подбор из множества

наиболее употребительных слов не будет адекватным, так как суще-

ствуют ограничения на слова, которые мы хотим использовать в

тестировании (в зависимости от цели теста). Так, тест словарного

запаса для зарубежных врачей будет значительно отличаться от тес-

та для, скажем, зарубежных педагогов.

На практике подтверждение содержательной валидности может

быть получено только следующим образом. Подбираются эксперты в

данной области, которые указывают, какой материал они считают

 

208

 

существенно важным; затем этот материал преобразуется в задания

теста, и затем опять направляется экспертам, чтобы посмотреть, не

обнаружат ли они каких-либо грубых упущений или заданий, дубли-

рующих друг друга.

В случае личностных тестов содержательная валидность имеет

меньшее значение, хотя автор настоящей книги при конструирова-

нии тестов оральных черт личности, OPQ и OOQ (Kline, 1979), попы-

тался продемонстрировать содержательную валидность при помощи

перечисления всех психоаналитических описаний «оральной лич-

ности» в сокращенной форме, например, «зависимый», «прилипу-

чий, как пиявка», а затем преобразования их в задания теста.

Cattel (напр. 1946), при конструировании теста 16 PF, также

попытался обеспечить содержательную валидность следующим обра-

зом: (1) просмотром словаря в поисках всех терминов, описывающих

поведение; (2) избавлением от тех терминов, которые эксперты со-

чли синонимами; (3) ранжированием испытуемых по остающимся

описаниям и выделением кластеров; (4) формулированием заданий,

предназначенных для выявления этих кластеров. Это был тщательно

разработанный метод исследования всей генеральной совокупности

переменных и попытки обеспечить содержательную валидность. Ус-

пех этого предприятия является предметом споров (например, Cattel

и Kline, 1977; Howarth, 1976). Нет необходимости говорить, что по-

добная процедура может быть выполнена только при наличии огром-

ных (денежных и временных) ресурсов, и не рекомендуется обычно-

му разработчику тестов. Обычно, если только в литературе нет ясных

описаний, при конструировании тестов личности и мотивов рассмот-

рение содержательной валидности неуместно.

 

ПРАКТИЧЕСКИЕ ПРОЦЕДУРЫ ДЛЯ ОПРЕДЕЛЕНИЯ СО-

ДЕРЖАТЕЛЬНОЙ ВАЛИДНОСТИ

Тесты достижений:

( 1 ) Укажите точно категорию лиц, для которых этот тест предназ-

начен.

(2) Определите навыки, подлежащие тестированию, возможно

после их анализа.

(3) Передайте этот список экспертам в данной области (учителям

и т.п.) для проверки, нет ли упущений.

(4) Преобразуйте этот список в перечень заданий, используя,

когда это возможно, равное количество заданий на каждый навык.

(5) Представьте эти задания экспертам для проверки.

 

209

 

(6) Подвергните задания обычным процедурам конструирования

тестов. В результате должен быть получен содержательно валидный

тест.

 

Другие тесты:

(1) Если существует литература с описаниями, просмотрите ее и

преобразуйте описания в особенности поведения.

(2) Для каждой упомянутой особенности поведения сформули-

руйте ряд заданий.

(3) Когда литература с описаниями отсутствует, получите описа-

ния поведения от грамотных специалистов; например, для изучения

зависимости инфантильных пациентов опросите их лечащих врачей

и медицинских сестер с целью получить описание зависимого пове-

дения их пациентов.

(4) Как и на шаге (2) выше, преобразуйте описания в задания.

(5) Подвергните задания теста обычным процедурам конструиро-

вания теста.

 

Критериально-ориентированные тесты

(criterion-referenced tests)

 

В области тестирования достижений и успехов в учебе, как для

детей, так и для взрослых, например, после специальных курсов

обучения, значительное место отводится тому, что зачастую пред-

ставляется как совершенно иной тип теста - критериально-ориен-

тированный тест. Полное обсуждение этой темы вы найдете у Berk

(1980), а также у Glaser (1963).

Сторонники критериально-ориентированных тестов противопо-

ставляют их тестам, ориентированным на нормы, на следующих ос-

нованиях. При использовании тестов, ориентированных на нормы,

сравниваются навыки и способности испытуемых, а в критериально-

ориентированных тестах указываются и определяются цели обучаю-

щего курса, которые закладываются в тест формулированием зада-

ний, измеряющих степень достижения этих целей.

Существует два момента, о которых стоит упомянуть. Критери-

ально-ориентированные тесты применимы только в тех случаях, ког-

да цели обучения могут быть ясно и недвусмысленно определены.

Во-вторых, и именно поэтому эта тема включена в данное рассмот-

рение, критериально-ориентированные тесты - это тесты, спроек-

тированные с целью максимизации содержательной валидности, об-

суждавшейся в предыдущем разделе. Принципиально же критери-

ально-ориентированные тесты ничем не отличаются от тестов, ори-

ентированных на нормы, хотя это верно, что для них не нужны

нормы. Что в этих тестах важно - так это просто то, какую часть

210

 

теста испытуемый выполнит правильно. Разработчиков же тестов,

ориентированных на нормы, не интересует сравнительная успеш-

ность; все, что они хотят знать - справился ли отдельный испытуе-

мый с данным материалом или нет.

Это различие, очевидно, не является существенным. Так, содер-

жательно валидный тест является по существу критериально-ориен-

тированным тестом с нормами. Аналогично, если критериально-ори-

ентированный тест стандартизован, то он становится содержательно-

валидным тестом, опирающимся на нормы.

Как утверждалось в случае содержательной валидности, сущест-

венная особенность при конструировании критериально-ориентиро-

ванных тестов состоит в определении целей курса обучения, так,

чтобы могли быть сформулированы задания, содержащие эти цели.

Во многих обучающих курсах для взрослых цели весьма конкретны,

и применение критериально-ориентированных тестов является оче-

видным могодом. форма заданий зависит от того, что необходимо

тестировать, а вопросы, касающиеся формы заданий полностью об-

суждались ранее, в главе по формулированию заданий.

 

Инкрементная и дифференциальная валидность

 

Как указывалось в главе 1, эти виды валидности в основном ис-

пользуются в процедурах профотбора, в которых для прогноза по

некоторому критерию комплектуется батарея тестов.

 

ИНКРЕМЕНТНАЯ ВАЛИДНОСТЬ: ШАГИ ПРОЦЕДУРЫ

( 1 ) Вычислите корреляцию теста с критерием и с другими тестами

батареи.

(2) Если он имеет положительную корреляцию с критерием, но

незначимо коррелирует с другими тестами, то продемонстрирована

инкрементная валидность. Такой тест будет вносить свой вклад в

множественную корреляцию Данной батареи с критерием.

(3) При факторном анализе этот тест должен нагружать тот же

фактор, что и критерий, но не фактор, нагружаемый другими теста-

ми.

 

ДИФФЕРЕНЦИАЛЬНАЯ ВАЛИДНОСТЬ

Для доказательства дифференциальной валидности нет общих

процедур, но если бы мы взяли пример об академической успеваемо-

сти (из главы 1, стр. 28), то дифференциальную валидность можно

было бы показать сравнением ее корреляции с различными академи-

ческими дисциплинами: значения корреляции должны значительно

различаться. Таким образом, в общем для демонстрации дифферен-

 

циальной валидности предполагается различие корреляций с различ-

ными аспектами данного критерия.

 

Конструктная валидность

 

Как уже говорилось, для доказательства конструктной валиднос-

ти привлекается демонстрация психологических характеристик пе-

ременных, измеряемых данным тестом. При этом могут затрагивать-

ся и другие, уже обсуждавшиеся, типы валидности. Общее описание

приведено ниже.

 

ПРОЦЕДУРЫ ОПРЕДЕЛЕНИЯ КОНСТРУКТНОЙ ВАЛИД-

НОСТИ

(1) Перечислите точно гипотезы, касающиеся переменных, с ко-

торыми данный тест должен коррелировать (конкурентная валид-

ность) .

(2) Перечислите точно гипотезы, касающиеся переменных, с ко-

торыми данный тест не должен коррелировать.

(3) Укажите группы, которые должны давать низкие и высокие

показатели по данному тесту.

(4) Сформулируйте гипотезу о месте данного теста в факторном

пространстве. Эта гипотеза подобна гипотезам из выше приведенных

пунктов (1) и (2).

Эти четыре гипотезы должны затем быть проверены на больших

выборках, соответствующим образом сформированных, как указано

в процедурах для установления конкурентной валидности. Специфи-

ческие группы должны быть достаточно большими, не только для

выявления статистически значимых различий, но также такими,

чтобы с уверенностью могли быть сделаны обобщения. В терминах

нашей психометрической модели доказательство конструктной ва-

лидности предполагает демонстрирование того, что генеральная со-

вокупность заданий, из которой отобраны задания для данного теста,

является фактически такой, как мы и надеялись.

 

Выводы

 

Очевидно, что, в отличие от надежности и дискриминативности,

валидность теста не может быть представлена просто в виде одного

коэффициента. Вместо этого валидность теста устанавливается сери-

ями результатов, вид которых обсуждался выше в различных проце-

дурах. Если следовать процедурам, описанным в предыдущих разде-

лах, то результаты исследований не могут быть опровергнуты с точки

зрения методологии. Однако, в исследованиях валидности все зави-

сит от психологических знаний и проницательности разработчика

 

212

 

тестов. Так, тесты, подвергнутые исследованию конкурентной ва-

лидности, могут как пройти, так и не пройти эту проверку, если даже

она будет выполнена в соответствии с хорошо обоснованной методи-

кой. Аналогично, для локализации в факторном пространстве требу-

ется, чтобы в исследование были включены соответствующие пара-

метры этого пространства. Если это не так, то несмотря на тщатель-

ное выполнение процедуры, конструктная валидность показана не

будет.

Хотя доказательство валидности является в некоторой степени

субъективным, серьезные разногласия возникают редко. Это проис-

ходит потому, что если переменная понимается соответствующим

образом, то в большинстве случаев не возникает сомнений, с какими

другими переменными она будет или не будет коррелировать, какое

место она займет в факторном пространстве и какие группы проде-

монстрируют по ней хорошие показатели, а какие нет. Когда же

переменная не понятна, вопрос о валидности не поднимается. В про-

тивном случае, изучение валидности превращается в эксперимен-

тально-описательные исследования, которыми и определяется пере-

менная.

 


Дата добавления: 2018-02-18; просмотров: 1220; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!