Глава 8. Стандартизация тестов



В главе 1 было показано, что одно из преимуществ, которыми

обладают психологические тесты по сравнению с другими видами

измерений, - это то, что они стандартизованы. Следовательно, воз-

можно сравнение показателя некоторого испытуемого с таковыми в

генеральной совокупности или других релевантных группах, что в

конечном счете дает возможность адекватной интерпретации пол-

ученного показателя.

Из сказанного следует, что стандартизация тестов наиболее важ-

на в тех случаях, когда осуществляется явное или неявное сравнение

показателей испытуемых, как, например, при профориентации или

отборе в целях обучения. Нормы также могут быть полезны и в

крупномасштабных скрининговых исследованиях. При использова-

нии психологических тестов в научном исследовании свойств чело-

века - в психометрии индивидуальных различий - нормы не столь

важны. В этом случае удовлетворительными являются и непосредст-

венные, не подвергнутые обработке («сырые») показатели теста. По-

скольку указание норм обычно обязательно для тестов способностей,

наше обсуждение того, как следует проводить стандартизацию теста,

будет касаться, в основном, этой категории тестов.

 

Стандартизация выборки

 

Это определяющий аспект стандартизации: все зависит от выбор-

ки. При формировании выборки следует учитывать две важные пере-

менные: объем и репрезентативность выборки. Выборка должна точ-

но отражать категорию лиц, для которых предназначен тест (конеч-

но, может быть несколько таких категорий и, следовательно, и не-

сколько выборок), а также быть достаточной большой для обеспече-

ния столь малой стандартной погрешности нормативных данных,

чтобы ею можно было пренебречь.

 

Объем выборки

 

Для простого уменьшения значения стандартной погрешности

вполне адекватной будет выборка из 500 испытуемых. Однако, ре-

презентативность выборки не зависит от ее объема. При получении

нормы для общей популяции, например, детей школьного возраста,

необходима выборка объемом около 10 000 испытуемых. Выборка из

столь ограниченной популяции, как укротители львов или факиры,

конечно, не должна быть столь большой. Таким образом, нельзя

сделать никакого утверждения относительно объема выборки безот-

носительно той популяции (категории лиц), из которой она подбира-

 

214

 

ется. И здесь проясняется тот момент, что репрезентативность выбор-

ки является более важной, чем ее размер. Маленькая, но репрезен-

тативная нормативная выборка будет предпочтительнее, чем боль-

шая, но неравномерно представленная. Некоторые примеры, взятые

из реальных тестов, позволят показать очевидность этого замечания,

и также помогут указать разработчикам тестов наилучшие методы

получения стандартизационных выборок.

 

Получение репрезентативной нормативной выборки

 

Ясно, что наиболее неоднородной популяцией является генераль-

ная популяция (все население), а все остальные являются ее подмно-

жествами. По этой причине получить выборку заданного, определен-

ного качества из генеральной популяции - наиболее трудная задача.

В первом примере показана известная попытка сделать это - стан-

дартизация теста интеллекта Лордж-Торндайка (Lorge-Thorndike

Intelligence Test) (Lorge и Thorndike, 1957) для детей.

 

ПРИМЕР 1: ВЫБОРКА ИЗ ГЕНЕРАЛЬНОЙ ПОПУЛЯЦИИ ДЛЯ

ТЕСТА ЛОРДЖ-ТОРНДАЙКА

Так как нормы теста способностей должны быть связаны с возра-

стом, мы будем рассматривать выборки для каждой возрастной груп-

пы.

Возрастные группы> Было выделено двенадцать возрастных

групп, от 6 лет до 17 лет. Это удовлетворительное разделение на

возрастные группы, хотя разделение с интервалом в шесть или даже

в три месяца было бы, вероятно, предпочтительнее. Общее количест-

во испытуемых было 136 000, то есть более, чем 11 000 на каждую

возрастную группу. Очевидно, что статистическая выборочная по-

грешность должна быть практически нулевой.

Репрезентативность выборки. Чтобы устранить неравномерную

представленность, была взята стратифицированная выборка из раз-

ных социальных групп, а основой для стратификации послужили

факторы, которые наиболее связаны с уровнем интеллекта: (1) про-

цент грамотного взрослого населения; (2) пропорция профессиональ-

ных рабочих в популяции; (3) процент домовладельцев и (4) среднее

количество снимающих жилье. Каждая социальная группа была за-

тем классифицирована по этим четырем переменным на «очень вы-

сокий», «высокий», «средний», «низкий» и «очень низкий» уровни.

Затем были протестированы все учащиеся каждого уровня в каждой

социальной группе, и для каждого из этих уровней в каждой группе

были получены отдельные нормы. Фактически, общее количество

 

испытуемых было вычислено для сорока четырех социальных групп

США.

Должно быть очевидным, что эти процедуры формирования вы-

борки должны дать такую выборку, которая очень точно отражает

генеральную популяцию для каждой группы. Однако, должно быть в

равной степени очевидно, что для формирования выборки таким

способом необходимы огромные ресурсы. Исследование Лордж-Тор-

ндайка показывает, каким должен быть полный объем выборки, не-

обходимый для адекватной нормализации, и громадный объем адми-

нистративных расходов, требующихся для проведения такого обшир-

ного тестирования. Этот пример также ясно иллюстрирует, как дол-

жно выполняться полностью адекватное формирование выборки. Об-

ратите внимание на основу стратификации: для нее были взяты пе-

ременные, имеющие отношение к измеряемой переменной. При ус-

тановлении норм для измерения тревожности может вполне оказать-

ся, что выборка будет стратифицирована по другим переменным.

Заметьте также, что нормы получены не только для каждой возраст-

ной группы в целом, но и для подгрупп («высокий», «низкий» уровень

и т.д.) по переменным для социальных групп. Это полезные и содер-

жательные сравнения.

На этом примере наглядно иллюстрируется полный набор требо-

ваний к процедуре формирования выборки, если необходима выбор-

ка из генеральной популяции - ее огромный объем и соответствую-

щаястратификация. Тотфакт, чтодажездесьприводятсяпоказатели

для подгрупп, говорит о том, что эти показатели могут использовать-

ся. Действительно, при рассмотрении индивидуального случая они

зачастую даже более полезны, чем общий групповой показатель.

Подбор испытуемых в рамках стратификационных групп должен

быть случайным.

 

ПРИМЕР 2. ВЫБОРКА ИЗ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ

ДЛЯ ТЕСТА КЭТТЕЛЛА 16PF

Cattell, Eber и Tatsuoka (1970) также утверждают, что соответст-

вующим образом стратифицированная выборка более эффективна,

при том же объеме, чем случайная (рандомизированная) выборка.

Основания для стратификации . (а) Социальное положение ,

(б) географическая область, (в) возраст и (г) горожанин или сельский

житель. Стандартизационная выборка отражала пропорции этих ка-

тегорий во всем населении. Фактически, были выделены 8 регионов

США, восемь уровней по плотности населения, пять возрастных

групп и семь групп по уровню доходов.

 

216

 

Общий объем выборки: 977. Это относительно небольшая выбор-

ка, хотя она и была тщательно стратифицирована. Ее небольшой

объем отражает наличие проблемы, связанной с нежеланием взрос-

лых испытуемых, не являющихся студентами, военнослужащими

или заключенными, сотрудничать с исследователями. Хотя общий

объем выборки взрослых испытуемых - 977 - является, благодаря

его соответствующей стратификации, вероятно адекватным, некото-

рые из подгрупп представляются слишком маленькими, чтобы их

результаты могли быть использованы. Например, в выборке только

тридцать обитателей горной местности, что не может считаться удов-

летворительным. Аналогично, для различных возрастных групп, в

которых только девяносто четыре испытуемых моложе 25 лет, выбор-

ки также являются слишком маленькими.

Выводы . На этом примере показана необходимость, если общая

группадолжна разуваться на подгруппы, формирования очень боль-

ших выборок. Действительно, если подмножества общей выборки не

являются достаточно большими, чтобы обеспечить надежность пока-

зателей, то адекватность всей выборки может быть поставлена под

сомнение. Когда мы сравниваем тест 16PF (который, между прочим,

является одним из наилучших тестов личности в отношении наличия

нормативных данных) с тестом Лордж-Торндайка, видно, что ничто

не избавляет от необходимости формирования очень больших выбо-

рок объемом в несколько тысяч.

 

Правила для общих норм

 

Исходя из изложенного, могут быть сформулированы несколько

общих правил получения норм для генеральной популяции.

(1) Выборка должна быть стратифицирована. Обычно адекватной

является стратификация на четыре уровня. Важными стратификаци-

онными переменными обычно являются социальное положение, воз-

раст и пол.

(2) В каждой подгруппе должно быть количество испытуемых,

достаточное, чтобы сформировать адекватную выборку, то есть как

минимум около 300.

Это неизбежно означает, что, с учетом всех возможных классифи-

каций, необходимо очень большое количество испытуемых, напри-

мер: 1 (социальное положение) х 2 (пол) х 5 (возраст) дает 40 кате-

горий по 300 испытуемых в каждой, что дает общее количество 12000

испытуемых. Как указывает пример теста Лордж-Торндайка, очень

мало шансов избежать такого большого количества испытуемых (а

это всего лишь минимум). Следовательно, обеспечение адекватных

норм для генеральной популяции требует огромных затрат ресурсов.

 

217

 

Нормы, полученные в менее масштабных исследованиях, как в слу-

чае теста Кэттелла 16PF, также полезны, но должны использоваться

с осторожностью.

По приведенной выше причине, а именно из-за необходимости в

огромных ресурсах, многие разработчики тестов указывают более

специфические нормы для групп, специально соответствующих ха-

рактеру и практическому применению теста.

 

ПРИМЕР 3: НОРМЫ ДЛЯ СПЕЦИАЛЬНЫХ ГРУПП - ШКАЛА

КОНСЕРВАТИЗМА

Эта шкала (Wilson и Patterson, 1970) представляет собой попытку

измерения догматизма или ригидности, рассматриваемой как важная

социальная установка (аттитюд), влияющая на значительные облас-

ти разнообразного поведения в реальной жизни, что подробно обсуж-

далось у Rokeach ( 1960). При использовании такой шкалы интерес

будут представлять показатели любой отдельной группы. Таким об-

разом, было получено большое количество различных норм. Напри-

мер, нормы были определены для университетских студентов из че-

тырех стран, студентов педагогического колледжа, школьниц, спе-

циалистов из Новой Зеландии, высококвалифицированных рабочих,

а также для разнородной группы мужчин. Однако, изучение количе-

ства испытуемых в каждой из этих групп показывает, что эти цифры

мало значимы. Наибольшей выборкой является группа из 340 ново-

зеландских специалистов, и трудно согласиться, что она могла бы

адекватно отражать такую разнообразную категорию лиц. Обследо-

ваны только пятьдесят студентов университетов из Великобритании.

Поскольку в Англии более сорока университетов и, принимая во

внимание большое количество дисциплин, изучаемых в университе-

тах, эта выборка не может выступать в качестве нормативных дан-

ных. Многие из выборок в данном исследовании настолько же беспо-

лезны: двадцать два инженера из технических лабораторий, двадцать

два служащих, тридцать бизнесменов,- ни одна из этих выборок не

может с уверенностью использоваться как нормативная группа.

Этот пример является наглядной иллюстрацией того, как нормы,

даже для опубликованных тестов, могут оказаться бесполезными.

Подбор групп является показательным, но если не используются

большие и стратифицированные выборки, то на результаты пола-

гаться нельзя. Обратите внимание, что все группы не могут быть

объединены, для получения значимых норм в генеральной популя-

ции. Использование норм для специфических групп требует больших

репрезентативных выборок из этих групп.

 

218

 

Формирование выборок для специфических групп

 

Для получения адекватных норм для специфических групп необ-

ходимо стратифицировать выборку по основной переменной, влияю-

щей на эти группы. На нескольких примерах будет показано, как это

делается в целом, хотя для выбора стратифицирующих переменных

необходимы значительные исследования конкретной группы.

 

УЧАЩИЕСЯ ШЕСТЫХ КЛАССОВ

Чтобы получить соответствующую выборку для учащихся шестых

классов, необходимо обеспечить ее адекватность. Так, основанием

для формирования выборки может быть подбор всех учащихся из

шестых классов. Для школ некоторыми основными стратифицирую-

щими переменными являются:

(1) Финансирование: публичная, частная, специализированная,

государственная школы. (Выяснено, что это разделение на категории

можно отбросить, но нашей целью является показать на примере

формирование выборок для получения норм).

(2) Пол: мальчики, девочки, смешанная группа.

(3) Географическое размещение: центр города, поселок, сельская

местность.

(4) Статус школы в системе образования: начальная, общеобразо-

вательная, колледж с шестилетним сроком обучения.

Будет трудно отобрать выборку, точно сбалансированную по всем

переменным (поскольку в центре города мало публичных школ), но,

тем не менее, выборка, отражающая пропорции каждой из школ в

общей популяции, даже если было по две школы на категорию, дол-

жна была бы дать адекватные нормы. Автор настоящей книги при

разработке теста Ai3Q (Kline, 1971) использовал такую выборку уча-

щихся шестых классов школ севера Англии, в которой оказалось по

1000 мальчиков и 1000 девочек из двадцати восьми школ. Даже для

такого исследования понадобились большие ресурсы. Стоит отме-

тить, что мы были не в состоянии обеспечить какие-либо другие

нормативные группы. Ресурсы времени, денег и персонала были не-

достаточными.

 

ПРИМЕР 4: ОПРОСНИК МАЙЕРС-БРИГГС (МВТ1) - СПЕ-

ЦИФИЧЕСКИЕ НОРМЫ

Myers-Briggs Type Indicator (МВТ1) (Myers-Briggs, 1962), разра-

ботанный для классификации испытуемых по типологии К. Г. Юнга,

имеет обширные нормативные группы, некоторые из которых удов-

летворяют строгим критериям адекватной нормализации; строгим,

потому что на основании этих норм осуществляется имеющая реша-

 

249

 

ющее значение интерпретация. Например, существует выборка Реп-

па: соответствующим образом сформированная выборка из учащихся

одиннадцатого и двенадцатого классов - 3503 мальчика и 2511 дево-

чек из двадцати семи школ. Это может составить надежную норма-

тивную группу. Аналогично этому, есть также выборка из 4562 сту-

дентов гуманитарных и естественно-научных факультетов восьми

университетов, имевших среди университетов высокий рейтинг по

уровню подготовки абитуриентов. Для таких студентов это опять

превосходная выборка. Нет никакого сомнения, что эти две выборки

обеспечивают хорошую основу для норм. С другой стороны, три вы-

борки из творческих, менее творческих и наименее творческих архи-

текторов (объемом 40, 43 и 41 испытуемый, соответственно) вряд ли

могут быть адекватными для чего-либо. Аналогично, выборка из

одаренных детей - тридцать четыре мальчика и двадцать пять дево-

чек - слишком мала, чтобы быть полезной.

Тест Майерс-Бригге - это свидетельство того, что эффективные

нормы могут быть получены. На этом примере также явно видно,

насколько это трудно, и что обычно исследователи имеют дело с

менее, чем удовлетворительными данными.

 

Правила формирования выборок для специальных групп

 

(1) Найдите наиболее важные переменные, релевантные для дан-

ных групп, и используйте их как основание для стратификации вы-

борки.

(2) Подберите настолько большую выборку, насколько возможно:

как минимум из 300 испытуемых.

(3) Помните, что маленькая выборка (как у Wilson и Patterson,

1970) - это лучше, чем вообще ничего. Если использовались неболь-

шие выборки, акцентируйте внимание пользователей теста, на том,

чтобы они не использовали нормы, а если будут делать это - то с

предельной осторожностью.

Уже написано достаточно, чтобы стало ясно, что при установле-

нии норм нет никаких теоретических проблем. Наоборот, обычной

трудностью является отсутствие ресурсов: времени, денег, испытуе-

мых и помощников для проведения тестирования и обработки тестов.

Однако, если тест предназначен для практических целей профотбора

и профориентации, то естественно, что его нормы должны удовлет-

ворять высоким стандартам, описанным здесь. Существенно важно

использование стратифицированных и больших выборок.

При условии, что у нас есть хорошие нормативные группы, мы

должны теперь обратиться к следующей проблеме стандартизации:

каким образом лучше представить результаты.

 

220

 

Нормализация показателей

 

Обычно показатели некоторого индивидуума сравниваются с по-

казателями релевантной нормативной группы посредством некото-

рого преобразования, которое выявляет статус этого индивидуума

относительно данной группы. Для этого существуют различные ме-

тоды, наиболее общеупотребительный из которых будет здесь описан

и оценен.

 

Процентили

 

Ранг показателя в процентилях определяется процентным отно-

шением в нормативной группе тех испытуемых, которые получили

более низкий показатель. Это вид норм, легко понятный даже для

испытывающих фобию по отношению к математическим формулам.

Значение пятнадцать процентилей означает, что 15% из популяции

имеют показатели ниже данного. Процентили на деле имеют двойной

недостаток.

(1) Процентили не могут быть использованы для последующего

статистического анализа, как если бы мы использовали более мощ-

ные параметрические статистические показатели, просто потому,

что они являются значениями порядковой шкалы.

(2) Во-вторых, так как распределение процентилей равномерное

(прямоугольное), тогда как распределение для многих тестов при-

ближается к нормальному, то небольшие отклонения от среднего

значения сильно увеличиваются процентилями, в то время как отно-

сительно большие отклонения на краях кривой распределения будут

сжаты. Процентили могут таким образом исказить результаты, и по

этим причинам, вместе со статистическими ограничениями, их ис-

пользование не рекомендуется.

 

Различные типы стандартных показателей

 

Наилучший метод для представления норм - в виде стандартизо-

ванных показателей. Существует несколько типов стандартизован-

ных показателей, которые, как мы увидим, в общем подобны. Они

описаны ниже.

 

Z-ПОКАЗАТЕЛИ

Стандартизованный показатель - это отклонение необработан-

ного («сырого») показателя от среднего значения, деленное на стан-

дартное отклонение распределения:

 

х- х

 

где Z - стандартизованный показатель, х - необработанный

(«сырой») показатель, х - среднее.

 

Так, если у нас есть множество «сырых» показателей с х = 50 и

О = 10, то могут быть сделаны преобразования стандартизованного

показателя, представленные в таблице 8.1. Из примера, приведенно-

го в этой таблице, мы можем видеть, что показатели Z имеют среднее

значение 0 и, следовательно, принимают отрицательные или поло-

жительные значения. Чем больше показатель Z , тем дальше от

среднего значения он может находиться, положительные значения

показателя Z будут находиться выше, а отрицательные значения

показателя Z - ниже среднего. Так как преобразование «сырых»

показателей в показатели Z является линейным, то распределение

показателя Z отражает распределение «сырых» показателей. Если

распределение «сырых» показателей нормальное, то Z-показатели

будут изменяться от +3 до -3, и они будут особенно информативны-

ми, потому что пропорции между различными сегментами нормаль-

ной кривой известны. Например, приблизительно 68 % этой кривой

лежит в интервале между средним плюс-минус одно значение стан-

дартного отклонения. Следовательно, показатель Z для 1 может не-

посредственно быть преобразован в проценты; то есть 16 процентов

популяции имеют показатели выше, чем (+1) или ниже (-1). То же

самое может быть сделано для любого показателя Z, определенного

по таблицам нормального распределения.

 

Таблица 8.1 Z-показатели и

 

60 -50

10

 

65 -50

10

 

50 -50

10

 

40 -50

10

 

54 -50

10

 

У Z-показателей есть два недостатка:

n v,. -.---

 

-,-- J- XAV-AIKCt:

 

(1) Как уже говорилось, основное свое значение нормы имеют в

прикладной психологии; а поскольку именно в прикладной психоло-

гии часто полезно обсуждать показатели с испытуемыми и их родст-

венниками, которые могут быть неискушенными в вычислениях,

 

222

 

Z-показатели имеют основной недостаток, состоящий в том, что их

среднее значение равно 0, а наивысшее возможное значение равно 3.

Это привело к тому, что разработчики тестов стали применять даль-

нейшие преобразования Z-показателей.

(2) Поскольку ни одно из эмпирических распределений не явля-

ется, по всей вероятности, совершенно нормальным, и очень много

распределений никоим образом не являются нормальными, то одно

полезное свойство Z-показателей утрачивается, а именно то, что мы

не можем вывести из них или увидеть эквивалентные процентили.

Следовательно, чтобы восстановить эту полезную информацию, как

и по ряду других причин, некоторые разработчики тестов предпочи-

тают использовать нормализованные преобразования.

 

ПРЕОБРАЗОВАНИЯ Z-ПОКАЗАТЕЛЯ

Стандартизованное преобразование Z-показателей состоит в сле-

дующем: Zt = А + В Z , где Zt - преобразованный Z-показатель, А

- среднее значение преобразованного распределения, В - стандар-

тное отклонение преобразованного распределения и Z - Z-показа-

тель. Пример (таблица 8.2) прояснит это замечание (будут исполь-

зованы данные из таблицы 8.1 ).

 

Таблица 8.2 «Сырые» показатели, Z-показатели и преобразованные Z-показатели

 

«Сырые» показателиВычислениеZВычислениеZt

6060 -501.0Zt=100+1 X 10 =110

10

6565-501.5Zt==100+1,5 X 10 =115

10

5050 -500Zt==100 +0 X 10 =100

10

4040-50-1.0Zt== 100-1 Xl0=90

10

5454-500.4Zt==100 +0,4 X 10 =104

10

«Сырой» показатель: х -50,0~ 10. Преобразованный Z-показатель х- 100, (7- !0

 

Шаги вычислений для показателей Z и Zf:

(1) Вычислите среднее и стандартное отклонение показателей.

(2) Представьте каждый показатель как отклонение от среднего:

х -х.

 

Есть и другие, не менее ее существенные недостатки Z-показателей:

- наличие отрицательных значений;

- необходимость дробных значений;

- слишком малое количество целых позиций шкалы Z (Прим.перев.)

 

223

 

(3) Поделите значение из шага (2) на стандартное отклонение:

Z-показатель.

(4) Вычислите произведение каждого Z-показателя на требуемое

стандартное отклонение для преобразуемого распределения.

(5) Сложите значение, полученное на шаге (4), с требуемым сред-

ним: Zt.

 

При конструировании тестов обычно производится преобразова-

ние Z-показателей к распределению со средним значением х = 50 и

стандартным отклонением о= 10. В этом случае если распределение

приближается к нормальному, показатели будут изменяться от 80 до

20.

 

Таким образом, если мы хотим получить для наших тестов нормы

этого вида, то преобразуем наше множество нормативных показате-

лей в Zt -показатели со средними, равными 50 и о= 10. Пользователи

тестов, следовательно, могут взять «сырые» показатели своих испы-

туемых и выразить их в виде Zt -показателей. Преобразованные Z-

показатели такого вида просты для понимания, и в тех случаях, когда

распределения показателей тестов аппроксимируют нормальное рас-

пределение, они могут быть быстро проинтерпретированы в терми-

нах процентилей. Такие показатели, конечно, пригодны для статис-

тического анализа.

Еще одним преимуществом стандартизованных показателей яв-

ляется то, что стандартизованные показатели сравнимы; так, значе-

ние показателя Z , равное 1, представляет результат выполнения

любого теста, находящийся на расстоянии, равном одному значению

стандартного отклонения, от среднего. Аналогично, если для батареи

тестов используется некоторый преобразованный стандартизован-

ный показатель с одинаковыми значениями средних и стандартных

отклонений, то можно непосредственно сравнивать показатели, по-

лучаемые по любым тестам батареи. С моей точки зрения, для тестов

с распределением, если не нормальным, то по крайней мере симмет-

ричным , преобразованные Z-показатели со Средним значением

х = 50 и со стандартным отклонением (7 == 10 являются точной,

значимой нормой.

 

НОРМАЛИЗОВАННЫЕ СТАНДАРТНЫЕ ПОКАЗАТЕЛИ

Иногда необходимо получить нормальное распределение показа-

телей (например, если это предполагается по теоретическим основа-

ниям, как в тестах интеллекта).

Шаги вычисления нормализованных стандартных показателей:

Наиболее широко применяемые масштабы шкал:

fQ стандартный (х-100, (7» 15), Т-показатели (7-50, ff» 10).

 

224

 

(1) Вычислите кумулятивную пропорцию (cumulative proportion

- CP ) для каждого «сырого» показателя. Чтобы сделать это, выпол-

ните приведенные ниже шаги (2) - (5).

(2) Подготовьте данные распределения частоты показателей.

(3) По этим данным для каждого «сырого» показателя может быть

вычислена кумулятивная частота, CF. Это сумма всех частот, лежа-

щих ниже данного «сырого» показателя. Например, СГдля «сырого»

показателя 5 - это количество испытуемых, показатели которых

меньше 5.

(4) Определите Сдля средней точки каждого интервала показа-

телей. Это делается добавлением к СРдля каждого показателя поло-

вины от количества испытуемых, имеющих данный показатель. Так,

если СРдля «сырого» показателя 5 было равно 10, и показатель 5 был

у четырех испытуемых, то CF для средней точки для 6 будет равно

12.

(5) Разделите кумулятивную частоту для средних точек для каж-

дого «сырого» показателя на N (общее количество испытуемых в

выборке). Это дает нам кумулятивную пропорцию, описанную на

шаге (1).

(6) По статистическим таблицам, содержащим значения площади

под кривой нормального распределения, найдите показатель Z для

каждого СР. ЕслнСР > 0.500, используйте части таблицы, в которых

указывается площадь для больших пропорций; и наоборот, если

CP < 0.500, используйте таблицы для меньших пропорций.

(7) Это дает нам теперь множество нормализованных показателей

Z: Zn.

(8) Чтобы преобразовать показатели Zn в стандартные показате-

ли, используется та же процедура, что и для вычисления показателей

Zf, она была приведена ранее.

(9) Вычислите произведение каждого показателя Zn с требуемым

значением стандартного отклонения для преобразованного распреде-

ления.

(10) Сложите значение, полученное на шаге (9), с требуемым

средним преобразованного распределения.

 

В руководстве по конструированию тестов, принятом Американ-

ской Психологической Ассоциацией (см., напр., Buros, 1972) предпо-

лагается, что типичным преобразованием ненормализованных стан-

дартных показателей должно быть их приведение к распределению

со средним 50 и со стандартным отклонением 10. Это известные

 

Здесь под частотой понимается количество данных значений показателя (Прим.

перев.)

 

8 4-196 225

 

Т-показатели - нормально распределенные стандартные показате-

ли со стандартным отклонением 10.

Преимущества Т-показателей по сравнению с их ненормализо-

ванными эквивалентами состоит в том, что эти показатели могут

быть непосредственно преобразованы в процентили, что упрощает их

интерпретацию, особенно для тех, кто не является специалистами по

статистике. С другой стороны, если исходное («сырое») распределе-

ние не было первоначально нормальным, то очевидно, что нормали-

зация приведет к искажениям. С моей точки зрения нормализован-

ные стандартные показатели могут использоваться только если: (1)

исходное распределение соответствует нормальному; (2) есть неко-

торые веские теоретические основания предполагать наличие нор-

мального распределения; и, в любом случае, (3) мы уверены, что

группа, данные которой подвергаются нормализации, является до-

статочно большой и репрезентативной, чтобы верно отражать иссле-

дуемую популяцию. С другой стороны, я бы утверждал, что стандар-

тизованные показатели (то есть преобразованные к распределению с

удобными значениями среднего и стандартного отклонения) лучше.

Они не искажают исходное распределение, и так как каждый пока-

затель отражает отклонение от среднего, то их так же легко интерп-

ретировать.

Как должно быть понятно из нашего обсуждения и из вычисли-

тельных процедур, стандартные показатели и нормализованные

стандартные показатели могут быть получены для любого требуемого

значения среднего и стандартного отклонения. Одним из преобразо-

ваний, широко используемых в прикладной психологии, являются

показатели в стенайнах.

 

СТЕНАЙНЫ (STANINES)

Как и следует из названия, это стандартизованный показатель,

который разбивает нормальное распределение на девять интервалов-

категорий. Наивысшая категория, 1, и наинизшая, 9, обе содержат

по 4% распределения; категории 2 и 8 содержат по 7% каждая;

категории 3и7-по 12% каждая; категории 4и6-по 17% каждая

и категория 5 содержит 20%.

 

slanine - от англ. staindard] и nine - нормализованный стандартный показатель

на одномерной шкале ранжирования от наивысшего значения, равного 1, до наи-

низшего, равного 9, и имеющий среднее значение пять; впервые был применен в

исследованиях, выполнявшихся для военно-воздушных сил Соединенных Штатов

во время второй мировой войны (Прим.перев.)

 

226

 

Аналогичная, излюбленная Кэттеллом и его сотрудниками, фор-

ма, нормализованный показатель в стенах делит нормальное рас-

пределение на десять категорий.

 

РЕЗЮМЕ

(1) Необработанные («сырые») показатели имеют значение лишь

при сравнении с показателями нормативных групп.

(2) Значение норм зависит от качества формирования норматив-

ных групп; нормы могут использоваться с какой-либо долей уверен-

ности лишь тогда, когда нормативные выборки адекватны.

(3) Существуют различные методы для представления норматив-

ных показателей.

(4) Процентили, хотя и просты для понимания, не пригодны для

статистического анализа.

(5) Следовательно, для использования рекомендуются стандарт-

ные показатели, основанные на отклонении показателей от среднего.

(6) Преобразованные стандартные показатели всегда сравнимы:

одинаковые стандартные показатели находятся на одинаковом рас-

стоянии от среднего.

(7) Нормализованные стандартные показатели имеют то допол-

нительное свойство, что они могут быть легко преобразованы в про-

центили.

 

Представление норм

 

При определении норм для тестов должны выполняться следую-

щие процедуры. Благодаря им тесты приобретают гораздо большее

значение и меньше приводят к заблуждениям.

(1) Объем выборки, основание для ее стратификации (если тако-

вые есть) и ее происхождение должны быть четко указаны.

(2) Должен быть указан тип используемых норм.

(3) Для каждой нормативной группы должны быть указаны «сы-

рые» показатели сравнительно со стандартизованными показателя-

ми. Если необходимо, то рядом с «сырыми» показателями могут быть

также указаны и процентили.

Следствием применения норм и стандартизации является то, что

по соотношению некоторого показателя с показателями стандартной

группы может осуществляться его интерпретация. Опять я должен

подчеркнуть, что нормы важны для прикладной психологии. Для

изучения психологических переменных по существу достаточно «сы-

 

sten (от англ. standard] ten) - нормализованный стандартный показатель на

одномерной шкале ранжирования от 1 до 10 (Прим.перев.)

 

8 227

 

рых» показателей - в самом деле, они более предпочтительны, ибо

являются исходными данными.

Однако, существуют еще два метода интерпретации показателей

тестов, которые некоторыеавторы (напр.. Brown, 1976) рассматрива-

ют в качестве иной формы стандартизации, и они вкпят-п> «----

быть описаны

 

описаны.

 

т, и они вкратце должны

 

Содержательный критерий

 

При обсуждении содержательной валидности указывалось, что

если тест состоит из заданий, требующих от испытуемых выполнить

действия по раскрытию скобок в определенных алгебраических вы-

ражениях, то для этих отдельных операций такой тест сам по себе

является валидным средством измерений. Очевидно, что содержа-

те-дьная валидность как теоретический конструкт будет полезна

только тогда, когда могут быть определены специальные навыки и

особенности поведения. Это можно сделать довольно легко на эле-

ментарном уровне, при тестировании арифметических навыков

(правил выполнения четырех арифметических операций, правил вы-

числений с 0 и т.п.), знаний в области музыки (знает ли испытуемый

правила нотной записи, может ли гармонизировать простой тон, и

др.), а также знаний базовых элементов для большинства научных

дисциплин, в которых накоплен определенный багаж фактических

данных. Однако, определить содержание теста таким образом для

более высокого уровня знаний становится чрезвычайно трудно. Поэ-

тому понятие «содержательная валидность» наиболее уместно для

тестов достижений в обучении.

Содержательный критерий применим к показателям теста, кото-

рый был разработан как содержательно валидный. Это замечание

поясним на примере. Тест музыкальных навыков может быть связан

с проверкой овладения нотной записью. Тогда задания будут состоять

из четвертей и половинных нот и т.п. на различных нотных линиях и

в разных ключах, а испытуемые должны будут указать, что это за

ноты. В таком тесте показатель 100% будет представлять полное

овладение нотной грамотой. В тестах такого типа необходимо иметь

веское основание для того, чтобы по некоторому пороговому значе-

нию можно было бы принимать решение о переводе учащегося на

следующий этап курса обучения. Для этого требуется подтвержде-

ние, что ученики с показателями выше некоторого порогового явля-

ются успевающими, а те, у кого показатели ниже - нет. Обычно,

однако, такие пороговые значения задаются произвольно, на основа-

нии опыта преподавателей данной дисциплины. Для тестов такого

типа эффективным будет всего лишь двубалльный показатель: удов-

 

228

 

летворительно и неудовлетворительно. Мимоходом следует заме-

1 тить, что приведенный пример является гипотетическим. При нали-

1 чии времени прочитать музыкальную запись довольно просто. Зада-

1 ча состоит в том, чтобы ответы давались немедленно и были правиль-

1 ными.

 

1 Проблемы с содержательным критерием

 

1 Скрытая слабость показателей по содержательному критерию со-

стоит в трудности формирования выборок заданий по тем дисципли-

i нам, для обследования навыков и знаний в которых предназначен

i тест. Каково значение 90%-ного показателя? Правильно ли гово-

< рить, что индивидуум с таким показателем знает 90% из данной

t дисциплины? Почтинаверноеэтонетак; идажееслибыэтобылотак,

? два испытуемых с одинаковым значением показателя могди непра-

вильно выполнить различные задания, поэтому эти показатели не

являются совершенно эквивалентными. Наличие этой трудности оз-

начает, что использование таких тестов должно ограничиваться

только областью дисциплин с точно описываемым материалом и теми

уровнями, на которых знания являются настолько фиксированными

и определенными, что становится возможным реально формировать

соответствующие выборки заданий, как, например, в случае с про-

стейшими арифметическими операциями. Обратите внимание, что

для тех дисциплин, в которых любое множество заданий теста будет

лишь крохотной выборкой изо всей выборочной совокупности зада-

ний, использование тестов с содержательным критерием неуместно.

 

ВЫВОДЫ

Содержательный критерий полезен для тех тестов, в которых

требуется проверка овладением некоторыми навыками или специ-

альными знаниями> Это означает, что он имеет значение только для

тестирования достижений. На самом низком уровне в начальной

школе, где важны базовые навыки, он может рассматриваться в ка-

честве методики для конструирования тестов. Тесты чтения Schonell

(1951) являются образцовыми примерами тестов с содержательным

критерием, так как они точно указывают на источник трудностей:

например, испытуемый путает латинские буквы «р» и «Ь», или «d»

и «Ь», и тому подобное. Однако следует заметить, что оценка выпол-

нения заданий в форме «правильно» и «неправильно» также указала

бы на этот факт. Можно утверждать, что содержательный критерий

не всегда является полезным методом для оценки показателей тестов:

в любом случае, сфера его использования ограничивается только

тестами достижений.

 

Прогнозирование критерия

 

Вторым методом интерпретации показателей, отличным от ис-

пользования норм, является построение серий таблиц ожиданий, в

которых указывается вероятность того, что испытуемые, получив-

шие некоторый показатель по тесту, достигнут критериального пока-

зателя. Здесь существует несколько заслуживающих рассмотрения

моментов. Во-первых, этот метод применим только тогда, когда воз-

можно явное определение некоторого критериального показателя.

Это чаще всего имеет место при тестировании результатов обучения,

когда могут быть получены экзаменационные оценки и степени. Ана-

логичные показатели возможны в промышленности, где для профот-

бора используются экзамены и разного рода рейтинговые процедуры.

В инженерной психологии могут использоваться предоставляемые

контролирующими лицами (экспертами) рейтинги успехов в работе,

хотя надежность и валидность таких критериев может подвергаться

сомнению.

И во-вторых, значения этих вероятностей должны определяться

экспериментально. Чтобы сделать это, должны быть проведены круп-

номасштабные исследования на соответствующих популяциях. Это,

конечно, приводит к тем же самым проблемам формирования выбо-

рок, которые обсуждались при рассмотрении выборок для определе-

ния норм. В этом смысле значения вероятностей из таблиц ожиданий

- это также нормативные данные. Вместо стандартных показателей

для отдельных групп или группового среднего и стандартного откло-

нения, представлены вероятности достижения некоторого критери-

ального показателя.

В-третьих, таблицы ожиданий иллюстрируют с особой ясностью

дилемму практической психологии: различие между статистическим

и индивидуальным прогнозом. Если конкретному показателю по тес-

ту соответствует вероятность 0,38 успешной сдачи конкретного экза-

мена, то это означает, что 38% испытуемых с таким показателем (в

нормативной группе) успешно пройдут этот экзамен. Имеется в ви-

ду, что 38 % испытуемых с таким показателем смогут сдать экзамен

- но какие 38 % ? Имея дело с отдельными индивидуумами в практи-

ческих приложениях психологии, трудно интерпретировать такие

статистические предсказания. Однако, отсев испытуемого с таким

показателем будет вообще-то означать, что производящий отбор бу-

дет чаще прав, чем неправ. В этом смысле такие цифры полезны, но

только в этом смысле. Недейственность статистических прогнозов в

индивидуальных случаях имеет место для большинства норматив-

ных исследований в психометрии. Это непосредственно очевидно и в

случае с таблицами ожиданий, которые, казалось бы, предоставляют

 

230

 

такие явные прогнозы. Разработчики тестов должны иметь это в

виду, прежде чем браться за составление таких таблиц.

 

ШАГИ ВЫЧИСЛЕНИЯ ТАБЛИЦЫ ОЖИДАНИЙ

(1) Получите показатели для данной выборки по тесту и по кри-

терию.

(2) Разделите показатели по критерию на значимые группы, на-

пример, на удовлетворительные и неудовлетворительные.

(3) Разделите показатели по тесту на категории так, чтобы в

каждой категории было большое количество показателей. Наилуч-

шим способом будет деление на категории с равным количеством

показателей, за исключением крайних интервалов.

(4) Затем строится таблица, в которой показывается частота (т.е.

количество) показателей в каждой категории:

 

Таблица 8.3

 

КатегорияКритерийОбщее

УдовлетворительныеНеудовлетворительныеколичество

1хУх+у

2zаz+a

3bсb+c

(5) Для каждой категории вычислите долю случаев, удовлетвори-

тельных и неудовлетворительных относительно данного критерия;

например, для категории 2 вычислите отношение z к а + z или а к

a+z.

(6) Затем может быть построена таблица ожиданий, в которой

вместо частоты в качестве элементов указываются вычисленные от-

ношения, которые представляют вероятность того, что испытуемые с

некоторым показателем по тесту будут иметь удовлетворительные

или не удовлетворительные показатели по критерию.

Замечание . Очевидно, что при использовании этого метода значимость таблицы

ожиданий зависит от качества и объема конкретной выборки. При неадекватном

формировании выборки результаты метода будут незначимыми из-за больших

выборочных погрешностей.

 

АЛЬТЕРНАТИВНЫЙ МЕТОД КОНСТРУИРОВАНИЯ ТАБЛИ-

ЦЫ ОЖИДАНИЙ

Шаги (1) - (3) выполняются так, как указано выше.

(4) Для каждой категории показателей теста представьте значе-

ния среднего и стандартного отклонения по показателю для данного

критерия. Однако, если только корреляция между тестом и критери-

ем не является высокой, по всей вероятности будет настолько много

 

231

 

пересечений между средними значениями для категорий, что их

практическое значение будет не очень высоким.

 

УРАВНЕНИЕ РЕГРЕССИИ КАК МЕТОД ВЫЧИСЛЕНИЯ ТАБ-

ЛИЦ ОЖИДАНИЙ

В рамках данного метода уравнение регрессии используется для

прогноза критериального показателя по показателям теста. Вычис-

ления для этого подхода более сложные, но тем не менее они легко

могут быть выполнены при помощи электронного калькулятора.

Программа для компьютера будет, конечно же, более быстродейст-

вующей и простой.

Вот шаги вычислений для метода с уравнением регрессии:

 

(1) Получите показатели для данной выборки по тесту и по кри-

терию.

(2) Вычислите корреляцию между этими двумя множествами по-

казателей.

(3) Прямая регрессии между этими двумя множествами показате-

лей вычисляется по уравнению Ypred = а+ by Х х, где Ypred - про-

гнозируемый критериальный показатель (усредненный для тех ис-

пытуемых, которые имеют данный показатель по тесту, на основании

которого делается прогнозирование); а - разделяющая константа,

позволяющая определять различия средних, это точка пересечения

прямой линейной регрессии с осью у , by - коэффициент регрессии,

угловой коэффициент, определяющий наклон линии регрессии по

отношению к осям х п у,х- показатель по тесту, для которого

строится прогноз.

(4) Уравнение регрессии может быть вычислено только тогда,

когда известны значения а и by. а = у-by У. х , где у- среднее для

критериального показателя, х - среднее для показателя по тесту,

by = гху Х Оу /(JX , где Гху - коэффициент корреляции х и у, Оу-

стандартное отклонение для у ,и0х- стандартное отклонение для

х.

(5) Так, используя это уравнение, мы можем составить таблицу

прогнозируемых критериальных показателей для каждой категории

показателей теста.

 

Как уже говорилось, Ypred - это прогнозируемый усредненный

показатель для испытуемых с данным показателем по тесту. Однако,

этот показатель с очевидностью подвержен влиянию погрешности,

если только не существует высокой корреляции между данным кри-

терием и тестом. Таким образом, необходимо вычислять стандарт-

ную погрешность для оцениваемых показателей. Эта погрешность

 

232

 

вычисляется по формуле: Sest = (Ту Vl - r iy, где ffy - это стандарт-

ное отклонение эмпирических показателей по тесту, а гху - это

значение корреляции между тестом и критерием. Как и в случае со

стандартными отклонениями и другими стандартными погрешностя-

ми, 68% показателей по критерию попадают в интервал, ограничи-

ваемый средним плюс-минус одним значением стандартной погреш-

ности оцениваемых показателей, а 95% попадут в интервал между

удвоенными значениями стандартных погрешностей.

 

ШАГИ ВЫЧИСЛЕНИЯ СТАНДАРТНОЙ ПОГРЕШНОСТИ

ДЛЯ ОЦЕНКИ ПРОГНОЗИРУЕМЫХ ПОКАЗАТЕЛЕЙ

(1) Вычислите квадрат корреляции между показателями по кри-

терию и по тесту: гху .

(2) Вычтите из значения, полученного на шаге (1), 1 и возьмите

квадратный корень: VI -гу .

(3) Умножьте значение, полученное на шаге (2), на стандартное

отклонение показателя теста: Оу VI - riy . Это дает нам стандартную

погрешность оцениваемых показателей.

 

В таблицах ожиданий, основанных на уравнениях регрессии, про-

гнозируемые показатели должны сопровождаться значениями стан-

дартных погрешностей для них. Это позволит избежать опрометчи-

вых выводов. Например, предположим, что стандартная погрешность

для прогнозирования экзаменационных отметок равна 1. Так, если

показатель теста дал прогноз для некоторой отметки, равный 3, это

будет означать, что 95% испытуемых с такими показателями пол-

учат показатели по критерию между 1 и 5. Для пятибалльной шкалы

это означает, что может быть получена практически любая отметка!

Таблицы ожиданий, основанные на показателях, прогнозируе-

мых по уравнению регрессии, могут быть представлены графически.

Если это сделано, то очень просто поставить вокруг прямой регрессии

границы, заданные стандартной погрешностью оценки.

Если выборка сформирована соответствующим образом, значение

стандартной погрешности оценки низкое, и, наконец, показатели по

критерию являются надежными и валидными, тогда основанные на

регрессии таблицы ожиданий являются полезным методом интерпре-

тации показателей теста. Существенно, однако, то, что поскольку

прогнозы зависят от результатов тестирования некоторой выборки,

такие таблицы ожиданий являются иной формой представления

норм, а не еще одним подходом к стандартизации.

 

233

 

Глава 9. Другие методы конструирования тестов

 

В этой главе будут описаны еще два метода конструирования

тестов. Оба они широко используются, но для каждого есть присущие

ему специфические проблемы.

 

Тесты, разработанные на основе критериальных

ключевых признаков

 

Это метод конструирования тестов, при помощи которого были

созданы некоторые из наиболее широко используемых психологиче-

ских тестов. Наибольшее распространение получили Minnesota Mul-

tiphasic Personality Inventory, MMPI (Hathaway и McKinley, 1951) и

«Бланк интересов Стронга» (Strong Interest Blank) (Campbell, 1971),

первый в клинической психологии, а второй - в области профориен-

тации.

В тестах, разработанных на основе критериальных ключевых при-

знаков, задания для шкал отбираются только тогда, когда они могут

отделить релевантные критериальные группы от контрольных. Хотя

задания, из исходного множества которых был составлен опросник

MMPI, и формулировались в свете представлений о симптомах не-

врозов, таким образом, что авторы утверждений пытались описать

поведение испытуемых с психическими отклонениями, в некотором

смысле все же был принят эмпирический подход. В случае исходного

множества заданий для теста Э.Стронга использовались, например,

те, которые не имели никакого очевидного отношения к конкретным

критериальным группам. Задания включались в ткя ««-» - - -

когда они прм»«««« - ~~ ~

 

те, которые не имел>

 

- _<-ДАД1ДЯ№1

 

, _ «««.... иаапя включались в шкалы только тогда,

когда они действительно разделяли группы, даже если они и не имели

никакого обоснования, ни теоретического, ни интуитивного.

Основания этого метода построения тестов просты и очень эффек-

тивны с точки зрения практической реализации. Для тех случаев,

когда необходимо дискриминировать группы, например, для диаг-

ностики, профотбора или профориентации, тесты на основе крите-

риальных ключевых признаков являются эффективным средством,

при условии, что они разработаны достаточно тщательно, то есть

подобрано достаточное количество эффективных заданий. Для тес-

тов такого типа основное значение придается их дискриминативнос-

ти: важен тот факт, что тест является дискриминативным, а не при-

чина, по которой это происходит.

При обосновании этого метода конструирования тестов существу-

ет ряд трудностей и высказывается ряд критических замечаний, что,

с точки зрения автора, является противопоказанием к его использо-

ванию во многих областях тестирования.

 

234

 

1 Отбор критериальных групп

 

и Во многих областях исследований при формировании критериаль-

1 ных групп существуют значительные трудности. При наличии этих

<у проблем сформированный тест будет работать гораздо менее эффек-

1 тивно, чем созданный на основе процедуры испытания и отбора зада-

ний, описанной выше. Вот конкретный пример: для теста MMPI ис-

у пользовались группы, определенные психиатрами и психологами из

1 университета штата Миннесота. Так как при установлении психиат-

рических диагнозов существуют значительные сложности, то по

1 классификации заболеваний могут возникать разногласия между

1 специалистами, имеющими разные теоретические ориентации. Дан-

1 иые критические замечания относятся не только к клиническим

1 классификациям, но, в целом, к классификациям любого рода. Опи-

1 санная проблема надежности классификации попросту приводит к

Q неудовлетворительной валидности теста.

?

1 Невозможность психологической интерпретации

 

1 Однако, если даже перечисленные трудности будут преодолены,

: у этого метода существует гораздо более серьезный, с точки зрения

автора, недостаток. Это касается психологической бессодержатель-

ности (в буквальном смысле) переменных, измеряемых тестами, ос-

нованными на критериальных ключевых признаках. Опять обратим-

ся к ММРГ. Возможно (даже весьма вероятно), что обсессивные не-

вротики отличаются от испытуемых из других клинических и коят-

рольных групп более, чем по одной переменной. Поэтому задаиия,

отобранные просто на основании того, что они могут разделять эти

группы, вполне могут измерять и целый набор разных других пере-

менных. Любая шкала, построенная таким образом, вряд ли будет

однородной, а с очевидностью будет мультивариантной. Следова-

тельно, не только два явно идентичных показателя могут иметь раз-

личную психологическую интерпретацию, но, кроме того, не суще-

ствует способа по виду показателя установить, что измеряет данная

шкала. Таким образом, тот факт, что тест может дискриминировать

группу Х от группы Y, не говорит нам ничего о природе переменной

этого теста, если только не известно что группы отличаются друг от

друга только по одной переменной.

 

Следует также помнить о возникающих в ряде случаев затруднениях, связанных с

выделением контрастных критериальных групп (Прим.ред.).

В ряде случаев конструкторы тестов сознательно отказываются or факторной ва-

лидизации переменных. Отсюда нередко используемый термин - «эмпирические

опросники» (Прим.ред.).

 

Невозможность генерализации теста

 

Результатам тестов, разработанных на основе критериальных

ключевых признаков, присуща некоторая специфичность, что также

является серьезным ограничением. Например, если тест на основе

критериальных ключевых признаков используется для отбора слеса-

рей-монтажников, многое будет зависеть от характера тех задач,

решение которых необходимо для выполнения конкретной работы.

Если работа изменится, изменятся также и задачи, и ранее эффек-

тивный тест, разработанный на основе критериальных ключевых

признаков, работать не будет. В противовес этому тесты, выявляю-

щие базовые способности, по-прежнему можно будет использовать.

Таким образом, использование таких тестов связано с серьезными

проблемами, даже при очевидной их эффективности в решении задач

отбора.

Несмотря на эти трудности, иногда бывает полезно разрабатывать

тесты на основе критериальных ключевых признаков, и сейчас будет

описано, как это делается. Основные принципы излагаемой процеду-

ры исходят из простоты конструирования таких тестов. Автор счита-

ет, что при разработке теста, основанного на критериальных ключе-

вых признаках, не стоит выполнять тщательные статистические про-

верки. Если у вас имеется достаточное количество ресурсов, то лучше

сконструировать более крупную батарею факторизованных тестов,

которые измеряли бы важные факторы, базовые для данных задач,

или исследовать поведение в критериальных группах.

 

ПРОЦЕДУРЫ КОНСТРУИРОВАНИЯ ТЕСТОВ

КРИТЕРИАЛЬНЫХ КЛЮЧЕВЫХ ПРИЗНАК-ПК

 

/1 г

 

НА ОСНОВЕ

 

,- --. л131

 

-» , ,1цпшл ДЛЮЧЕВЫХ ПРИЗНАКОВ

(1) Установите: (а) очевидные критериальные группы; или (б)

критериальный показатель. При разработке теста отбора летчиков в

критериальные группы вошли бы наилучшие из прошедших экзаме-

ны и наихудшие из не прошедших. Если, как иногда это случается,

группа не сдавших экзамены относительно мала, то две критериаль-

ные группы будут состоять из всех сдавших и всех не сдавших. Другая

возможность - это подобрать летчиков, которые успешно сдали эк-

замены несколькими годами ранее, и получить от их командиров

оценки их летных качеств. На основе этого может быть установлен

критериальный показатель. В промышленной психологии при разра-

ботке тестов отбора такая методика может быть применена для любой

конкретной профессии.

(2) Очевидно, что выделение критериальных групп формирует и

выборку. Чем больше объем выборки, с которой вы можете работать,

тем лучше, так как благодаря этому результаты будут более надеж-

 

236

 

ными. Поскольку полезно бывает знать значение коэффициента Р

для заданий, то в этом отношении будет лучше использовать всю

группу, а не только ее крайних представителей.

(3) Наилучшей формулой для вычисления дихотомических коэф-

фициентов корреляции между заданием и критериальными группа-

> ми, как обсуждалось в разделе об анализе заданий (см. стр. 188),

f будет, вероятно, коэффициент <р. Преимущество коэффициента (р ,

! а именно то, что он является численным эквивалентом коэффициен-

та корреляции произведения моментов Пирсона, компенсирует тот

факт, что он изменяется в зависимости от уровня трудности. По

сравнению с четырехпольным коэффициентом корреляции net он

менее зависит от распределения переменных . (а) При континуаль-

ном критериальном показателе наилучшим коэффициентом корре-

ляции между каждым заданием и критерием будет rpbis .

(4) Поскольку в тесте, основанном на критериальных ключевых

признаках, задания нас интересуют лишь постольку, поскольку они

дискриминируют данные группы, без учета каких-либо психологи-

ческих обоснований, процедура отбора заданий упрощается.

Отбираются все задания, которые, независимо от содержания,

значимо коррелируют с критерием (в случае 3 (а) выше). Если наби-

рается более, чем, скажем, тридцать заданий, то мы останавливаемся

на этом количестве. Если же заданий меньше, то можно попытаться

переформулировать задания в свете наших знаний об эффективных

заданиях и подвергнуть их новой процедуре анализа.

(5) Соберите вместе отобранные задания; вычислите для них ко-

эффициенты надежности K-R20 и д Ферпосона.

(6) Выполните кросс-валидизацию заданий на новой выборке.

Если это не сделано, то есть не показана воспроизводимость резуль-

татов, то применение тестов на основе критериальных ключевых

признаков будет бессмысленным, даже для практического отбора.

Всегда необходимо показать, что они будут дискриминативными на

новой выборке.

 

ШАГИ ВЫЧИСЛЕНИЙ

(1) Подберите группы, как описано выше.

 

Четырехпольный коэффициент корреляции весьма удобен с точки зрения просто-

ты расчетов, однако при его использовании отсекается область изменения наблю-

дений в определенной произвольно взятой точке, и поэтому все, что находится

выше, принимается за одну, а все, что находится ниже, - за другую категорию. В

результате такой коэффициент не дает полной информации о зависимости между

изучаемыми переменными (Прим.ред.)

 

237

 

(2) Для каждого задания вычислите значение коэффициента <р в

соответствии с дихотомией «прошел/не прошел» (или принадлежно-

стью к группам).

(3) Подсчитайте количество испытуемых, давших ключевой ответ

на каждое задание.

(4) Отберите задания, переформулируйте те из них, которые не

разделили группы по критерию, и испытайте их заново.

(5) Кросс-валидизируйте все задания.

(6) Если используется континуальный критериальный показа-

тель, то вместо шага (2) выполняется шаг (7).

(7) Для каждого задания вычислите значение коэффициента кор-

реляции rpbis с континуальным критериальным показателем.

(8) Для этого существуют две формулы:

 

 

Р F

Критериальная группа

 

Задание

1

 

аb

сd

, - -/у> и/

 

Поскольку == N (р, то значимость <р может быть определена чи

/)

таблицам распределения с одной степенью свободы.

 

Обычно используемая формула для вычисления точечно-бисери-

альной корреляции:

 

грЫц = (IXB)NANB_

NOt

 

гдехл

 

стандартное

 

где ХА и хв- средние для групп А и В, NA и NB - количество

испытуемых в каждой группе, N = NA + NB, и fft - стандартное

отклонение комбинированных групп.

 

Факторно - аналитические тесты

 

Целью разработчика факторно-аналитических тестов является

создание такого теста, который измеряет только один фактор, и

именно тот, который указан разработчиком. Это определение нико-

им образом не является тавтологией, так как может случиться, что

тесты будут измерять факторы, для измеоения кпегпм- ««« «-

 

ние нико-

« -яться, что

ы, для измерения которых они не были

 

238

 

предназначены их разработчиками. Вначале будут описаны основы

 

fn факторного анализа.

<

 

И Обоснование, основные принципы и описание

факторного анализа

1

1 ОПРЕДЕЛЕНИЕ ФАКТОРА

Ц Предпринималось много попыток дать определение фактора.

l,Royce (1963) обнаружил, что наиболее общепринятые толкования

1 содержат следующие термины: факторы представлялись как измере-

1 ния, детерминанты, функциональные единицы, параметры, таксо-

номические категории и, по описанию Айзенка (Eysenck, 1953) -

Ц сжатое выражение (линейных) зависимостей между некоторым мно-

1 жеством переменных . В перечне всех значений, приписываемых

1 факторам, выделяется определение, данное самим Рейсом, которое,

1 похоже, охватывает все предыдущие и уточняет, с точки зрения

1 разработчика тестов, что же такое фактор: это конструкт, опера-

1 ционно определяемый его факторными нагрузками (где последияе

и рассматриваются как корреляции переменных с данным фактором).

Теперь определим некоторые из других терминов, использую-

1 щихся в факторном анализе.

 

1 ФАКТОРНЫЕ НАГРУЗКИ

1 Это значения корреляций переменных с фактором. При разработ-

1 ке теста мы подвергаем факторному анализу корреляции между за-

1 даниями и выбираем те задания, которые нагружают общий фактор,

1 то есть коррелируют с общим фактором. Этот фактор выступает

затем как конструкт, определяемый своими факторными нагрузка-

ми, то есть своими корреляциями с заданиями теста. Эта процедура

обеспечивает уверенность в том, что тест измеряет только одну пере-

менную и каждое задание измеряет эту же переменную.

Это утверждение поясним на примере. Если мы факторизуем ма-

тематические задания и получим факторные нагрузки на задания,

релевантные для всех математических методов и приемов, то разум-

но предположить, что это фактор математических способностей, оп-

ределяемый нагружающими его заданиями. Однако, недостаточно

идентифицировать факторы только при помощи их нагрузок; пона-

добится дальнейшее экспериментальное подтверждение, прежде чем

 

В отечественной математической статистике фактор определяется как «виутреяие

присущая эволюции объекта непосредственно не наблюдаемая причина, которой,

однако, может быть придана количественная определенность». (Статйсп-яккмй

словарь.- Изд. 2-ое.- М.: Финансы и статистика, 1989. С.553) (Прим.рад.)

 

239

 

такой фактор будет идентифицирован в качестве фактора математи-

ческих способностей.

 

ФАКТОРЫ ПЕРВОГО ПОРЯДКА, ИЛИ ПЕРВИЧНЫЕ ФАКТО-

РЫ

Это факторы, выявляющиеся в результате первого анализа корре-

ляций между переменными в рамках факторно-аналитического ме-

тода. Факторы отражают или объясняют вариацию изучаемых пере-

менных.

 

ДИСПЕРСИЯ ТЕСТА

Квадрат каждой факторной нагрузки - это та часть дисперсии,

которая объясняется данным фактором. Так, если задание имеет

нагрузку на фактор 0,83 , то это означает, что приблизительно 68 %

его дисперсии отражается этим фактором. Аналогично, чтобы иссле-

довать дисперсию любого задания, следует возвести в квадрат все его

факторные нагрузки. Так, в вышеприведенном примере задание мог-

ло иметь нагрузку 0,83 на фактор 1 и 0,42 на фактор 2, с ничтожно

малыми нагрузками на другие факторы. Это будет означать, что

примерно 68% дисперсии объясняется фактором 1, а 17%- факто-

ром 2, и приблизительно 15% остается на дисперсию, обусловленную

погрешностью.

Можно также возвести в квадрат нагрузки заданий на каждый

фактор. Если фактор 1 имеет, скажем, 10 нагружающих его заданий,

то квадраты этих нагрузок могут указать, какая часть дисперсии

заданий объясняется этим фактором. Если тест является эффектив-

ным, то большую часть дисперсии теста будет отражать один фактор.

 

ФАКТОРЫ ВТОРОГО ПОРЯДКА

Подобно таким переменным, как, например, интеллект и вер-

бальные способности, многие первичные факторы могут коррелиро-

вать. Можно подвергнуть факторному анализу корреляции между

первичными факторами, и в качестве результата получить факторы

второго порядка. Они, в свою очередь, тоже могут коррелировать, и

будучи подвергнуты факторному анализу, дадут факторы третьего

порядка. Следует заметить, что факторы второго порядка нагружают

первичные факторы и являются, таким образом, более широкими

конструктами, чем первичные факторы. Действительно, чем выше

порядок факторов, тем шире они будут как конструкты.

Как мы видели, фактор может рассматриваться как конструкт,

определяемый его факторными нагрузками и отражающий долю ва-

риации (количественно отражаемой дисперсией), вносимой каждым

заданием, и объясняющий взаимные корреляции. Следовательно,

 

240

 

факторный анализ - это метод упрощения корреляционной матри-

цы. Royce (1963) трактует факторы первого порядка как взаимовлия-

ющие описательные переменные, что сжато отражает взаимные кор-

реляции. Факторы более высокого порядка рассматриваются в виде

гипотетического конструкта - сжатого представления взаимовлия-

ющих переменных.

 

ВРАЩЕНИЕ

Это основная проблема в фактором анализе, значение и примене-

ние которой будет обсуждено в этой главе далее. Вначале я хочу

описать ее настолько ясно, насколько это возможно.

В факторном анализе нет a priori метода для определения положе-

ния факторов. Можно вращать оси одна относительно другой и таким

образом изменять факторные нагрузки. Это, однако, не изменяет

полной дисперсии, изменяются только ее пропорции, объясняемые

каждым фактором.

 

ПРОСТАЯ СТРУКТУРА

При условии неопределенности в положении факторов и, следо-

вательно, в значениях факторных нагрузок, с очевидностью возни-

кает вопрос: в каком же положении должны находиться факторы?

Thurstone (1947) предположил, что факторы должны быть поверну-

ты так, чтобы они образовали простую структуру, определяемую как

достижение для большинства факторов нулевых нагрузок при высо-

ких нагрузках для нескольких оставшихся. Естественным основани-

ем для простой структуры, как утверждают Cattell и Kline (1977),

является принцип, получивший название «бритва Оккама» . Этот

принцип провозглашает, что не следует множить сущности без необ-

ходимости; другими словами, из объяснений для некоторого набора

фактов лучшим будет то, которое является наиболее экономным и

простым.

Теперь факторно-аналитическое решение может рассматривать-

ся как объяснение некоторых фактов (наблюдаемых корреляций).

Каждое положение при вращении является еще одним объяснением,

и простая структура является, по определению, самой простой пото-

му, что каждый фактор произвольно вращается так, что он будет

связан, но сильно, с небольшим количеством переменных. Хотя спе-

циалисты по факторному анализу пришли в основном к единому

мнению в том, что простая структура является решением проблемы

неопределенности в факторном анализе (напр., Harman, 1964), су-

 

Оккам Уильям (ок.1285-1349) - средневековый <игл. теолог и философ, круп-

нейший представитель номинализма (Прим.ред.)

 

241

 

чить. При этом существует одна техническая проблема, которую мы

не будем здесь затрагивать. Достаточно сказать, что простая струк-

тура может быть получена путем максимизации количества нулевых

нагрузок на факторы (полное обсуждение приведено в Cattell, 1966).

Основной причиной очень краткого изложения методик получения

простой структуры является то, что, как увидим далее, при разработ-

ке тестов не всегда нашей целью является построение простой струк-

туры. Это происходит потому, что в соответствии с другим решением

проблемы неопределенности факторов предполагается (на основании

теории) другая факторная структура, и факторы вращаются так,

чтобы они приближались к заданному этой структурой положению

настолько близко, насколько возможно. Это, по существу, то, что

делается при конструировании тестов, когда мы убеждаемся, что,

вероятно, существует некий генеральный фактор, и нашей целью

становится решение, создающее генеральный фактор. Генеральный

или общий фактор - это фактор, который нагружает большое коли-

чество, если не все, переменные, и такое решение, следовательно,

является противоположным простой структуре. Все эти моменты,

имеющие отношение к конструированию тестов, будут полностью

обсуждены ниже, при изложении практических методик.

Резюмируя, можно сказать, что простая структура - это факто-

рное решение, при котором каждый фактор имеет небольшое коли-

чество высоких нагрузок, тогда как все остальные нагрузки настоль-

ко близки к нулю, насколько возможно.

 

(1) Генеральный фактор. Он был определен выше как фактор с

нагрузками по всем или почти по всем переменным.

(2) Специфический фактор. Это фактор, специфичный для ка-

кой-либо отдельной переменной.

(3) Групповой фактор. Это фактор с нагрузками на группу пере-

менных.

(4) Ортогональные факторы. Это факторы, которые не корре-

лируют между собой. Для их получения факторные оси вращаются

так, чтобы они располагались под прямыми углами друг к другу. Так

как они не коррелируют, то, если факторы были повернуты в ортого-

нальное положение, дальнейшее получение факторов второго или

более высокого порядка уже невозможно.

(5) Зависимые (облические) факторы. Это коррелирующие фак-

торы, так что факторные оси стоят под острыми углами. Корреляция

между факторами равна косинусу угла между ними. Обычно, в тех

случаях, когда должна быть получена простая структура, необходи-

мо косоугольное положение, как это и определено у Thurstone (1947).

 

242

 

Проблемы в факторном анализе

 

Если принять определение фактора как операционно определяе-

1 мого конструкта, становится ясно, почему целый ряд авторитетов в

. области психометрии - Spearman (1927), Thurstone (1947), Burt

- (1940), Guilford (напр., 1959), Cattell (напр., 1957) и Eysenck (напр.,

1952) - считали факторный анализ наиболее важным для научной

психологии методом. Рассматривая, например, такую сложную об-

ласть, как сферу личности, можно концептуализировать ее в терми-

нах понятий, почти не поддающихся измерению и, следовательно,

рациональному оцениванию, например, таких как «эрос» и «тана-

тос» (Freud, 1920), или вместо этого использовать факторы, для

которых показано, что они являются объяснением для определенных

долей дисперсии и являются математически определенными - кон-

структы, дающие объяснение наблюдаемым корреляциям. Действи-

тельно, как указывает Eysenck (1953), факторы также являются эко-

номными описаниями, особенно факторы высших порядков.

Иное, еще даже более важное свойство факторов состоит в утвер-

ждении об их причинной (каузальной) природе. Cattell (1966) утвер-

ждал, что в математической модели факторного анализа, особенно

если вращением факторов получена простая структура, предполага-

ется, что факторы являются причинными силами (явлениями). Это,

однако, крайняя точка зрения. С другой стороны, не может быть

никакого сомнения в том, что факторы могут быть причинными яв-

лениями. Eysenck (1953) приводит прекрасный пример, утверждая,

что если бы факторизации были подвергнуты симптомы туберкулеза,

то тогда бы возник фактор, нагружающий все эти симптомы, и, сле-

довательно, его можно было бы интерпретировать как туберкулез-

ную гранулему, являющуюся причиной заболевания. Однако, не-

смотря на такую потенциальную возможность - получать краткие,

математически определенные конструкты, имеющие, по крайней ме-

ре иногда, каузальную природу - факторный анализ не был широко

принят в психологии, с учетом тех проблем, которые сейчас будут

кратко рассмотрены.

 

ПРОБЛЕМА НЕОПРЕДЕЛЕННОСТИ

Эта трудность, обсуждавшаяся нами при рассмотрении простой

структуры, привела к тому, что многие психологи, не работавшие с

факторным анализом, отказались от этого метода. К ним относится и

Heim (1975). Однако, введение понятия простой структуры как наи-

более краткого описания, а также то, что многие специалисты, рабо-

тавшие в этой области, настаивают на том, что факторы и факторные

 

243

 

« Ca, ..

Гилфорд в работе пп т яолеть эти разногласия.

 

важно,врае-и (Guild, 1959) и, .тоболее

 

чку зрения, что ортогональ

более простыми. Он утвер T «Разике являются

связанныхмеждусобойТак множество составных но

-ым результат тТиб: « «Р--м и эле

ство простых, но коррелируТ Tа Данных, чем множе-

ном счете, -

 

да»« изложении; оно прия иДимости принимать в

 

саетсяарментоввпользй» «осколькука-

того, что простая струкрйРРДнеотрицает

Рь проблему неоре ««ет эффено

 

«РР» отличается о асТичоГ «Ї «Р

ЇР ОРЯ, первое критичко «Рения.

««РДенности в факторноа Tе относительно не-

 

тем обязательного привенизу « Ровергнуто пу-

«РВОСПРОИЗВО «Рой структуре

 

TА ПОРОЧНОГО КРУГА

Проблема порочного imv

 

0975) и Mischel 1968). например, Непп

поскольку вы полаиТ РН»Й анализ бес-

 

«РествуютдвамоаT закладываете.

вых, как показывает вышегг ЇУ» обсуждения Во-пео

1953), это утвержден неТT»нка (Еу

загадывался ву Р-за никое

являетсяновымпонятиА» «икающий конструкт

жащий в основе выполни» РьTй фактор, /

а-е не был заложен вце «- спосно,

ныи для объяснения няfi-» Это конструкт вврпрн

е-и мы не С Друст-

 

«никакофактое обности Х , то

 

Форный анализ отличая TтT « с-

логическоп) исследования, «><ои ДРУГОЙ модели психо-

 

сощи. -Ф-орныйанализнеможет

измеряет ли он что-нибудь ДРУми словами

 

«T ПРИ этом иирсярТзТиT ньдан

««ими факторами еичег» «Мифическими

 

«ьишьданном;Тс- Р

у. ЕСЛИ же при факторном ана-

 

244

 

1лизе обнаруживается, что некоторый тест нагружен этим фактором

1так же, как и другие тесты, то данная способность не может быть

специфичной для данного теста. Опять-таки, если мы найдем тест,

имеющий высокие нагрузки по тестам интеллекта, принятым даже

.самой Heim (например, ее собственные тесты АН5 и АН6; Heim и др.,

1970), то фактически этот тест также будет измерять интеллект. В

этом вопросе Heim ошибается, как и многие другие критики факто-

рного анализа, которые сами никогда не использовали эту методику.

В заключение можно сказать, что два фундаментальных критиче-

ских возражения против использования факторного анализа как ме-

тода могут быть (и в работах лучших специалистов по психометрии

были) опровергнуты. Приведенные вращением к простой структуре,

воспроизводимые и идентифицированные по отношению к внешнему

критерию факторы не могут подвергнуться критике ни по одному из

упомянутых оснований. При этом предполагается, конечно, что были

выдержаны технические критерии для эффективной факторизации

(описанные ниже, стр. 248), такие как адекватное формирование

выборок испытуемых и переменных.

 

Конкретные проблемы факторного анализа при разработке тестов

 

Как должно быть теперь понятно, основание для использования

факторного анализа при конструировании тестов - это разработка

заданий, нагружающих некоторый общий фактор, который объяснял

бы большую часть их дисперсии. Однако, помимо общих сложностей

существуют определенные конкретные проблемы, возникающие при

использовании обсуждавшейся выше методики.

 

ВЫБОР КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ

Как обсуждалось ранее в разделе о процедуре анализа заданий,

есть три вида коэффициентов, которые обычно используются для

вычисления корреляции дихотомических показателей: четырех-

польный коэффициент корреляции rt, коэффициент <р и индекс G

(НоНеу, 1973). Коэффициент <р - это сокращенная форма формулы

произведения моментов Пирсона, и он дает те же самые значения

коэффициента, которые были бы получены, если бы в формулу вы-

числения корреляции / подставлялись стандартные показатели зада-

ний. А это важно, поскольку то, что коэффициент <р является мате-

матическим эквивалентом коэффициента произведения моментов,

означает, что он может быть использован как основа для дальнейшего

статистического анализа. Однако, поскольку доля ответов на задания

теста, совпадающих с ключевыми, при вычислении коэффициента

<р отклоняется от 50 %-ного уровня, то <р, даже при высоком значе-

 

245

 

l:-ooe.

 

«нет>). Наличие «да»

Факторизацик «Уников отклонений

 

сказано, кромеобосноваТ « « « будет ниче

в качестве основы для фактов ««использоваться

причине, чтоон неяяа Э происходит по

произведения момев >ивалентом коэффи-

быть сделаны выводы к « . о по нему

Разрабатывались тесты вкопыР-Ране

Фнтыкоррь четырехполь!

«о эта процедура при является работа Barnes

, и во всех wynJc Р» объем вы

ВДо только на оснаню «Риие может быть оп-

ент корреляции является «о»<й коэффици-

 

произведения моментов. В нТднГ «ФФиента

использования . « « никаких оснований для

 

НогопоказательРазранный

 

«973). Hampsonn Kline (1977) та полненных Hoiley

нии показателей, получен ««« «и»м при исс

тестов. По сравнениL «опомощьюпро-

преимуществ, чне» «сказатель G

Длязаданийтестаилипол»«« значений

 

идеальным решением.Т»УTим,хотине

проблем, посравнениюсдиГЇ»T возникает меньше

ся многими ведущими р»ионприменяет-

 

<еннымэквв- И он, конечно же,

изведения моментов, итом коэффициента корреляции про

 

МАЛАЯ ДИСПЕРСИЯ ИНТЕРКОРРЕЛЯЦИЙ МЕЖДУ ЗАДА-

ШИЯМИ ТЕСТА

; Самые четкие, определенные результаты факторный анализ дает

1 тогда, когда значения корреляций между переменными имеют широ-

,кий разброс дисперсии. Было показано, что наиболее легко простая

структура может быть получена тогда, когда есть большое количест-

; во нулевых корреляций (Cattell, 1966) - гиперплоскость - и это,

конечно, также способствует появлению четко определенных факто-

ров, если в процедуре анализа существуют некоторые переменные

(задания) с высокими значениями корреляции. Однако, как указы-

вает Nunnally (1978), корреляционная матрица взаимных корреля-

ций между заданиями обычно не удовлетворяет этим условиям. При

использовании дихотомических заданий средняя корреляция имеет

значение только около 0.2, хотя такое положение может быть слегка

улучшено, если матрица будет составлена для заданий с несколькими

вариантами ответов. При таких значениях корреляции вряд ли будут

выделены явные отчетливые факторы.

 

ПРОБЛЕМЫ С ВРАЩЕНИЕМ

Обсуждаемая в этом параграфе проблема носит более общий ха-

рактер. Для простой структуры не требуется, по определению, ника-

кого генерального фактора. Тесты же конструируются, чтобы найти

генеральный фактор. Следовательно, выполнение вращения для дос-

тижения простой структуры не имеет смысла. В идеале, необходим

метод, максимизирующий генеральный фактор. Поскольку метод

главных компонент (не подвергнутое вращению решение) всегда по-

рождает первый генеральный фактор, за которым следуют биполяр-

ные факторы (т.е. факторы, имеющие примерно одинаковое количе-

ство положительных и отрицательных нагрузок), некоторые разра-

ботчики тестов оставляют факторную матрицу без вращения. Ниже

обсуждается, как эта проблема может быть решена на практике.

 

ИДЕНТИФИКАЦИЯ ФАКТОРА

Когда создано множество заданий, нагружающих некоторый об-

щий фактор, все еще необходимо идентифицировать этот фактор, и

это становится частью исследования валидности теста. Достаточно

сказать, что установки на ответы, такие как установка на согласие

(Cronbach, 1946 - склонность к выбору ответа «да») и социальная

желательность (Edwards, 1957 - тенденция давать социально при-

емлемые ответы), могут снижать валидность явно однофакторных

тестов.

 

246

 

247

 

Решение проблем

 

В качестве первого шага будут приведены практические правила

для методически корректного выполнения факторного анализа, при-

веденные Cattell (1973) и Cattell и Kline (1977), поскольку в этих

правилах могут быть найдены некоторые решения для перечислен-

ных выше проблем.

 

(1) Обоснованная стратегия выбора переменных.

(2) Широкий охват исследуемых категорий людей при формиро-

вании выборок испытуемых.

(3) Решение о количестве факторов, которые бы соответствовали

объективному тесту.

(4) фиксация общностей. (См. также гл.5., стр. 180).

(5) Единственное решение при вращении факторов.

(6) Проверка значимости простой структуры.

(7) Проверка степени устойчивости (инвариантности) факторной

структуры во всем исследовании.

(8) Проверка устойчивости (инвариантности) структуры более

высокого порядка.

 

Эти правила были разработаны как набор критериев для оценива-

ния процедуры факторного анализа не только для психологических

тестов, но здесь мы будем рассматривать их применительно к задаче

конструирования тестов. Стратегия выбора переменных при конст-

руировании тестов имеет решающее значение. Если, например, мы

пытаемся разработать тест экстраверсии и, по случайности, не вклю-

чили в него задания, касающиеся общительности (sociability), тогда

с необходимостью любой из возникающих факторов не может быть

нагружен общительностью. Полученная картина экстраверсии будет

неточной. Следовательно, правило 1 подчеркивает необходимость

строгого обоснования при формулировании заданий для конструи-

рования факторизованных тестов. Без этого вся мощь факторного

анализа по выявлению базовых конструктов сводится на нет. При

разработке тестов факторный анализ является противоположностью

слепому эмпиризму. В терминах классической модели погрешностей

измерения правило 1 гласит, что задания должны соответствующим

образом отбираться из генеральной совокупности заданий (что, в

свою очередь, требует точного ее определения).

 

Общность (communality) - общее изменение данной переменной, обусловлеиное

факторами, общими для этой и других переменных совокупности; определяется

как сумма квадратов факторных нагрузок всех ортогональных общих факторов для

данной переменной (Прим.перев.)

 

248

 

Одним из критических замечаний в адрес факторного анализа

заданий, приведенным ранее, является неизбежный недостаточный

разброс значений корреляции между заданиями теста (малые значе-

ния дисперсии). Путем соответствующего формирования выборки из

испытуемых, не являющихся однородными по измеряемой перемен-

ной, можно до некоторой степени избежать этого, так как разнород-

ная выборка обеспечит максимально возможную дисперсию значе-

ний корреляции между заданиями. Но при этом мы не должны нару-

шать обсуждавшиеся ранее правила по формированию выборок для

процедуры анализа заданий, а именно то, что выборка испытуемых,

при помощи которых мы пытаемся испытать тест, должна отражать

популяцию, для которой он предназначен. Таким образом, соответ-

ствующее формирование выборок поможет обеспечить адекватную

процедуру факторного анализа.

Правила (3) - (6) не могут быть применены непосредственно, без

подробного рассмотрения факторного анализа заданий. Это происхо-

дит потому, что они связаны с получением простой структуры, при

которой почти неизбежно в таких областях исследований, как спо-

собности, темперамент или динамика, будет выделяться небольшое

количество зависимых (облических) факторов.

Однако, как показывает Harman (1976), целью практически всех

видов программ вращения факторов, независимо от того, являются

они ортогональными или нет, является выделение факторов с неболь-

шим количеством высоких нагрузок и большим количеством ничтож-

но малых нагрузок. Однако, гипотезой, лежащей в основефакторного

анализа заданий, является предположение о существовании единого

генерального фактора, объясняющего большую часть дисперсии. По-

скольку анализ по методу главных компонент автоматически порож-

дает некий генеральный фактор, за которым следуют биполярные

факторы в порядке убывания доли объясняемой ими дисперсии, в

случае факторного анализа заданий может быть допустимым исполь-

зование в качестве решения не подвергнутых вращению компонент.

Конечно, вращение для достижения простой структуры не должно

осуществляться автоматически, без тщательного рассмотрения от-

дельной переменной или переменных, которые мы пытаемся изме-

рить.

Последние два правила, (7) и (8), являются важными, так как они

подчеркивают необходимость того, чтобы факторы были воспроизво-

димыми, прежде чем будут предприняты какие-либо попытки их

экспериментальной идентификации,- и это касается факторов как

первого, так и второго порядков. Конечно, если мы хотим получить

факторы более высокого порядка, необходимо выполнить их враще-

 

249

 

ние для достижения простой косоугольной структуры. Понятно, что

из ортогональных основных компонент не могут быть получены фак-

торы более высоких порядков.

Приведенные практические правила для выполнения методологи-

чески адекватного факторного анализа - основа тех процедур, кото-

рые будут рекомендованы для конструирования факторно-аналити-

ческих тестов. Во избежание повторения методов, идентичных при-

веденным в разделе о процедуре анализа заданий, будут даны соот-

ветствующие ссылки.

 

Процедуры конструирования факторно-аналитических

тестов

 

ЗАДАНИЯ

Здесь имеет силу все, что было сказано о заданиях выше. Одни и

те же задания могут быть подвергнуты и уже известной процедуре

анализа, и факторному анализу. Однако, существует еще одна осо-

бенность. При факторно-аналитических исследованиях заданий ча-

сто удобно исследовать одновременно более, чем одну переменную.

Так, если бы нам необходимо было разработать несколько тестов, то

все задания могли бы анализироваться вместе. Это помогает выпол-

нять вращение для получения простой структуры, так как для фак-

тора каждого теста задания другого теста, особенно если они не имеют

корреляций, играют роль гиперплоскости.

Здесь следует высказать предостережение. Если испытуемым

предъявляется слишком много заданий, то из-за усталости, скуки,

если не сказать, враждебности, ответы на задания могут быть низкого

качества. Это с большей вероятностью произойдет, если мы пытаемся

выполнить тестирование по нескольким тестам одновременно.

 

ФОРМИРОВАНИЕ ВЫБОРОК

Все, что говорилось о формировании выборок для выполнения

анализа заданий имеет место и в случае факторного анализа. Единст-

венное различиесостоитвобъеме выборки. Согласно Nunnally (1978)

отношение количества испытуемых к количеству заданий должно

быть 10: 1. Для 100 заданий необходимо 1000 испытуемых. Посколь-

ку необходимы отдельные выборки для мужчин и для женщин, это

приводит к значительным трудностям при формировании выборок.

Однако, с моей точки зрения, утверждение Nunnally о необходи-

мом количестве испытуемых не оправдано по следующим причинам:

 

(1) Требуемое количество испытуемых (в десять раз больше, чем

заданий) превосходит то, что считается достаточным у большинства

других авторов. Например, Guilford (1956), как и Vernon (1964)

 

250

 

довольствуются отношением 2 : 1. Barrett и Kline (1980) в исследова-

нии заданий EPQ показали, что при соотношении 2 : 1 отчетливо

выявились основные факторы. Отношение 3 : 1 дает нагрузки, по

существу идентичные тем, которые получают при соотношении

10 : 1. Хотя 2 : I - это минимальное количество, результаты иссле-

дований с такой выборкой не могут быть оспорены.

(2) При условии, что (как предполагается в правилах (7) и (8)

выше) результаты факторного анализа заданий являются воспроиз-

водимыми, необходимость в огромных выборках сводится к миниму-

му.

(3) И наконец, чтобы получить воспроизводимые результаты

факторного анализа, стандартные погрешности корреляций должны

быть уменьшены настолько, насколько возможно. По этой причине

требуется выборка объемом примерно 200 испытуемых, даже если

испытывается относительно небольшое количество заданий. Мини-

мальный объем выборки - это, конечно, 100 испытуемых.

 

ФАКТОРНЫЙ АНАЛИЗ ЗАДАНИЙ

(1) Вычислите количество испытуемых из каждой выборки, дав-

ших ключевые ответы на каждое задание. Это идентично вычисле-

нию значения Р в процедуре анализа заданий.

(2) Вычислите значения коэффициента <р взаимной корреляции

заданий.

 

Возможная альтернатива коэффициенту <р. Из-за трудностей в

получении ясной, простой структуры по взаимным корреляциям

междузаданиями, Cattell (1973) предложил группирование заданий,

при котором основу корреляционной матрицы составляют группы

заданий, однородных, но не обязательно факторно-однородных. Эту

процедуру Cattell и Bolton (1969) применяли при исследовании тес-

тов 16PF и ММР1. Однако, возникает проблема в группировании

заданий (хотя эти группы более надежны и обеспечивают более вы-

сокие взаимные корреляции, чем отдельные задания). Если группы

заданий слишком велики, то они не будут ничем отличаться от шкал

и, в любом случае, на более поздней стадии необходимо будет выпол-

нить отдельную процедуру анализа для заданий из каждой однород-

ной группы, так как не будет получено никакой информации о зада-

ниях внутри групп. По этим причинам, хотя представляется, что

группирование заданий помогает преодолеть проблемы, связанные с

отдельными заданиями в факторном анализе и получить ясные ре-

зультаты, потери информации о каждом задании слишком велики,

чтобы этот метод мог рассматриваться как ценный при конструиро-

 

251

 

вании тестов, хотя он, вероятно, будет полезен при исследовании,

когда шкалы еще не выделены.

 

ВЫВОДЫ

При конструировании факторно-аналитических тестов наилуч-

шим из приемов по-прежнему остается: (а) вычисление для каждого

задания значения Р ; и (б) вычисление значения коэффициента (р

корреляции между всеми заданиями.

 

Факторный анализ матрицы

 

Трудность здесь, как уже говорилось, состоит в том, что при вра-

щении обычно уменьшается значение главного фактора, возникаю-

щего на первом этапе анализа по методу главных компонент. С дру-

гой стороны, маловероятно, что анализ по методу главных компонент

будет давать воспроизводимые факторы, любой первичный фактор

является искусственно генеральным (как артефакт). Большинство из

наиболее известных исследователей, в том числе Кэттелл, Айзенк и

Гилфорд, подвергали полученные ими факторы вращению, и это,

похоже, несмотря на трудности, дало даже лучшие результаты в

попытке получения простой структуры. Так больше вероятности

получить воспроизводимые результаты.

Если возможно, постройте одновременно несколько различных

шкал. Это позволит реализовать вращение для получения простой

структуры. Даже если сконструирована только одна шкала, обычно

существует достаточное количество второстепенных факторов, что-

бы обеспечить получение значимой простой структуры. Как и для

процедуры анализа заданий, результаты факторного анализа долж-

ны быть кросс-валидизированы на новых выборках.

 

Отбор заданий после факторного анализа

 

После того, как задания были отобраны в результате факторного

анализа, применяется точно такая же процедура, как и в случае

анализа заданий, с единственным отличием, касающимся статисти-

ческого критерия: факторные нагрузки данного задания на фактор

теста должны превышать 0.3, а все другие факторные нагрузки этого

задания должны быть примерно равны нулю. Здесь не используется

термин «значимо», ибо статистическая значимость подвергнутых

вращению факторных нагрузок остается поводом для разногласий

среди специалистов по статистике.

Все другие критерии, величина, применимость содержания, зна-

чение/ для заданий идругие процедуры, вычисление коэффициента

надежности K-R20 и 6 Ферпосона, переформулирование заданий в

 

252

 

свете сравнения анализа заданий и последующих повторных испыта-

ний заданий,- являются в точности такими же, как и в случае ранее

обсуждавшейся процедуры анализа заданий.

 

Если тест сформировать не удалось

 

Если задания были подвергнуты факторному анализу, то случаи,

когда не удалось найти достаточное количество адекватных заданий

(при условии, что они были соответствующим образом переформу-

лированы и еще раз испробованы, исходя из результатов первой

процедуры факторного анализа), обычно могут быть легко определе-

ны. Так, если мы рассмотрим случаи, отмеченные ранее, то можно

утверждать следующее.

Такой переменной не существует. В этом случае для большин-

ства заданий не будет никакого фактора с явными нагрузками. Вме-

сто этого на каждый фактор будет по небольшому количеству нагру-

жающих его заданий, и каждое задание будет нагружать несколько

факторов. Значения Ъочти всех нагрузок будут маленькими, и ни

один фактор нельзя будет легко проинтерпретировать. Если такое

произойдет, то от этого множества заданий лучше отказаться и раз-

работать новые. Вероятно, более разумным будет заключить, что

данная переменная не имеет соответствующего основания, и попыт-

ки ее измерить должны быть прекращены.

Задания являются факторно сложными. Это выявляется непос-

редственно факторным анализом. Должны быть отобраны исключи-

тельно те задания, которые нагружают только один фактор. Если на

дисперсию заданий оказывают влияние два фактора, то следует от-

делить те задания, которые нагружают один фактор, и должны быть

сформулированы другие аналогичные задания. Такую же процедуру

необходимо выполнить и для заданий, нагружающих второй фактор.

При повторном испытании заданий это должно дать нам два удовлет-

ворительных теста. Следует отметить, что поскольку результаты

факторного анализа можно получить уже из первых вычислений,

этот недостаток может быть обнаружен задолго до начала второго

испытания заданий и устранен на этой ранней стадии.

Недостаточное количество эффективных заданий. Такой слу-

чай очевиден, когда мы имеем, скажем, двенадцать эффективных

заданий, тогда как все остальные задания имеют низкие нагрузки по

ряду факторов. Это устраняется переформулированием заданий по

аналогии с удачными, эффективными заданиями. Это, как и в пред-

ыдущем случае, может быть сделано на относительно ранних стади-

ях конструирования теста.

 

Неэффективные задания . Как говорилось ранее, это последнее

из возможных объяснение неудаче при создании заданий, которое

логически не может быть отвергнуто. Мы можем в этом убедиться

только переформулированием заданий и созданием эффективных.

 

Шаги вычислений

 

Нереально пытаться выполнять факторный анализ матрицы лю-

бого размера вручную, даже при наличии электронного калькулято-

ра. Поэтому здесь не будут изложены шаги вычислений факторного

анализа с вращением факторов. Алгебраические процедуры для этого

сейчас уже стандартизированы и полностью изложены в различных

учебниках. Несложное их описание читатели могут найти у Child

(1971). Хорошее обоснование с полными алгебраическими выкладка-

ми приведено в Harman (1976) и Tatsuoka (1971).

 

( I ) Все ответы на каждое задание должны быть для каждого испы-

туемого сведены в таблицы и оценены следующим образом: 1, если

был дан ключевой ответ на задание; 0 - в противном случае. При

ответе со многими вариантами выбора приводится показатель, пол-

ученный данным испытуемым по каждому заданию.

(2) Эти показатели затем вводятся в программу вычисления фак-

торного анализа. Обычно в результате мы получим корреляции,

главные компоненты и некоторый вид вращения факторов.

 

ВРАЩЕНИЕ

При обсуждении простой структуры утверждалось, что простая

структура, определениекоторойбылоданоТ1пт1опе (1947), обеспе-

чивает воспроизводимые результаты и дает краткое, а, следователь-

но, научное, объяснение экспериментальным данным. С другой сто-

роны, противоречие простой структуры и генерального фактора -

фактора, лежащего в основе заданий теста - делает этот подход

противоположным теоретическим основаниям конструирования тес-

тов. Наилучшим методом был бы такой, который бы имел целью

продуцирование генерального фактора (напр., «Прокрустовы проце-

дуры», предложенные Гилфордом и его коллегами) и при помощи

которого любая целевая факторизация достигалась бы настолько

близко, насколько позволяли данные. К сожалению, в работе Horn и

Knapp (1973) показано, что такие программы целевого вращения

могут выдать практически любой результат.

Wilson и Patterson (1970) при конструировании шкалы консерва-

тизма прервали процедуру факторного анализа на этапе выделения

главных компонент. Однако, этот результат, хотя и был получен

 

254

 

генеральный фактор, основывается на произвольном сочетании глав-

ных компонент.

Рекомендация выполнять вращение для получения простой

структуры - это решение, в большой мере выбранное за неимением

лучшего. Однако, его результаты, по всей вероятности, являются

воспроизводимыми, а с точки зрения простоты они превосходят дру-

гие. Следует заметить, что, хотя мы и хотим получить генеральный

фактор, то, если только все наши задания не являются эффективны-

ми (а при конструировании тестов это, несомненно, случается неча-

сто) , генеральный фактор существует только для завершенного тес-

та. Следовательно, простая структура не является столь алогичным

подходом к конструированию тестов, как можно было бы подумать.

Я также советовал бы использовать и ортогональное, и косоугольное

(облическое) вращение. Последнее необходимо, если требуется пол-

учить факторы более высоких порядков.

Ортогональное вращение. Представляется, что среди специалис-

тов по факторному анализу существует согласие по поводу того, что

наилучшим образом ортогональное вращение реализовано в про-

грамме Varimax (Kaiser, 1958).

Косоугольное (облическое) вращение . Можно отметить, что для

косоугольного вращения сейчас существует большое количество про-

грамм и методов. Gorsuch (1974) и Hakstian (1971) сравнивали раз-

личные методы эмпирически, как и Barrett и Kline ( 1982а). работая с

заданиями теста EPQ, они обнаружили, что пакет программ Direct

Oblimin дает превосходные результаты в достижении простой струк-

туры.

Поэтому я рекомендую для вращения факторов заданий исполь-

зовать программный пакет Varimax, если мы пытаемся сконструиро-

вать одну шкалу, и Direct Oblimin, если испытывается более чем одна

шкала. Такое косоугольное вращение важно, конечно, тогда, когда

желательно получить факторы более высоких порядков.

Следует упомянуть и еще об одном моменте. Важно подвергать

вращению только значимые факторы. Barret и Kline (1982а), как и

Carroll (1983), исследовали различные методы. Scree test Кэттелла

(Cattell, 1966) представляется весьма эффективным, хотя и должен

быть проверен другими методами.

 

Заключение

 

Конструирование факторно-аналитических тестов, как сейчас

уже стало очевидно, имеет преимущества по сравнению с тестирова-

нием, основанном на критериальных ключевых признаках, в том, что

в результате дает однофакторный тест. Однако, на практике, если

 

255

 

только не используются огромные выборки, как указывает Nunnally

(1978), часто трудно получить ясно очерченные результаты. По этой

причине Nunnally рекомендует выполнять процедуру анализа зада-

ний теста, за которой следует факторный анализ уже небольшого

множества отобранных заданий. Конечно, Barrett и Kline (1982b),

работая с EPQ, обнаружили очень высокую корреляцию между этими

двумя методами, настолько высокую, что с их помощью должны

отбираться практически одни и те же задания. Точка зрения Nunnally

представляется практическим, разумным подходом. Методы на осно-

ве критериальных ключевых признаков рекомендуется использовать

только тогда, когда необходимы быстрые процедуры отсева или отбо-

ра заданий, а их психологическое значение не столь важно.

 

Глава 10. Компьютеризированное тестирование,

индивидуально - ориентированное тестирование,

шкалирование по Рашу и изучение когнитивных

процессов

 

Компьютеризированное тестирование

 

Компьютеры, как уже говорилось, сейчас прочно вошли во многие

области нашей жизни. Психометрия не является исключением;

предъявление многих психологических тестов и обработка их резуль-

татов в настоящее время осуществляется при помощи персональных

компьютеров. Результаты также часто распечатываются непосредст-

венно после того, как испытуемый выполнил тест.

При этом существует несколько особенностей, которые будут рас-

смотрены отдельно.

 

Компьютерное представление стандартных тестов

 

В принципе любой тест (теоретически) может быть представлен

на компьютере. При компьютерном представлении тестов, в которых

используются сложные визуальные стимулы, такие как скрытые изо-

бражения, возникают практические трудности с точным представле-

нием этих стимулов в программах. Тесты, в которых используются

трехмерные объекты, все еще не могут быть представлены на компь-

ютерах.

Для каждого теста, представленного таким образом, должна быть

получена настолько высокая, насколько возможно, корреляция с

оригиналом и продемонстрирована его валидность, так как компью-

терное представление может значительно повлиять на последнюю.

 

ПРЕИМУЩЕСТВА КОМПЬЮТЕРНОГО ПРЕДСТАВЛЕНИЯ

ТЕСТОВ

По сравнению со стандартной формой представление тестов на

компьютере имеет несколько преимуществ. Одно из них - это то, что

проведение тестирования становится, по существу, автоматическим,

при условии, что испытуемые знакомы с работой на компьютере. Это,

правда, усложняется тем, что тестирование является индивидуаль-

ным. Если приходится одновременно тестировать большие группы,

то необходимо большое количество компьютеров, по одному на каж-

дого испытуемого.

Подлинным преимуществом компьютерного представления тес-

тов является то, что при этом становится возможным автоматическая

обработка и представление результатов, а также автоматизирован-

 

п л , QA 257

 

ное хранение данных в любой необходимой форме, чем обеспечива-

ется их статистический анализ. Другими словами, при компьютери-

зированном тестировании отпадает необходимость ввода результа-

тов тестирования в память компьютера для программной обработки.

Таким образом, с точки зрения разработчика тестов это в значи-

тельной мере упрощает трудоемкий процесс отбора и оценивания

заданий, так как все необходимые расчеты для анализа заданий и

факторного анализа могут выполнять программы, используя те дан-

ные, которые уже находятся в памяти микрокомпьютера, или, если

данных слишком много, они могут быть легко переданы для обработ-

ки в большую ЭВМ.

Путем разработки специализированных электронных клавиш-

ных пультов для фиксации ответов, подключенных к микрокомпью-

терам, можно предложить испытуемым отвечать на предъявленные

им задания, нажимая клавиши пульта, что также позволяет пол-

учать автоматический сбор и анализ данных без представления теста

на компьютере. Это позволяет (на многотерминальном компьютере)

тестировать одновременно до восьми испытуемых. При наличии де-

вятиклавишных пультов может быть использовано большое разнооб-

разие форм заданий.

Поскольку компьютерное представление заданий тестов позволя-

ет производить автоматический анализ данных, то для разработки

тестов было бы желательно наличие большого количества термина-

лов или компьютеров. Если их нет, то более быстрым и, следователь-

но, более эффективным будет обычный способ предъявления зада-

ний, а затем ввод данных для обработки в компьютер.

 

Компьютерная специфика тестовых заданий

 

Преимущество компьютеризированного тестирования, которое

еще предстоит осознать, состоит в возможности использования таких

заданий, которые не могут быть представлены никаким другим обра-

зом. Но все же тест не может быть лучше, чем составляющие его

задания. Так, компьютеризированная версия стандартного теста на-

поминает, вероятно, прекрасно оформленное издание книги, но

сафьяновый переплет не улучшит ее содержания.

Однако специфические компьютерные тесты позволяют исполь-

зовать задания, которые не могут быть представлены без компьюте-

ра. При разработке специфических компьютерных тестов следует

очень внимательно следить за тем, чтобы не создавать задания лишь

потому, что компьютер позволяет их реализовать. Другими словами,

для использования таких заданий должны быть веские основания.

 

258

 

Ниже приведены несколько примеров заданий для специфичес-

ких компьютерных тестов вместе с их обоснованием.

 

(1) Представление заданий EPQ и латентное время ответа. Осно-

вание: для вызывающих беспокойство заданий латентное время дол-

жно быть большим. В качестве подтверждения валидности теста мож-

но ожидать, что у испытуемых с высокими показателями по Л-шкале

будет увеличиваться латентный период ответа на задания, входящие

в эту шкалу.

(2) Время реакции на вопросы, требующие ответа «нравится-не

нравится», «люблю-не люблю» в описательных выражениях. Осно-

вание: подобно приведенному выше и связано с юнговским понятием

комплекса.

(3) Время реакции на суждение о подобии длины отрезка (линии).

Основание: скорость обработки информации является мерой gf (Jen-

sen, 1980).

(4) Время реакции на задачи выбора. Основание: работа Йенсена

о связи этого параметра с интеллектом (Jensen, 1982).

(5) Вращаемые фигуры: идентификация. Основание: очевидные

измерения способности к пространственной ориентации.

(6) Скрытые изображения, размещенные в матрице из точек.

Основание: компьютерный метод представления скрытых изображе-

ний, как и в стандартном тесте скрытых изображений.

(7) Задача подсчета точек с негативной обратной связью (в случае

правильного ответа испытуемый информируется о том, что он осуще-

ствил подсчет неверно, и наоборот). Основание: настойчивые испы-

туемые будут продолжать выполнять задание дольше при условии,

что им разрешено прекратить работу по собственному желанию.

 

Это простые примеры того, как компьютерные средства, особенно

такие, как расчет времени, необходимого для ответа, могут быть

использованы для разработки по-настоящему новых тестов и зада-

ний. Пример 7 представляет собой объективный компьютерный тест

настойчивости.

Эти примеры показывают, что ныне на клавиатуре персонального

компьютера могут быть реализованы задания такого широкого спек-

тра, о которых предшествующие поколения специалистов по психо-

метрии не могли и мечтать. Все, что необходимо, как и в случае с

формулированием стандартных заданий, - это воображение, твор-

ческий подход и мастерство выполнения технических процедур, опи-

санных в этой книге.

Хотя способность порождать вызывающие удивление задания -

особенность компьютерных тестов, это не является основным преи-

 

о 259

 

муществом компьютеризированного тестирования. Подлинная мощь

компьютеризированного тестирования состоит в осуществлении ин-

дивидуально-ориентированного тестирования.

 

Индивидуально - ориентированное тестирование

 

Как следует из названия, индивидуально-ориентированное тести-

рование (tailored testing) может быть определено как создание тес-

тов, в значительной мере приспособленных к каждому индивидууму,

проходящему тестирование. Опытные исследователи интеллекта не

обязательно предъявляют все задания шкал всем испытуемым. Обыч-

но они могут оценить необходимый уровень трудности и, следова-

тельно, предъявить небольшое количество заданий, прежде чем ис-

пытуемый достигнет порога, выше которого задания выполнить не

сможет. Можно предположить, что все предыдущие задания на шка-

ле трудности были бы выполнены испытуемым правильно. Мастерст-

во и проницательность исследователя позволяют ему создавать инди-

видуально-ориентированный тест интеллекта.

В случае индивидуально-ориентированного тестирования на мик-

рокомпьютере в программу предъявления заданий закладывается

аналогичная процедура. Сущность индивидуально-ориентированно-

го тестирования может быть описана в виде следующей последова-

тельности шагов:

 

(1) Коэффициент трудности задания (значение Р из процедуры

анализа заданий) сохраняется вместе с каждым заданием.

(2) Эти значения могут различаться для различных групп: напри-

мер, значение Р для полисменов и студентов; различные значения Р

для мужчин и женщин.

(3) Эти показатели трудности могут быть подвергнуты шкалиро-

ванию по Рашу, в этом случае они являются независимыми от попу-

 

ляции.

 

(4) Испытуемый вводит свое имя, возраст, пол и профессию (лю-

бое из этих сведений или все).

(5) В простейшем случае индивидуально-ориентированного тес-

тирования испытуемому предъявляется задание с уровнем трудности

50%.

(6) Если он выполнит его правильно, то ему предъявляется более

трудное задание; если неправильно - то более легкое задание.

(7) Работая таким образом, при помощи очень краткого теста

можно быстро определить уровень трудности для испытуемого.

(8) Более сложная программа может принять во внимание воз-

раст, пол и род занятий еще до предъявления первого задания, то есть

использовать информацию из шага (2).

260

 

(9) В противном случае, может быть представлен краткий набор

шкалированных по Рашу заданий, что позволило бы выполнять не-

зависимые от заданий и популяции измерения.

 

Преимущества

 

(1) При помощи относительно небольшого теста можно точно

измерять способности испытуемого.

(2) Это означает, что могут использоваться подмножества зада-

ний из их общего набора. Это идеальный вариант при повторном

тестировании (как и в исследовании по разработке теста).

(3) Краткость удобна в прикладной психологии (когда фактор

времени выходит на первое место). Это также полезно для удержания

у испытуемых интереса и внимания, которые могут ослабнуть, если

тесты будут слишком длинными.

 

Недостатки

 

(1) Основная проблема индивидуально-ориентированного тести-

рования состоит в том значении, которое придается уровню трудно-

сти (?). В сфере изучения способностей и достижений в обучении это

имеет смысл. Например, в основе математических задач лежит ре-

альная шкала трудности. В других областях исследований, таких как

черты личности и мотивы, это никоим образом не имеет места, и если

даже на основании значений Р и могут быть сконструированы инди-

видуально-ориентированные тесты личности, возможно, что их ва-

лидность будет вследствие этого меньше по сравнению с обычным

психометрическим тестом с большим количеством заданий. Насущно

необходимо исследование этого вопроса.

(2) Последняя проблема связана с необходимостью очень точного

определения значений Р и, следовательно, формирования больших

выборок для нормативной работы, если хотим, чтобы индивидуаль-

но-ориентированное тестирование было валидным. Очевидно, что

если статистические оценки для задания невысоки, то индивидуаль-

но-ориентированное тестирование будет неточным. По этой причине

часто, когда показатели для заданий являются независимыми от по-

пуляции, более предпочтительно использование шкалирования по

Рашу.

 

Шкалирование по Рашу

 

В главе 1 было описано шкалирование по Рашу и другие методы

конструирования тестов с использованием кривых зависимости «за-

дание-ответ». Были также описаны их преимущества по сравнению

с обычными методами разработки тестов и обсуждены некоторые из

261

 

проблем и ограничений для них. Здесь достаточно повторить, что, в

силу некоторых причин, особенно когда важно проведение повторно-

го тестирования и есть хорошо определенная генеральная совокуп-

ность заданий, шкалирование по Рашу может быть полезно. Теперь

будут изложены шаги вычислений для шкалирования заданий теста

по Рашу. Будет описано, что необходимо при использовании только

простейшего вида модели Раша - просто чтобы дать возможность

читателям понять суть процедуры. Более тщательно разработанные

методы остаются на долю специалистов, которые могут пожелать

использовать их для некоторых конкретных целей.

 

Описание модели Раша

 

Модель Раша уже была описана, и мы не будем повторять ее здесь.

Было показано, что вероятность ответа в модели Раша зависит от

двух параметров: /, степени выраженности данной черты у испытуе-

мого, и k, значения задания как средства выявления этой черты.

Считается обычным выполнять анализ модели Раша при помощи

компьютера.

 

Шаги вычислений при шкалировании по Рашу

 

(1) Предъявите задания испытуемым.

(2) Пример: хотя приверженцы шкалирования по Рашу утверж-

дают, что такой анализ заданий является независимым от выборки

испытуемых, Lord (1980) показал, что это преувеличение. Первое

оценивание (калибровка) заданий должно выполняться на репрезен-

тативной выборке, в противном случае оценки будут неточными.

Более того, чтобы удовлетворить статистические требования для по-

лучения наиболее статистически значимых оценок, необходимо по

крайней мере 1000 испытуемых. Но когда первоначальная оценка

заданий уже выполнена, шкалирование по Рашу уже является неза-

висимым от выборки, а все зависит от объема и репрезентативности

начальной выборки. Следовательно, она должна состоять как мини-

мум из 1000 испытуемых.

(3) Разбейте выборку на две группы: получивших высокие и низ-

кие показатели, причем все показатели испытуемых первой группы

должны быть выше любого из показателей испытуемых второй груп-

пы.

(4) Определите показатели по каждому заданию для каждого чле-

на этих групп следующим образом: 1 - правильное выполнение, 0 -

неправильное.

(5) Вычислите параметры модели Раша.

 

262

 

(6) Так как появляется ряд различных результатов, то они будут

изучаться отдельно.

(7) Компьютерная программа вычислений по модели Раша дает

значения коэффициентов трудности заданий вместе с их стандарт-

ными погрешностями, для каждого задания отдельно по двум груп-

пам. Считается, что задания удовлетворяют модели Раша, если их

показатели трудности в обеих группах одинаковы (в рамках стандар-

тной погрешности). Следует помнить, что эти группы совершенно

раздельны (в соответствии с их отбором, см. шаг 3) по отношению к

степени выраженности данной латентной черты. Обычные, нормаль-

ные показатели уровня трудности заданий должны будут показать,

что эти две группы никак не пересекаются.

(8) Отберите те задания, для которых в двух группах получены

одинаковые уровни трудности заданий.

(9) Если количество заданий недостаточное, сформулируйте дру-

гие задания в свете эффективных по модели Раша заданий. Следует

также изучить неудачные задания с целью их возможной коррекции,

чтобы увидеть и понять, почему задания не прошли отбор, и в даль-

нейшем избегать таких ловушек при формулировании заданий.

(10) Независимое от заданий измерение индивидуальных ка-

честв. Первые девять шагов связаны с анализом заданий по модели

Раша, дающим нам задания, имеющие одинаковые показатели уров-

ня трудности на двух совершенно отдельных выборках. Однако, те-

перь уже может быть выполнена вторая проверка (и гораздо более

важная, так как она составляет основную суть модели Раша). Дейст-

вительно ли различные подмножества заданий модели Раша дают

одинаковые показатели для индивидуумов или нет?

(11) Чтобы проверить, является ли измерение независимым от

заданий: (а) разделите задания модели Раша на две группы, одна из

которых должна содержать самые простые, а другая -самые трудные

задания. Очевидно, что средние показатели для испытуемых по двум

таким тестам будут различными.

(12) При помощи компьютерной программы найдите для каждого

испытуемого показатель по степени выраженности черты по каждому

тесту и связанную с ним стандартную погрешность измерения. Если

задания удовлетворяют модели Раша, каждый испытуемый в преде-

лах стандартной погрешности получит одинаковые показатели по

каждой группе заданий. Если испытуемые не получили одинаковые

показатели, следует эти задания удалить или переформулировать.

(13) Задания должны быть кросс-валидизированы. Задания, ото-

бранные ранее при помощи анализа по Рашу, должны быть предъяв-

лены новой выборке испытуемых для проверки их соответствия. Ра-

 

бота над тестом может считаться завершенной только тогда, когда

задания эффективно работают и на новых выборках.

(14) Если показатели испытуемых выходят за пределы эквивален-

тности по двум тестам, то это может происходить из-за угадывания

ответов, что является основной трудностью в применении модели

Раша (Nunnally, 1978). Мера, которую в этом случае можно принять

- улучшение качества дистракторов, что поможет избежать угады-

вания. Birnbaum (1968) разработал трехпараметрическую модель,

учитывающую возможность угадывания ответов, хотя Wood (1976)

утверждает, что это нарушает размерность модели.

(15) И, наконец, можно выполнить преобразование результатов

измерений уровня выраженности черты по шкалам Раша с интерва-

лом от +4 до -4 к шкале, показатели которой наиболее похожи на

получаемые при помощи обычных тестов. Это особенно важно, так

как большинство приложений этой модели относится к сфере образо-

вания, а учителя категорически против применения отрицательных

значений показателей для оценки способностей. Оценки трудности

заданий, как и оценки степени выраженности некоторой черты, яв-

ляются вероятностными, поскольку модель Раша является вероятно-

стной моделью.

 

Шкала, обычно используемая на шаге (15)- это шкала W или

Wits (Chopin, 1976). Из уравнений Раша можно видеть, что если

оценка способностей индивидуума превосходит уровень трудности

задания на одну единицу, то вероятность правильного ответа возра-

стает на 2.178. Как указывают Wilmott и Fowles (1974), шкала Wits

имеет произвольную точку отсчета 50, полученную путем преобра-

зования D = 50+4,55 d , где D - новое значение трудности задания,

d - значение уровня трудности, вычисленное по уравнениям Раша

при заданном среднем уровне трудности заданий, равном 0.

Эта шкала была выбрана потому, что в ней успешность испытуе-

мого и трудность задания связаны относительно понятным способом.

Для каждого различия на пять баллов между показателем индивиду-

альной выраженности черты и коэффициентом трудности задания

вероятность успешного выполнения задания возрастает или умень-

шается в три раза. Это чрезвычайно полезно при отборе подходящих

заданий в банки заданий для групп учащихся и составляет метод

индивидуального ориентирования тестов в соответствии с индивиду-

альными потребностями и получения при этом сравнимых средств

измерения способностей испытуемых.

 

264

 

Оценка процедур шкалирования по Рашу

 

Мы более не будем углубляться в конструирование шкал Раша,

потому что существует ряд проблем с методом их использования, за

исключением определенных случаев, имеющих ограниченное значе-

ние. В общем, за двадцать лет, с тех пор, когда была разработана эта

модель, она не являлась широко используемой, несмотря на очевид-

ные значительные преимущества, которые она предоставляет по

сравнению с тестами, основанными на классической модели погреш-

ностей измерения. Конечно, небольшое количество энтузиастов -

например, Wright (1967) и Andrich (1978) - продолжают поддержи-

вать ее, но пока на замечания, которые будут обсуждаться ниже, не

будет дано удовлетворительного ответа, шкалирование по Рашу не

заменит классическую модель.

 

Являются ли статистические оценки заданий

независимыми от выборки?

 

С моей точки зрения утверждение, что статистические оценки

заданий, полученные в соответствии с моделью Раша, независимы от

выборки, не является полностью верным. Конечно, могут быть най-

дены задания, которые для испытуемых, имевших наилучшие и наи-

худшие показатели, давали одинаковые значения уровня трудности

по Рашу. Однако, подлежат обсуждению два момента: во-первых, те

задания, которые не дают одинаковых результатов и, во-вторых,

результаты на других выборках.

Во-первых, это означает, что если задания не дают одинакового

результата на двух выборках, то, вследствие этого, не удовлетворяют

данной модели и отбрасываются. В некоторых случаях параметры

могут быть искажены угадыванием ответов, и некоторые особенности

формулировки заданий (вероятно, необходимость их понимания)

могут повлиять на поведение в группе с высокими показателями по

сравнению с группами менее способных испытуемых. Часто, однако,

не существует очевидной причины тому, что задание не проходит

отбор.

Во-вторых, задания удаляются как не соответствующие модели,

если они работают по-разному в этих двух группах. Однако, такое

оценивание заданий могло бы продолжаться до бесконечности, если

бы мы и дальше пытались испытать их на новых группах. Chopin

(1976), имевший значительный опыт работы с банками заданий,

утверждает, что «ни одно задание не удовлетворяет модели в точно-

сти»; если проверять их достаточное количество раз, то все задания

должны быть удалены.

 

265

 

Wood (1976) также указывает, что оценивание (калибровка) за-

даний является основной проблемой метода шкалирования по Рашу

и нелегко найти задания, удовлетворяющие модели; то есть задания

действительно отличаются от выборки к выборке и, таким образом,

не являются независимыми от выборки.

Рассмотрим пример Andrich и Kline ( 1981), в котором личностные

тесты применялись на двух популяциях, австралийских и британ-

ских студентах. Утверждалось, что шкалирование по Рашу путем

получения независимых от заданий средств измерения личностных

качеств будет полезно для кросс-культурных исследований. Конеч-

но, были найдены задания, удовлетворявшие модели Раша как для

австралийских, так и для британских испытуемых. Однако, означает

ли это, что мы могли бы использовать их для сравнения, скажем,

эскимосов и китайцев? Очевидно, что должны быть предприняты

исследования для получения новых оценок (калибровок) заданий.

Следовательно, результаты не являются независимыми от выборок.

Чтобы по-настоящему продемонстрировать независимость шкал

Раша от выборок, явно различным популяциям должны быть даны

задания тестов из разнообразных банков, причем статистические

оценки заданий должны оставаться теми же самыми. Замечания Cho-

pin (1976) и Wood (1976) указывают на то, что это не может быть

сделано. Если же это не может быть сделано, то исчезает одно из

важнейших преимуществ метода Раша. Конечно, если независимое

от выборок измерение при помощи заданий - это химера, то таким

же является и производное от него, независимое от заданий измере-

ние индивидуальности, поскольку так как калибровки заданий не

вызывают доверия, то доверия не вызывают также и измерения сте-

пени выраженности черт, в которых эти калибровки учитываются.

Так что «независимоеотвыборок» неявляетсяточнымопределением

шкалирования по Рашу. Как утверждает Wood (1976), а за ним и Lord

(1980), калибровку (оценивание заданий) лучше всего выполнять на

соответствующим образом стратифицированных выборках.

 

Дальнейшие критические замечания по шкалам Раша

 

Nunnally (1978) резюмирует некоторые дальнейшие возражения

против модели Раша и других подобных моделей, основанных на

характеризующих задания показателях, как это обсуждалось в Lord

и Novick (1968). В целом, дело заключается в предположениях, по-

ложенных в основу этих моделей, которые являются, вероятно, не-

верными,- момент, всячески подчеркивавшийся Levy (1973), кото-

рый утверждает, что попытка сконструировать психологический тест

на основе любой из этих моделей приводит к противоречию с психо-

 

266

 

логической природой переменных, которые мы пытаемся измерить.

Например, в этих моделях предполагается, что все задания имеют

одну и ту же дискриминативность (заданную крутизной кривой). В

теории латентных черт также предполагается, что ответам на зада-

ния соответствует только один фактор, - предположение, ошибоч-

ность которого была показана при помощи факторного анализа даже

для тех тестов, которые наиболее очевидно нагружали только один

фактор, такой, как g . Кроме того, в простой двухпараметрической

модели остается неучтенным влияние угадывания ответов.

Как показывает работа с банками заданий, выполнявшаяся Wood

и Skurnick (1969), а также Chopin (1976), и описанная в последней

книге, большинство калиброванных по Рашу тестов имели дело с

факторно простыми тестами, в которых концепция наличия един-

ственной латентной черты не вносила большого искажения. Однако,

даже в этом случае, как уже говорилось, задания не всегда удовлет-

воряют требованиям модели; это единственное, что заставляет со-

мневаться в ее значении.

И последнее критическое замечание по тестам, основанным на

этих моделях, состоит в том, что когда испытуемым предъявляются

обычные тесты и затем те же самые задания подвергаются процедуре

анализа и оценивания по Рашу, корреляция между этими двумя

тестами является чрезвычайно высокой, часто выше 0,9. Это опреде-

ленно имело место в исследовании тестов оральных черт личности,

выполненном Andrich и Kline (1981), где между результатами по

этим двум шкалам были лишь небольшие различия.

 

Использование шкалирования по Рашу

 

Несмотря на эти критические замечания, шкалирование по Рашу

имеет, вероятно, значение при формировании больших наборов за-

даний, так как калибровка заданий этим методом проще, чем выпол-

нение ее путем постоянной стандартизации на больших выборках.

Как уже говорилось, шкалы Раша полезны при разработке тестов,

когда необходимо проведение повторного тестирования. Надеюсь,

что сейчас уже очевидно, что можно представлять шкалированные по

Рашу задания на компьютере. В этом случае вместо индивидуально-

ориентированного тестирования, основанного на уровнях трудности

заданий, можетбыть представлено произвольное подмножество шка-

лированных по Рашу заданий.

Кратко говоря, шкалирование по Рашу может быть полезным

методом конструирования тестов, когда существует явно определен-

ноемножествозаданий, какдлятестированияприобучении. Однако,

по уже полностью описанным причинам, я бы не рекомендовал ис-

 

267

 

пользование этой модели в общей процедуре конструирования тес-

тов.

 

Когнитивный

 

подход к изучению

способностей человека

 

И, наконец, существует еще один подход к пониманию и измере-

нию способностей человека, который следует обсудить. Это попытка

связать психометрические исследования с экспериментальной ко-

гнитивной психологией. Этот подход возникает из-за неудовлетво-

ренности факторной моделью, основанной на том, что фактор, сам по

себе, не может объяснить природу способностей. Даже если, напри-

мер, регулярно проявляется текучая способность, gf, то ее факторные

нагрузки не являются индикаторами когнитивных процессов, кото-

рые, по-видимому, протекают, когда испытуемые проявляют свои

текучие способности при решении задач.

Данный подход к изучению способностей человека сейчас доми-

нирует, что видно по любой публикации на тему «интеллект». Од-

нако, его влияние на тестирование ограничено, поскольку, как мы

увидим, он применим к тестированию только тогда, когда для пере-

менных в некоторой степени обозначены пределы.

Can-oil (1980) перечислил и классифицировал все эксперимен-

тальные задачи, которые использовались в когнитивной психологии

и которые могли бы оказаться полезными (и в некоторых случаях

было показано, что они являются полезными) при разъяснении пси-

хометрических факторов способностей. Сутью метода, предлагавше-

гося Кэрроллом, являлась попытка прогнозировать эффективность

деятельности (успешность) по факторам, из успешности выполнения

элементарных когнитивных задач (elementary cognitive tasks -

ECTs). Так как каждая из этих задач - ECTs - является индикато-

ром психических процессов, такая работа объясняет природу психо-

метрических факторов. Хант ( напр.. Hunt, 1982) и его сотрудники,

Сноу из Стэнфорда и Кэрролл из Чеппел Хил, являются ведущими

американскими представителями этого направления.

Прежде чем приступить к дальнейшему описанию, следует отме-

тить по существу аналогичный экспериментальный анализ способно-

стей человека, разработанный Стернбергом и его сотрудниками и

описанный в многочисленных публикациях, в первой из которых

(Sternberg, 1977) его основания излагаются наиболее подробно. Это

компонентный анализ способностей. В этой работе, которая первона-

чально была связана с решением задач на вербальные аналогии,

модель эффективности (успешности) деятельности строилась в тер-

минах составляющих ее «процессов-компонент», и при помощи изо-

 

268

 

бретательного экспериментального представления аналогий эти ком-

поненты (время на выполнение определенных процессов) измеря-

лись и модель вводилась в тест. Одна из моделей Стернберга позво-

ляет прогнозировать эффективность деятельности индивидуума на

основе задач по вербальным аналогиям с очень высокой степенью, и

Стернберг считает эти компоненты важными при решении и других

разнообразных задач.

Kline (1985) утверждал, что в конечном счете может произойти

так, что выявятся первичные факторы, являющиеся естественными

процессами, и что компоненты и процессы, измеряемые при помощи

ECTs, не должны рассматриваться как радикально отличные друг от

друга. Проблема с установлением этих связей заключается в линей-

ности факторной модели, поскольку представляется очевидным, что

из процессов не комбинируется непосредственно эффективность де-

ятельности (КуПопепидр., 1984); индивидуумы не обязательно ком-

бинируют когнитивные процессы одним и тем же образом при реше-

нии явно аналогичных задач.

Я не намерен обсуждать далее информационный подход к иссле-

дованию способностей человека, а хочу лишь показать несколько

типичных ECTs, они приводятся ниже. Большинство их этих задач

имеют компьютерное представление, а получаемое измерение -

латентное время ответа испытуемого или некоторое его преобразова-

ние.

 

Некоторые типичные ECTs

 

(1) Задачи на установление порога восприятия. Испытуемым не-

обходимо распознавать уменьшающиеся стимулы.

(2) Аудиальная форма визуального задания, описанного выше.

(3) Время реакции при выборе. Испытуемого обучают (инструк-

тируют) , как отвечать. Время его реакции сравнивается со временем

реакции в условиях, когда обучения (инструктирования) не было.

(4) Задача на лексическое решение. Является ли некоторая после-

довательность букв словом или нет? Является ли слово членом неко-

торого класса или нет?

(5) Задача на лексическое решение. Имеет ли предложение

смысл?

(6) Идентичность наименований и физическая идентичность.

Стимулы считаются одинаковыми или различными. Предъявляются

вариации из фигур и их наименований.

Надеюсь, что этого описания достаточно для читателей, чтобы

понять суть когнитивного похода к изучению способностей человека.

 

269

 

А сейчас мы обратимся к вопросу о том, как эти методы могут влиять

на конструирование тестов.

 

Применение для конструирования тестов

 

Одним из следствий когнитивного подхода является, как утверж-

дает Carroll (1980), то, что можно было бы использовать ECTs в

качестве тестов, если бы была показана их надежность и валидность.

Если, например, для вербальных способностей важендоступ к долго-

временной памяти, то для ее измерения полезно будет использовать

надежную и дискриминативную ЕСТ. Однако использование в каче-

стве тестов не является наиболее важным аспектом ECTs, хотя у нас

в Эксетере мы зашли настолько далеко, что продемонстрировали

надежность ряда ECTs (Cooper и др., в печати).

Гораздо более важным, с точки зрения конструирования тестов,

является тот факт, что хорошее понимание когнитивных процессов,

имеющих место при выявлении способностей, позволяет разработчи-

кам тестов формулировать задания с точно известными характерис-

тиками, почти по алгоритму. Я приведу пример способности к про-

странственной ориентации, так как он иллюстрирует как сильные,

так и слабые стороны этого метода.

Kyllonen и др. (1984), помимо прочего, исследовали влияние тре-

нинга и специальных способностей на решение задач, связанных с

пространственной ориентацией. Одним из исследовавшихся факто-

ров были некоторые аспекты или характеристики заданий - в дан-

ном случае заданий на складывание бумажных фигур, взятых из

соответствующего теста (French, Ekstrom и Price, 1963). Исследова-

ния успешности в этой задаче выявили, что существует три измере-

ния трудности заданий и они являются важными детерминантами

индивидуальных различий в успешности их решения. Этими тремя

аспектами являются: количество изгибов на задание, количество

краев изгибов, скрытых от взгляда последующими изгибами, и коли-

чество асимметричных изгибов (то есть таких, которые не разделяют

симметричную фигуру).

Основным в данном случае для конструирования тестов является

то, что знание об измерениях трудности заданий (и о стратегиях,

используемых испытуемыми для решения задач, так как эти два

явления связаны) позволяет разработчикам тестов формулировать

задания с точным уровнем трудности, изменяющимся в зависимости

от количества изгибов, их скрытости и симметрии. Таким способом

задания данного уровня трудности, действительно измеряющие дан-

 

Эксетер (Exeter) - город в Великобритании, в котором работает автор и находится

университет (Прим.перев.)

 

270

 

ную переменную, могут быть сконструированы более или менее ав-

томатически, по правилам. В данном случае нет необходимости при-

влекать искусство формулирования заданий.

Интересно заметить, что уровень трудности задания связан со

стратегиями, используемыми испытуемыми и со способностью испы-

туемых к пространственной ориентации (как специальной способно-

стью) . Следует отметить, что трудность в этом смысле не является

нормативной, как уровень трудности заданий, устанавливаемый в

процедуре анализа заданий. Она объективно зависит от сложности

отдельных аспектов задания.

Преимущества этого метода формулирования заданий, его объек-

тивность и алгоритмическое качество очевидны. Обычно, однако,

такие отдельные аспекты заданий могут быть выделены только для

относительно узких и специфических переменных. Более общие или

широкие факторы, такие как, скажем, гибкость (flexibility), будет

трудно анализировать подобным образом.

Работа Стернберга с невербальными аналогиями подобна той,

которая уже обсуждалась выше. Сходство в том, что в его тесте People

Pieces Test использовались такие задания на аналогии, для которых,

опять-таки, исходя из знания о модели, лежащей в основе решения

таких заданий, может быть точно задан их уровень трудности. Так,

Стернберг представляет схематические человеческие фигуры, кото-

рые могут различаться по четырем двузначным параметрам: высоте,

толщине, полу и цвету одежды. В соответствии с моделью Стернберга

уровнем трудности заданий на аналогии можно точно управлять при

помощи варьирования количества изменяемых параметров у пар эле-

ментов, между которыми должны устанавливаться аналогии. Как и

выше, прианализеотдельныхаспектов, уровеньтрудностьобъектив-

но определяется характеристиками задания и не является норматив-

ным понятием.

Этот раздел будет закончен утверждением, что в случаях, когда

существуют хорошие модели способностей (и если это не весьма

«узкие» задачи, такие как невербальные или геометрические анало-

гии и задания на пространственную ориентацию) анализ отдельных

аспектов заданий может позволить формулировать задания с точно

заданным уровнем трудности. Однако, для способностей многих ви-

дов это невозможно, и наши собственные исследования флексибиль-

ности предполагают, что предстоит еще долгий путь исследования

переменных такого рода (May и др., 1986). Несмотря на это, для

определенных переменных способностей анализ аспектов будет по-

лезным методом анализа заданий. Однако, необходима и некоторая

предосторожность. Поскольку было показано, что индивидуумы не

 

всегда используют одни и те же стратегии, и что стратегии разных

индивидуумов различаются, то для заданий, полученных при помо-

щи анализа аспектов, полученные уровни трудности будут все же

изменяться, так что для практической разработки тестов трудность

заданий должна быть изучена и проверена на выборках. Тем не

менее, верно то, что когда исследования когнитивных процессов

окончательно выявят процессы, лежащие в основании всех факторов,

тогда анализ аспектов заданий станет возможным и формулирование

заданий будет полностью алгоритмизировано. До этого времени су-

щественно важным остается искусство формулирования заданий, об-

суждавшееся в данной книге.

Должна быть поставлена последняя точка. Я не думаю, что для

разработчика тестов разумной стратегией будет попытка разработать

когнитивную модель способностей человека, так чтобы при форму-

лировании заданий можно было использовать аспекты заданий. Та-

кие исследования будут очень длинными, и нет никакой гарантии,

что можно будет получить модель, эффективную для данной задачи.

Разработчики тестов могут использовать модели, работоспособность

которых уже была показана. Как говорилось, для большинства спо-

собностей все еще необходимо менее точное, более интуитивное фор-

мулирование заданий. Для других тестовых переменных такие моде-

ли процессов являются делом далекого будущего.

 

Глава II. Обзор и заключение

 

В кратком резюме излагается суть конструирования тестов, как

она была изложена в этой книге. Это резюме, как надеется автор,

послужит в качестве краткого руководства и как памятная записка.

Шаги при конструировании тестов:

( 1 ) Рассмотрите и установите строгие ограничения на содержание

заданий.

(2) Сформулируйте так много и столько разнообразных заданий,

релевантных этому содержанию, насколько это возможно.

(3) Испытайте эти задания на такой большое выборке испытуе-

мых, насколько возможно.

(4) Выполните анализ заданий теста, отбирая эффективные.

(5) Кросс-валидизируйте задания на новой выборке. Проверьте,

чтобы задания адекватно охватывали соответствующий контекст.

(6) Вычислите коэффициент а.

(7) Валидизируйте тест.

(8) Определите нормы для этого теста.

(9) Выполните факторный анализ заданий и сравните его с проце-

дурой анализа и отбора заданий.

(10) Если тест представляется эффективным и полезным, пред-

ставьте результаты в руководстве по тесту.

 

Другие возможные методы конструирования тестов:

(II) Сконструируйте тест при помощи критериальных групп.

(12) Сконструируйте тест при помощи факторного анализа, а не

процедуры анализа и отбора заданий.

(13) Представьте тест и обрабатывайте данные на компьютере.

(14) Представьте индивидуально-ориентированный тест на ком-

пьютере.

(15) Выполните шкалирование по Рашу заданий теста.

(16) Для тестов, сконструированных при помощи пяти перечис-

ленных методов, необходимо подтверждение их надежности и валид-

ности.Для всех тестов, кроме тестов с использованием шкал Раша,

необходима также стандартизация.

 

Если эти процедуры выполняются так, как было описано в главах

этой книги, то получение валидных и надежных тестов практически

гарантировано. Однако эта книга завершается предостерегающим

замечанием. Хотя психометрические методики являются и просты-

ми, и эффективными, остается неприятным фактом то, что громад-

ное большинство психологических тестов имеют неудовлетворитель-

ную валидность и надежность. Пусть же наши тесты войдут в избран-

ное меньшинство.

273

 

 

Литература

 

Аванесов B.C. Тесты в социологическом исследовании - М.: Наука, 1982.

Айзенк Г. Проверьте свои способности / Пер. с англ. - М.: Мир, 1972.

Анастази А. Психологическое тестирование / Пер. с англ. В 2 кн. / Под ред. К.М.

Гуревича, В.М. Лубовского.- М.: Педагогика, 1982.

Березин Ф.П., Мирошников М.П., Рожанец Р.В. Методика многопрофильного иссле-

дования личности (в клинической медицине и психогигиене) - М.: Медицина,

1976.

Блейхер В.М., Бурлачук Л.ф. Психологическая диагностика интеллекта и личности

- Киев: Вища школа, 1978.

Блейхер В.М., Крук И.В. Патопсихологическая диагностика - Киев: 3доровя, 1986.

Бурлачук Л.Ф. Исследование личности в клинической психологии - Киев: Вища

школа, 1979.

БурлачукЛ.Ф. Психодиагностикаличности -Киев:3доровя, 1989.

БурлачукЛ.Ф., Морозов С.М. Словарь-справочник по психологическойдиагностике

- Киев: Наукова думка, 1989.

Вопросы диагностики психического развития. Тезисы симпозиума - Таллинн: НИИ

педагогики ЭстССР, 1974.

Вопросы педагогической психодиагностики / Под ред. В. Лубовского и Д. Богоявлен-

ской. - Таллинн: НИИ педагогики ЭстССР, 1976.

Вопросы практической психодиагностики и психологического консультирования в

вузе-Л.: Изд-воЛенингр. ун-та, 1984.

Гайда В.К., Захаров В.П. Психологическое тестирование - Л.: Изд-во Ленингр.ун-та,

1982.

Диагностика психических состояний в норме и патологии / Под ред. Ф.И. Случевско-

го. - Л.: Медицина, 1980.

Диагностика психического развития./Пер. с чешск. /Авт. кол.:ШванцораЙ.идр.-

Прага: Авиценум, 1978.

Диагностика способностей и личностных черт учащихся в учебной деятельности / Под

ред. В.Д. Шадрикова. - Саратов: Изд-во Саратовск. ун-та, 1989.

Дружинин В.И. Психологическая диагностика способностей: теоретические основы -

В 2 част. - Саратов: Изд-во Саратовск. ун-та, 1990.

Ерофеев А.К. ЭВМ в психодиагностике в высшей школе -М.: Изд-во Моек .ун-та, 1987.

Кабанов М.М., Личко Е.А, Смирнов В.М. Методы психологической диагностики и

коррекции в клинике-Л.: Медицина, 1983.

Кулагин Б.В. Основы профессиональной психодиагностики - Л.: Медицина, 1984.

ЛолерДж. Коэффициент интеллекта, наследственность и расизм /Пер. с англ. -М.:

Прогресс, 1982.

Лучшие психологические тесты для профотбора и профориентации. Описание и ру-

ководство к использованию / Под ред. А.Ф.Кудряшова. -Петрозаводск: Петро-

ком, 1992.

Марищук В.Л., Блудов Ю.М» Плахтиенко В.А., Серова Л.К. Методики психодиагно-

стики в спорте - М.: Просвещение, 1990 (2-е изд.)

Мельников В.М., Ямпольский Л.Т. Введение в экспериментальную психологию лич-

ности - М.: Просвещение, 1985.

Методики социально-психологической диагностики личности и группы - М.: Ин-т

психологии АН СССР, 1990.

 

Вниманию читателей предлагается подготовленная редактором издания библио-

графия основных публикаций по психологической диагностике и применению

математической статистики в психологии, изданных на русском языке в 70-90-е

годы.

 

274

 

Норакидзе В.Г. Методы исследования характера личности - Тбилиси: Мецниереба.

1975.

Нормы профессиональной этики для разработчиков и пользователей психодиагности-

ческих методик. Стандартныетребования к психологическим тестам - Ярославль:

Дебют, 1991.

Общая психодиагностика / Под ред. А.А. Бодалева и В.В. Столина. - М.: Изд-во Моск.

ун-та, 1987.

О диагностике психического развития - Таллинн: НИИ педагогики ЭстССР, 1974.

Практикум по психодиагностике. Дифференциальная психометрика / Под ред. В.В.

Столина, А.Г. Шмелева, - М.: Изд-во Моск. ун-та, 1984.

Практикум по психодиагностике. Конкретные психодиагностические методики. - М.:

Изд-во Моск.ун-та, 1989.

Практикум по психодиагностике. Прикладная психодиагностика / Под ред. М.М.

Карпинской и др.-М.: Изд-во Моск. ун-та, 1992.

Практикум по психодиагностике. Психодиагностика мотивации и саморегуляции /

Под ред. А.И. Зелиненко и др.-М.: Изд-во Моск. ун-та, 1990.

Практикум по психодиагностике. Психодиагностические материалы / Под ред. А.А.

Бодалева и др. - М.: Изд-во Моск. ун-та, 1988.

Психодиагностика и школа. Тезисы симпозиума - Таллинн: НИИ педагогики

ЭстССР, 1980.

Психодиагностика: теория и практика / Пер. с нем. - М.: Прогресс, 1986.

Психодиагностика - учителю. Научно-методический сборник - Харьков: Изд-во

Харькоаск. ун-та, 1992.

Психодиагностические методы (в комплексном лонгитюдном исследовании студен-

тов) -Л.: Изд-воЛенингр. ун-та, 1976.

Психологическая диагностика отношения к болезни при нервно-психической и сома-

тической патологии-Л.: Научно-исслед. психоневрол. ин-т, 1990.

Психологическая диагностика при нервно-психических и психосоматических заболе-

ваниях -Л.: Научно-исслед. психоневрол. ин-т, 1985.

Психологическая диагностика: Проблемы и исследования / Под ред. К.М. Гуревича.

- М.: Педагогика, 1981.

Романова B.C., Потемкина О.Ф. Графические методы в психологическойдиагностике

-М.: Дидакт, 1991.

Романова Е.С., Усапова О.Н., Потемкина О.Ф. Психологическаядиагностика разви-

тия школьников в норме и патологии. Учебное пособие - М.: Изд-во МГПИ им.

Ленина, 1990.

Собчик Л.Н. Методы психологической диагностики - Вып. 1-3.-М., 1990.

Соколова Е.Т, Проективные методы исследования личности - М.: Изд-во Моск.ун-та,

1980.

Франселла Ф., БаннистерД. Новый метод исследованияличности /Пер. сангл. - М.:

Прогресс, 1987.

 

Литература по применению математической статистики

в психологии

 

Гласе Дж., Стэнли Дж. Статистические методы в педагогике и психологии / Пер. с

англ. - М.: Прогресс, 1976.

Лакин Н.Б. Биометрия - М.: Высшая школа, 1980.

Математические методы асоциальных науках / Пер. сангл. - М.: Прогресс, 1973.

Окунь Я. Факторный анализ / Пер. с польск. - М.: Статистика, 1974.

Суходольский Г.В. Основы математической статистики для психологов - Л.: Изд-во

Ленингр.ун-та, 1972.

Харман Г. Современный факторный анализ / Пер. с англ. - М.: Статистика, 1972.

 

275

 

Именной указатель

 

Abraham112

Adoroo163

Andrich265-267

Anstey189-190

Bames237,246

Barren24,47,251,255-256

Bendig94,111

Berk210

Birobaum42 - 43, 47, 264

Bloom63

Bluffi140,146,148

Bolton251

Brown23,228

Bniner133

Buck143

Buros142,164

Burt243

Campbell234

Carroll255,268,270

Cattell24, 28 - 29, 52,56, 83,

Chopin

Cornrey

Cooper

Corah

Connan

Cronbach

 

Crowne

 

Eber

Edwards

 

Eksirom

Elliot

Eysenck

 

Fan

Fenichel

Ferguson

Fisher

Fowles

 

234

255,268,270

24, 28 - 29, 52,56, 83,

92,95-96,115-129,131-

132,135-140,155,164-

165, 167, 200, 209, 216, 218,

227, 241 - 244, 247 - 248,

251 - 252,255

125, 127, 131 - 132, 135-

137,254

47,264 - 267

94 - 95, 110

147

106

146,148

24, 27, 29, 40, 79,

102,164,247

110

 

French

Freud

 

Gale

Glaser

Goodman

Gorsuch

Greenberg

Grindley

Grygier

Guilford

 

Gutteian

 

Hagen

Hakstian

Halton

Hampson

Hannan

Hathaway

Heirn

 

Holley

Howarth

Hoyt

Hudson

Hunt

 

Jensen

Jones

Jung

 

Kaiser

Kelly

Kline

 

216

91,95-96,105-106,

110,152,156,247 270Knapp

45Knowles

47,93,108-109,129, 131,142,145,167,239,252Kragh Krout Kyllonen

192

Lazarsfeld

149 203 - 204 199Levy Likert

264Lord

270

112,148,199,243

 

140,148

210

133

255

199

123

94

24 - 25, 31, 83, 91, 97.

102, 104, III, 144, 167,

170, 175, 179, 203, 243 -

244, 246, 250, 252, 254

43,156 -158

 

63 - 65, 73, 87

52,255

140

143,145,246

241,249,254

234

51,57,62,101,152,

243 - 245

142-145,245-246

129,209

175-176

56

268

 

259

112

96,219

 

255

117

24, 29, 47, 92 - 93, 99,

106, 112, 116, 123, 125,

131 - 132, 140, 143, 145,

147-148,150-151,

155,199-200,209,219,

241. 246, 248, 251, 255-

256, 266 - 267, 269

254

102

146-147

94

270

 

43

42 - 43, 158, 246, 266

156,159-160,162

42 - 43, 47, 262, 266

 

Lorge215-217Rosenzweig Royce141 239,241

Lunneborg 1 Marlowe106 110Schonell Semeonoff229 141,146

1 May 1 McDougall271 132Skurnick Smith267 147

1 McKinley 1 Meehl 1 Mellenbergh 1 Menninger 1 Messick234 29 45 112 102,106Snow Spearman Sternberg Storey Strong268 52,243 268 93,148,150-151 234

1 Miller 1 Mischel 1 Murray 1 Myers-Briggs152 126,244 146 95-96,219-220Tabin Tatsuoka Thorndike94 216,254 63 - 65, 73, 87, 215 -217

1 Nisbet 1 Novick 1 Nunnally-43,266 « 24-25,31,33-38, Vegelius 40,43-44,47,130,, д IJ 160, 162, 169- 170, 173, 178 183, 190. 201, 207, 247, arburton 250,256,264,266156, 241 - 243, 254 143 -144 28, 31, 89, 92, 250 117-129,131,135 137 -138,140

Watts101

1 patterson 1 Penn 1 Price 1 Rasch 1 Raven В Rokeach 1 Rorschach218,220,254 220 270 42-43,45-47,262 61 163,218 118, 141 - 142, 145Wenig Westerlund Wilmott Wilson Wood Wright124 147 264 218,220,254 47,264,266 46,106,265

276

 

Оглавление

 

Предисловие редактора русского перевода

Предисловие к английскому изданию

Глоссарий

 

Глава 1. Характеристики эффективных психологических

тестов ..............................22

Типы шкал ...........................22

 

Надежность ...........................23

r>- _---

 

Значение и важность надежности по внутренней

согласованности

 

Ретестовая надежность

Валидность

 

Очевидная (внешняя) валидность

Конкурентная валидность

 

Прогностическая валидность

 

Инкрементная и дифференциальная валидность

Содержательная валидность

Конструктная валидность

Заключение

 

Дискриминативность

 

Классическая теория погрешностей измерения

Истинный показатель

 

Стандартная погрешность измерения .........

Генеральная совокупность, выборочная совокупность

или конкретная область заданий теста ....

Отношение истинного показателя к генеральной

совокупности заданий

 

Статистические основания классической модели

Коэффициент надежности

Выборочные показатели

 

Однородность теста и надежность

Надежность и величина теста

 

Надежность и выборки заданий

Стандартизация и нормы

 

.............1

Некоторые другие модели ответов на задания тестов

Кривые зависимости «задание-ответ» ........

Кривые зависимости «задание-ответ» в применении

к тестированию

 

Подмножества заданий

Модель Раша

 

Индивидуально-ориентированное тестирование

21

 

.23

24

 

 

26

26

27

28

28

29

 

XL

30

31

32

32

 

32

 

33

33

34

35

36

38

39

41

42

42

 

44

44

45

48

 

Компьютеризированное тестирование

Заключение и краткий обзор

 

Глава 2. Создание надежных тестов 1:

Интеллект и способности. Разработка заданий

Инструкции

 

Задания для тестов интеллекта

Аналогии

 

Задания типа «встретил лишнее-убери»

Последовательности

 

Варианты последовательностей

Варианты заданий на исключение лишнего

Варианты аналогий

 

Тесты специальных способностей и достижений

Содержание заданий

 

Задания с несколькими вариантами выбора ......

Преимущества заданий с несколькими вариантами

выбора .........................

 

Альтернативные задания

 

Задания на восстановление соответствия

Заключения по рассмотрению заданий с вариантами

выбора, альтернативных заданий и заданий на вос-

становление соответствия

Выбор типа заданий

Задания других типов

 

Упорядочивание заданий для испытания теста

Случайное угадывание правильного ответа

Заключение

 

Глава 3. Создание надежных тестов II: Личностные опросники.

Разработка заданий

Проблемы конструирования личностных опросников.

Формулирование вопросов (утверждений) для личност-

ных опросников

 

Правила для формулирования заданий

Возражение: задания личностных опросников

по существу бессмысленны

 

Устранение влияния установок на ответ

Установка на согласие

 

Социально одобряемые ответы

Другие установки на ответы

 

Содержание вопросов (утверждений)

Теоретический пример

Практический пример

 

279

 

Получение содержания задания

Заключение

 

Глава 4. Создание надежных тестов III;

Конструирование тестов других типов

Объективные тесты

 

Определение

 

Преимущества объективных тестов .......

Принципы конструирования объективных тестов

Параметры оценивания ответов ............

Различия между объективными тестами способностей,

темперамента и динамики (мотивов) .......

Практические советы для разработки объективных

тестов личности и мотивов ............

Решение некоторых общих проблем, связанных с

объективными тестами

 

113

113

 

115

115

115

116

117

120

 

122

124

 

Объективные тесты и факторы личности

 

Объективные тесты мотивов или динамики

гг---__-- -

 

124

129

 

----.»-..iiMuuinuB или динамики ....... 131

Другие аспекты конструирования объективных тестов

мотивов ..........................136

Примеры объективных тестов ............... 138

 

ОЙКТИИНМ тамч А

 

142

 

Проективные тесты

 

О пользе разработки новых проективных тестов . . .

Конструирование проективного теста: «Вампир-тест»

(измерение оральности) ......

 

Конструирование других тестов мотивов

/-

 

.» ,-.-_- - -.Ji.i iLiuMMUmBt

Опросники на выявление динамики

Опросники интересов .

Тест длящейся реакции

 

Шкалы настроений и состояний

Формулирование заданий

Анализ заданий

Краткий обзор

 

Измерение аттитюдов

Шкалы Терстоуна

Шкалы Гутмена

Шкалы Лайкерта

 

Краткий обзор и заключение ......

Глава 5. Вычисление надежности тестов

 

т-

 

- --.-.>.... шf>nя.n гестов .......

Важность надежности по внутренней согласованности

при конструировании тестов .

Значение истинных показателей

 

147

151

151

152

152

152

153

154

156

156

156

157

159

163

164

 

--- ---.-. шшлиик.а.Н1.1СЛеН ......

Источники неудовлетворительной надежности

 

2SO

 

164

165

168

 

Выборка испытуемых для изучения надежности

Объем выборки

Состав выборки

Выводы

 

Вычисление коэффициентов надежности

Коэффициент о.

 

Вычисление надежности теста при расщеплении его

пополам .................

Метод дисперсионного анализа по Хойту

Ретестовая надежность

 

Факторный подход к вычислению надежности

Заключение

 

Глава 6. Отбор и оценивание заданий

Проблемы анализа заданий

Задания

 

Важные переменные выборки

Пол испытуемых

 

Возраст испытуемых

Другие переменные

 

Анализ заданий: два полезных показателя

Корреляция заданий и общего показателя .

Доля испытуемых, давших ключевые ответы

Процедуры анализа заданий

 

-».7 г- «----- -

 

Шаги вычислений в процедуре анализа заданий

Вычисления на компьютере

 

Краткое вычисление без компьютера

Отбор заданий после их анализа

Критерии

 

Отбор заданий тестов

 

Переформулирование заданий

Если тест сформировать не удалось

Такой переменной не существует

Неудовлетворительные задания

 

~ /

Задания нагружают несколько факторов

 

169

169

170

171

171

171

 

173

175

177

179

181

182

182

183

184

184

186

187

188

188

190

190

191

192

192

193

194

195

197

198

199

200

200

 

liAW>nxn --~---_

 

Недостаточное количество эффективных заданий . . . 201

Глава 7. Вычисление дискриминативности и валидности

тестов ........................... 203

203

205

205

206

206

 

Дискриминативность

Валидность

 

Очевидная валидность

 

Конкурентная валидность

Прогностическая валидность

 

281

 

Содержательная валидность

 

Критериально-ориентированные тесты .....

Инкрементная и дифференциальная валидность

Конструктная валидность

Выводы

 

Глава 8. Стандартизация тестов

Стандартизация выборки

Объем выборки

 

Получение репрезентативной нормативной выборки

Правила для общих норм

 

Формирование выборок для специфических групп

Правила формирования выборок для специальных

групп ....................

 

208

210

211

212

212

214

214

214

215

217

219

 

Нормализация показателей

Процентили

 

Различные типы стандартных показателей

Представление норм

 

Содержательный критерий

 

Проблемы с содержательным критерием

Прогнозирование критерия

 

Глава 9. Другие методы конструирования тестов

 

лг>

 

220

221

221

221

227

228

229

230

 

Тесты, разработанные на основе критериальных ключевых

 

.234

 

признаков

 

Отбор критериальных групп

 

Невозможность психологической интерпретации

Невозможность генерализации теста

Факторно - аналитические тесты

 

Обоснование, основные принципы и описание

факторного анализа

 

Проблемы в факторном анализе

 

Конкретные проблемы факторного анализа при

разработке тестов

Решение проблем

 

Процедуры конструирования факторно-аналитических

тестов ..........

Факторный анализ матрицы

 

Отбор заданий после факторного анализа

Если тест сформировать не удалось

Шаги вычислений

Заключение

 

.234

.235

.235

236

238

 

239

243

 

245

248

 

250

252

252

253

254

255

 

Глава 10. Компьютеризированное тестирование, индивиду-

ально - ориентированное тестирование, шкалирование

по Рашу и изучение когнитивных процессов ......

Компьютеризированное тестирование ............

Компьютерное представление стандартных тестов . . .

Компьютерная специфика тестовых заданий ......

Индивидуально - ориентированное тестирование .....

Преимущества

Недостатки

 

Шкалирование по Рашу

 

Описание модели Раша

 

Шаги вычислений при шкалировании по Рашу

Оценка процедур шкалирования по Рашу

 

Являются ли статистические оценки заданий

независимыми от выборки?

 

Дальнейшие критические замечания по шкалам

Раша .......................

Использование шкалирования по Рашу

 

Когнитивный подход к изучению способностей человека

Некоторые типичные ECTs

 

Применение для конструирования тестов

Глава II. Обзор и заключение

 

Литература

Литература по применению математической статистики

в психологии

Именной указатель

 

Пол Клайн

 

Справочное руководство

по конструированию тестов

 

Перевод с английского

Е. П. Савченко

 

Малое научно-внедренческое предприятие «ПАН ЛТД»

Фирма <Ника-Центр Лтд.>

 

Подписано в печать 14.03.94.

Формат 60х84/16. Бумага типографская 1. Гарнитура Тайме.

Печать офсетная. Усл. пвч. л. 1б,74.3ак. 4-196.

 

Фирма <Ника-Центр Лтд.>. 252033 Киев, ул. В.Яна, 3/5

 

Малое научно-внедренческое предприятие «ПАН ЛТД»

252033, г.Киев, ул. Паньковская, 2, к. 1.

 

Напечатано с оригинал-макета на арендном предприятии

<Киевская книжная фабрика>.

252054 Киев-54, ул. Воровского, 24

 

Малое научно-внедренческое предприятие «ПАН ЛТД»

252033, г.Киев, ул. Паньковская, 2, к. 1.

Справки и заказы по тел. (044) 244-26-09.

 

Подготовлено к изданию:

 

Leopold Bellak

Практическое пособие

«Детский апперцептивный тест (ДАТ)».

(New York, USA)

Перевод О.Коржовой, редакция проф. Л.Бурлачука.

 

Это первый в СНГ лицензионный психодиагно-

стический тест. Издание осуществляется по договорен-

ности с автором.

Пособие состоит из трех тестов:

«Детский апперцептивный тест (рисунки

животных)»;

«Детский апперцептивный тест (рисунки людей)»;

«Апперцептивный тест для пожилых»

 

Пособие включает: набор стимульного материала,

текст интерпретации данных, инструкций для психолога

по применению названных тестов в практической

работе.

В настоящее время ДАТ, являясь одним из наиболее

распространенных тестов среди западных психологов,

применяется для определения личностных особенностей

человека и используется в научных исследованиях,

практической работе психологов, психиатров. Данный

вариант ДАТ наиболее полный, был опубликован

несколько лет тому назад в США.

 

Малое научно-внедренческое предприятие «ПАН ЛТД»

252033, г.Киев, ул. Паньковская, 2, к. 1.

Справки и заказы по тел. (044) 244-26-09.

 

Подготовлено к изданию:

 

Robert P. Crosby

«Wallking the Empowerment Tightrope».

(Sietl, USA, 1992)

 

Книга представляет собой обобщенный опыт всемирно

известного ученого и специалиста-практика в области

организационного развития предприятий, компаний и

других структур, в основе которых лежат человеческие

взаимоотношения. Книга ориентирована на практи-

ческое использование руководителями и специалистами

кадровых служб принципов, методов и приемов

наиболее эффективного руководства организацией,

решения проблемных ситуаций и поиска новых стра-

тегий в достижении намеченных целей.

Книжка подготовлена на основе практической работы

с такими компаниями, как «Philadelphia Electronik К.»,

«NASA», «ALKOA», «Boeing» и др.

 

ДЛЯ

 

ДЛЯ ЗАМЁТОК

 

 

    Портал поддержки среднего образования в Российской Федерации.           


Пол Клайн

ГЛАВА 3. СОЗДАНИЕ НАДЕЖНЫХ ТЕСТОВ II:


Дата добавления: 2018-02-18; просмотров: 466; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!