Как оцениваются тесты проверки умственных способностей



 

Безусловно, потребители тестов не являются полными идиотами и хотят получить адекватную информацию об этом товаре – их приходится убеждать, что тесты небесполезны хотя бы в некоторых процессах принятия решений (или, по крайней мере, производят такое впечатление).

 

Валидность

 

Первую важную информацию такого рода, которая будет постоянно обсуждаться в данной книге, часто называют «критерием валидности». Вопрос здесь состоит в том, насколько результаты тестирования измеряют то, что они должны измерять в соответствии со своим назначением. Отражают ли они то, что от них действительно ожидают? Например, критерием валидности тестов проверки умственных способностей часто служат оценки, которые ученики получают в школе; а если речь идет о программах профессиональной подготовки, критерием может быть последующая эффективность на рабочих местах.

В так называемых технических руководствах по использованию тестов приводится масса статистических материалов, связанных с критериями валидности тестов. Но здесь, опять-таки, не все так просто. В какой степени нас должны беспокоить оценки в школе? Разве они служат показателем того, что один человек умнее другого? Или должны ли нас волновать показатели стандартизованных тестов достижений? Мой сын начал выпускать свою газету в школе, он постоянно готовит материалы в уже существующую школьную газету, пилотирует самолет, переводит в местной больнице на английский язык жалобы и другие медицинские проблемы испаноязычных пациентов. По-моему, неплохие достижения для семнадцатилетнего парня. Однако ни одно из них не относится к тем критериям, по которым проверяется валидность тестов проверки интеллектуальности. А разве взрослых людей волнуют полученные когда-то оценки? Может быть, кандидатов на ответственные посты в промышленности отбирают на основе этих оценок? Сомневаюсь!

С моей точки зрения, очень печально, что мы относимся к результатам тестирования способностей как к официальным, важным данным, а к внеклассной деятельности детей – как к чему-то второстепенному. И поскольку часто бывает удобно прикрываться количественными результатами, мы предпочитаем просто считать, а не серьезно анализировать такую деятельность. В результате ученик, посещающий три внешкольных клуба, оценивается выше того, кто придумал и организовал один клуб. Наилучшим предсказателем интеллекта успеха в будущем является интеллект успеха в прошлом. И предсказания должны базироваться на успешной деятельности в реальном мире в течение длительного периода времени, а не на успехах в мире тестирования, длительность существования которого составляет всего три часа.

Уже не один год я заявляю: тесты не измеряют то, что действительно важно для подлинного успеха и в учебе, и на работе. В частности, я утверждаю, что на уровне аспирантуры, где готовятся профессионалы, тесты не измеряют навыки и способности, которые важны для получения работы. В конце концов, я решил подтвердить свои слова объективными фактами. Вместе с Венди Вильямсом мы исследовали значимость предсказаний приемного письменного экзамена (GRE). В выборку были включены абитуриенты за двенадцатилетний период (166 студентов), обучавшиеся в рамках нашей программы по психологии для аспирантов. Результаты прогнозов GRE сравнивались с оценками, полученными в первый и второй год аспирантуры, а также, что более важно, с оценкой студентов преподавателями с точки зрения (а) аналитических способностей, (б) творческих способностей, (в) практических способностей, (г) исследовательских способностей, (д) способностей к преподаванию, (е) подготовленных диссертаций. Безусловно, в аспирантуре последний показатель имеет гораздо большее значение, чем полученные оценки.

Ну и какими оказались результаты? Рассматривая совместно мужчин и женщин (последние на равных основаниях участвовали и в тестах, и в самой программе), мы обнаружили, что GRE устойчиво прогнозирует оценки, получаемые в течение первого года программы, но не более. Хотя уровень оправданности предсказаний и здесь был более чем скромен. Для GRE-тестов на вербальное мышление общая корреляция составляла 0,18 (0 – отсутствие корреляции, 1– полная корреляция) – результат на грани статистической значимости. Для аналитических способностей корреляция была равна 0,17 – опять-таки на пределе статистической значимости. Максимальная корреляция, что не удивительно, была получена для теста достижений в психологии – 0,37. Достижения в тесте явились наилучшим предсказанием достижений в программе. Какие-либо другие важные критерии тест не прогнозировал. Он не предсказывал даже оценки на втором году обучения. Стало понятно, почему издатели теста, приводя информацию о валидности теста, уделяли такое внимание оценкам в течение первого года обучения!

Интересные особенности были обнаружены после того, как мы провели классификацию по половому признаку. Один из субтестов – аналитический – с умеренной точностью, но статистически значимо прогнозировал некоторые из наиболее важных критериев, но только для мужчин. Например, для мужчин корреляция показателей аналитического GRE-теста с оценкой преподавателями аналитических способностей аспирантов составляла 0,31. Для женщин эта корреляция была равна всего 0,05. Фактически, для женщин тест вообще не давал статистически значимых предсказаний. Таким образом, комбинация результатов для мужчин и женщин дает обманчивую картину эффективности теста в прогнозировании успеха в аспирантуре. Хотя достижения мужчин и женщин в рамках нашей программы в общем равнозначны, предвестники их успехов существенно различаются. Причины этих расхождений пока неизвестны.

Мы полагаем, что на основании проведенных исследований можно сделать несколько полезных выводов. Во-первых, тесты предсказывают прежде всего оценки, и часто именно оценки оказываются их единственным удачным прогнозом. Нет ничего плохого в предсказании оценок – они также важны, тем более что мы постоянно себя в этом убеждаем, – но жизнь вовсе не сводится к одним только оценкам. Во-вторых, точность прогноза не одинакова для различных групп, о чем нельзя забывать, анализируя результаты тестирования. Женщинам приходится решать ряд проблем, которые неведомы мужчинам. Кроме того, как показывают исследования, женщины часто убеждены, что не способны выполнять определенные задачи, в результате чего они действительно очень слабо справляются с этими задачами. Когда человек настраивается на неудачу, вероятность неудачного исхода заметно возрастает.

Мы не были особо поражены результатами наших исследований GRE-тестирования, равно как не были удивлены и реакцией на них в различных группах, где мы показывали эти результаты. Те, кто с самого начала скептически относился к тестам, кивали головой – дескать, ничего другого мы и не ожидали. Но горячие приверженцы тестирования со скепсисом отнеслись как раз к нашим изысканиям. Они, например, заявили, что для подлинной проверки теста необходима информация о том, насколько преуспели бы в программе те, кто не был принят.

В определенном смысле они правы. Было бы замечательно узнать, как бы пошли дела у тех, кто не был принят. Лично я считаю, что у большинства из них все было бы в порядке. Но проблема в том, что мы не можем провести подобные исследования – именно потому, что такие люди не были допущены к участию в программе, причем чаще всего на основании результатов тестирования. То есть чтобы разубедить скептиков, необходимо провести исследования, которые провести невозможно. Но зато можно сделать что-то довольно близкое к этому. В течение года или нескольких лет мы могли бы принимать всех абитуриентов, независимо от результатов тестирования, и посмотреть, как они проявят себя в различных аспектах программы. В этом случае базовая выборка была бы свободна от того смещения, которое «портит» выборку, сформированную по результатам тестирования. Идеальным с точки зрения эксперимента был бы, безусловно, случайный прием абитуриентов. Но, конечно же, никто не захочет закрывать глаза на результаты тестирования в течение года или двух, а руководство факультета будет против набора аспирантов по случайному принципу. Таким образом, система остается на прежнем месте, а люди – при своих убеждениях, которые, похоже, так никогда и не удастся переломить.

Наши исследования GRE-тестов и другие подобные данные указывают на необходимость получения дополнительной информации о валидности тестов – помимо той, что обычно приводится в технических руководствах. Нужны более универсальные критерии, а также данные о валидности тестов для различных групп людей и различных ситуаций. Часто подразумевается, что, раз тесты работают для одной группы, они будут работать и для других, хотя на практике можно наблюдать обратное.

 

Надежность (достоверность)

 

При оценке тестов их издатели и потребители уделяют пристальное внимание еще одной характеристике. Речь идет о надежности (достоверности), которая определяет, насколько устойчиво тест измеряет то, для чего он предназначен. Другими словами, если тест выполняется один раз, а затем еще раз, будут ли совпадать результаты?

Многие из распространенных тестов достаточно надежны – в противном случае они бы и не завоевали такую популярность. Но здесь речь идет об усредненных показателях. Встречаются люди, результаты которых флуктуируют в умеренных пределах, а есть и такие, у которых разбежки от теста к тесту могут быть значительными. Так, например, с помощью специальных пособий и курсов подготовки многим удается улучшать результаты выполнения таких тестов, как SAT и GRE, или других аналогичных конкурсных тестов.

В связи с доступностью таких книг и курсов, а также с учетом того, что они позволяют в среднем заметно повышать показатели тестирования, возникает вопрос о равноправии. Как быть с теми, кто не знает о существовании таких курсов, кто не может себе их позволить или у кого нет на них времени? Безусловно, издатели тестов будут настаивать, что даваемые книгами и курсами преимущества не так уж велики. В среднем, конечно, нет. Но для отдельных людей они существенны, а что более важно, когда речь идет о миллионах решений, принимаемых в течение года по результатам миллионов тестов, даже очень маленькие различия приведут в среднем к весьма впечатляющим последствиям. Для некоторых соответствующая книга или курсы могут сыграть важную роль, и ввиду неравноправного доступа к ним результаты тестирования для различных людей не могут интерпретироваться единым образом. Поэтому общая надежность тестов призвана нивелировать подобные нежелательные последствия неравноправия.

Издатели также отдают предпочтение таким тестам, в которых отдельные задания конкретного субтеста измеряют примерно одну и ту же характеристику. Они даже приводят статистические данные, демонстрирующие однородность различных элементов субтеста по отношению к измеряемой характеристике. Хотя за такую согласованность результатов приходится расплачиваться. Чем больше элементов теста измеряют одно и то же, тем меньше диапазон проводимых измерений. Другими словами, согласованность достигается за счет широты охвата. Узость используемых тестов, похоже, мало кого волнует; но тесты ведь действительно очень ограничены! Мы имеем надежные хорошие измерения пассивного интеллекта. Но как использовать результаты этих измерений?

 

 

Как используются тесты

 

Тесты используются так же, как это описывает принцип Гейзенберга: прибор, проводящий измерения, сам влияет на оцениваемые характеристики. Например, в нашем обществе те, кто находится на верхних ступеньках социальной лестницы, – юристы, врачи, бизнесмены, профессоры колледжей – имеют, как правило, более высокие IQ, чем те, кто занимает нижние ступеньки этой лестницы, – поденщики, уборщики, дворники. Таким образом, IQ связан с занимаемым положением, но является ли он причиной достижения этого положения?

Здесь важно уметь отличать причинно-следственную связь от простой корреляции. Известно, например, что большинство населения Нигерии имеет черный цвет кожи, а большинство жителей Норвегии – белый. Однако вы же не сделаете вывод о том, что проживание в Нигерии делает кожу человека черной, а жизнь в Норвегии, соответственно, белой. Вот вам пример, что корреляция не всегда является причиной. При установлении корреляции следует иметь в виду, что имеются по крайней мере три возможные ее причины. Предположим, имеется корреляция между двумя вещами, например измеренным интеллектом и занимаемым служебным положением. Из соображений общности назовем их «фактор Х» и «фактор У». Возможно, фактор Х вызывает фактор У; возможно, фактор У вызывает фактор Х; но не исключено, что существует фактор более высокого порядка, который является причиной для них обоих.

Таким образом, корреляция между IQ и занимаемым рабочим местом может быть связана с тремя различными механизмами. Именно благодаря высокому IQ человек может получить более престижную работу – это вполне вероятно. Или более хорошее рабочее место может способствовать повышению IQ, что, в свою очередь, также справедливо. Хорошая работа позволяет тренировать интеллектуальные способности, что в результате ведет к совершенствованию интеллекта и повышению IQ. Но может быть и высокий IQ, и хорошая работа обусловлены некоторыми другими факторами. Но что это тогда за факторы?

Рассмотрим ситуацию в Соединенных Штатах. Для того чтобы поступить на юридический факультет, необходимо пройти юридическое тестирование (LSAT); чтобы поступить на факультет бизнеса, необходимо пройти соответствующее бизнес-тестирование (GMAT); чтобы поступить на медицинский факультет, необходимо пройти тестирование на знание медицины (MCAT); чтобы поступить в аспирантуру, необходимо выполнить соответствующие тесты для аспирантов (GRE или MAT). Для поступления в аспирантуру на специальности с высоким конкурсом необходимо набрать определенный результат на вступительном тестировании. Аналогичная процедура приема практикуется в престижных колледжах и частных школах.

Так какова же связь между приведенными фактами и корреляцией между IQ и занимаемым рабочим местом? Обычные тесты оценки интеллектуальности связаны со всеми этими тестами на приемных экзаменах, равно как последние взаимосвязаны друг с другом – несмотря на различные названия все они измеряют практически одни и те же способности. Использование незначительных вариаций названий и содержания тестов может оказаться прибыльным бизнесом, но все эти манипуляции слабо сказываются на конечных результатах. Те, кто хорошо справляется с одним из тестов, как правило, не имеет проблем и с остальными.

Предположим, что кто-то по тем или иным причинам испытывает трудности с тестированием. Возможно, этот человек обладает выдающими творческими способностями, но у него проблемы с аналитическим мышлением. Возможно, речь идет о человеке с незаурядной практической сметкой и замечательным здравым смыслом, который в то же время достаточно беспомощен на абстрактном, академическом уровне. Возможна и боязнь тестирования – подобное в свое время было со мной. Или, скажем, человек вырос в семье, где говорили по-испански, по-французски или по-вьетнамски, и его английский язык оставляет желать лучшего. А может быть, английский его родной язык, но, поскольку родители этого человека были вынуждены оба работать, ему в детстве мало читали и редко с ним разговаривали, что сказалось на вербальном интеллекте. Можно назвать множество причин, в связи с которыми у людей могут быть проблемы с тестированием.

Если такой человек захочет пройти по конкурсу в аспирантуру (что дает своего рода пропуск на престижное рабочее место), можно сказать, что ему не повезло, поскольку практически все учебные заведения в рамках выбранной им специальности требуют прохождения практически одного и того же теста. Решив получить образование, такой человек рискует постоянно оказываться перед запертой дверью. В конечном итоге он имеет все шансы опуститься на нижние ступеньки профессиональной лестницы. Сравним теперь таких людей с теми, кто без проблем справляется с тестами. Возможно, у последних и не так уж много талантов, но среди них есть умение набирать при тестировании большое количество очков, которые позволяют получать образование по выбранной ими специальности. Возможно, им окажутся не по силам наиболее сложные программы обучения, но шансы получить приемлемое образование у них все-таки выше. А это образование позволит, в свою очередь, приобрести и более престижную профессию.

Поэтому не приходится удивляться, что люди на верхних ступеньках профессиональной лестницы имеют высокие результаты тестирования. Без таких результатов они бы просто не смогли там оказаться. Фактически мы сами создаем корреляцию между IQ и профессиональным статусом!

Очень важно иметь в виду, что так было не всегда и не везде в мире общество организовано подобным образом. Если вы вернетесь в пятидесятые годы, то обнаружите, что в среднем результаты SAT были гораздо ниже, чем через десять лет. Что же произошло? Неужели люди вдруг стали настолько умнее? Конечно же нет. Просто во многих колледжах изменили критерии набора студентов, уделяя больше внимания результатам тестирования и меньше – социальным аспектам. С определенной точки зрения выдвижение на первый план показателей тестирования повышает шансы более способных абитуриентов. В других странах на возможность получения высшего образования помимо способностей влияют и другие факторы, в том числе социальное происхождение.

Рассмотрим интересную аналогию. Предположим, что в нашем обществе принимается решение больше не обращать внимания на результаты тестирования, поскольку даже у одних и тех же людей эти результаты весьма изменчивы. Один раз, выполняя SAT, вы можете набрать 500 очков, а при повторном тестировании на следующий день набираете, например, 570 очков. Поэтому решают заменить результаты тестирования более устойчивой характеристикой – ростом человека. С определенного момента прием в колледжи и аспирантуру будет осуществляться на основе роста абитуриента. Для поступления в Гарвард рост должен быть, скажем, шесть футов и четыре дюйма. Для Йельского университета достаточно шести футов и трех дюймов (плюс привлекательный внешний вид). И так далее, пока не дойдем до наименее престижных заведений, где «проходной рост» составит четыре фута и три дюйма. Безусловно, для поступления на престижный медицинский или юридический факультет нужно быть еще выше, скажем шесть футов и семь дюймов. Моя аналогия может показаться вам глупой, но на самом деле это не так. В реальной жизни люди, занимающие верхние ступеньки социальной и профессиональной лестницы, в среднем выше тех, кто оказывается внизу. Рост учитывается, только мы себе в этом не признаемся.

Продолжим нашу аналогию. Через двадцать пять лет после введения в качестве основного критерия приема роста вы решаете сопоставить средние IQ людей с различным статусом – юристов, врачей и управленцев, со одной стороны, с поденщиками, дворниками и рабочими на конвейерах, с другой стороны. Что же вы обнаружите? Окажется, что чем выше занимаемая человеком ступенька на социальной и профессиональной лестнице, тем больше его рост. Это свидетельствует о том, что более высокий рост способствует более успешному выполнению профессиональных обязанностей? Нет! Это отражает то, что рост человека использовался в качестве критерия при принятии решения о том, какую работу ему будет позволено – или не позволено – выполнять.

Я не утверждаю, что IQ совсем не связан с профессиональными успехами. Связан, хотя и слабо. Просто ни в коем случае нельзя делать вывод, как сделали Хернштейн и Мюррей в своей книге «Кривая Белла», о существовании некой таинственной руки – некой силы природы, – которая подымает наверх сливки общества, а его отбросы опускает вниз. Скорее, мы должны признать, что имеем то общество, которое создаем своими руками. Не природа решает, кого из нас выделять, – решает общество.

Конечно, коэффициент умственного развития кое-что значит, но не так уж и много. Связанные с IQ характеристики, как правило, объясняют менее 10 процентов расхождений между теми, кто преуспел в жизни, и теми, кто оказался менее удачен. Это означает, что природа 90 процентов вариаций остается непонятной, по крайней мере с точки зрения IQ. По-моему, нет особых оснований утверждать, что IQ играет важную роль. А как обстоит дело с различиями между группами?

 


Дата добавления: 2019-02-12; просмотров: 159; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!