Глава 6. Отбор и оценивание заданий



 

В этой главе будут описаны процедуры, используемые для отбора

заданий с целью получения надежных, валидных и дискриминатив-

ных тестов. До сих пор изучение заданий в этой книге касалось

мастерства разработчика тестов - искусства приемов формулирова-

ния эффективных заданий. В этой главе предметом нашего рассмот-

рения являются научные методы.

Целью анализа заданий является отбор заданий, формирующих

однородную, дискриминативную шкалу. Наиболее часто используе-

мый метод состоит в определении корреляции каждого задания с

общим показателем и вычислении по полной выборке доли тех испы-

туемых, которые дали ключевые ответы. Однородный и дискримина-

тивный тест может быть получен путем отбора заданий, имеющих

высокую корреляцию с общим показателем и, помимо этого, долю

правильно ответивших (в соответствии с «ключом») испытуемых в

пределах 80%-20%.

Будучи сформулированными, задания теста должны быть испы-

таны на некоторой выборке испытуемых и подвергнуты процедуре

анализа. То, как это делается, описано ниже.

 

Проблемы анализа заданий

 

Первое критическое замечание касается порочного круга, кото-

рый вытекает из этой процедуры. Если все задания из нашей выбо-

рочной совокупности будут иметь широкий разброс показателей и не

будут измерять то, что мы хотели, то по данной процедуре задания

будут отбираться в соответствии с таким критерием, как их корреля-

ции с общим показателем, который никогда не будет адекватным.

Следует заметить, что те же самые аргументы применимы к проце-

дуре факторизации множества заданий. Возможно существование

генерального фактора для множества неэффективных заданий. Это

критическое замечание имеет веские основания и должно быть опро-

вергнуто эмпирически. Получив при помощи процедуры анализа

заданий множество однородных заданий, мы тем не менее должны

представить доказательства их валидности. То есть недостаточно

сконструировать однородный тест, должно быть осуществлено иссле-

дование его валидности. Таком образом, это критическое замечание

легко опровергнуто.

Второе критическое замечание может быть сделано исходя из того

факта, что хотя процедура анализа заданий и обеспечивает однород-

ность теста, она не обеспечивает чистоту факторов. Возможно, что

тест, таким образом сконструированный, будет нагружать несколько

 

182

 

коррелирующих факторов. Так, если, например, в тесте способно-

стей в одно и то же множество заданий были включены задания,

измеряющие кристаллизованные способности (gc) и вербальные спо-

собности, то весьма вероятно, что по процедуре анализа заданий

будут отобраны оба эти вида заданий, поскольку эти факторы высоко

коррелируют. Следовательно, процедура анализа заданий как метод

конструирования тестов имеет меньшее значение, чем факторный

анализ.

Это последнее критическое замечание может быть опровергнуто

только дальнейшими исследованиями теста. Факторный анализ дан-

ного теста со средствами измерения других факторов покажет, изме-

ряет ли этот тест один фактор или нет. Если нет, то необходим

факторный анализ заданий (по методике, описанной в главе 9).

Однако, если в результате процедуры анализа заданий может

быть получен тест, не являющийся факторно чистым, возникает оче-

видный вопрос: почему используется этот метод? Почему нельзя

сразу использовать факторный анализ? Ответом является то, что, как

будет указано в главе 9, существуют серьезные технические пробле-

мы при факторизации заданий, которые не были преодолены полно-

стью. Помимо этого, необходимы очень большие выборки; Nunnally

(1978) утверждает, чтонеобходимовдесятьразбольшеиспытуемых,

чем имеется заданий. Все это делает сомнительной эффективность

непосредственного проведения факторизации заданий, особенно

когда процедура анализа заданий и факторно-аналитические иссле-

дования высоко коррелируют (Nunnally, 1978). Следовательно, в

качестве первого шага процедура анализа заданий является очень

ценным методом конструирования тестов.

 

Задания

 

Сконструируйте примерно вдвое больше заданий, чем необходи-

мо для окончательного теста. Величина окончательного теста будет

зависеть от его назначения и сущности. Тест способностей для детей

начальной школы должен занимать не более, чем 30 минут, в против-

ном случае на результаты повлияют усталость и скука. Личностный

тест для взрослых также должен быть не длиннее. В идеале тесты

должны быть настолько краткими, насколько возможно, в соответ-

ствии с оценками надежности и валидности. Это означает, что в

выборочной совокупности должно быть по крайней мере пятьдесят

заданий (для надежности). Задания должны отбираться из генераль-

ной совокупности заданий (для валидности).

Аналогично, в тесте, определяющем нейротические или психоти-

ческие симптомы, доля испытуемых, давших ключевые ответы, бу-

 

183

 

дет значительно отличаться в группе нормальных испытуемых и

группе, составленной из пациентов психиатрических клиник.

 

Важные переменные выборки

 

Сказать, что выборка должна отражать конкретную категорию

лиц (популяцию) - это значит не сказать ничего, пока не установ-

лены основные переменные, характеризующие данную категорию

(популяцию). Очевидно, что такие определяющие переменные будут

различными для разных тестов. Так, в тестах способностей возраст

и, в случае со взрослыми испытуемыми, уровень образования будут

существенными переменными, поскольку тест способностей для оп-

ределения некоторой переменной для всех возрастов и на всех уров-

нях способностей был бы чрезвычайно длинным. Тем не менее, для

большинства тестов несколько переменных выборки являются осо-

бенно важными. Они перечислены ниже. Их нужно принимать во

внимание при формировании выборок испытуемых для испытания

заданий.

 

Пол испытуемых

 

При конструировании заданий для тестов практически любого

типа необходимо учитывать, что весьма вероятны различия в ответах

на них в зависимости от пола испытуемых. Покажем это на несколь-

ких примерах. Обычно при выполнении тестов способностей детьми

до 16 лет девочки демонстрируют превосходство в словесно-логиче-

ских навыках, а мальчики - в работе с цифрами. Вероятнее всего,

что задания из этих областей будут иметь различные статистические

оценки. Различия испытуемых по полу также обнаруживаются во

многих заданиях личностных тестов, например, тех, которые каса-

ются интереса к одежде, спорту, своей внешности, вождению автомо-

биля, рисованию, верховой езде. Аналогично, в тестах, задания ко-

торых связаны с хобби и интересами, вероятно, также проявятся

такие тенденции. Суть состоит в том, что было бы разумно предви-

деть различия между мужчинами и женщинами при ответах на такие

задания. Но я не утверждаю, что такие различия действительно бу-

дут иметь место.

Одним из решений этой проблемы было бы разделить мужчин и

женщин на отдельные выборки, а затем отобрать задания, удовлет-

воряющие критериям процедуры анализа заданий для обеих групп.

Именно так поступал автор данной книги при разработке собствен-

ных тестов, хотя при этом возникают некоторые трудности, частично

теоретические по своей сути, которые следует полностью осознать,

прежде чем применять эту процедуру.

 

184

 

Первая проблема состоит в том, что хотя задания почти всегда

могут быть сформулированы так, что они пройдут процедуру анализа

(с корреляцией задание/общий показатель 0,2 и долей Р ответивших

в соответствии с ключом испытуемых в пределах от 0,20 до 0,80) в

обеих группах, даже для эффективных заданий эти оценки могут не

быть идентичными. Особенно важным здесь является коэффициент

Р, так как если он всегда больше, скажем, для мужчин, чем для

женщин, на большом количестве заданий, то это может привести к

влиянию пола испытуемых на результаты тестирования. Однако, на

практике, несмотря на эти отклонения, автору при использовании

данного метода всегда удавалось найти задания, эффективные для

обеих групп и составлявшие тесты, в которых пол испытуемых не

имел сколь-нибудь значительного влияния на результаты.

Вторая проблема является более фундаментальной. Если мы от-

берем задания, получившие в процедуре их анализа одинаковые

оценки для мужчин и для женщин, мы фактически создадим тест, на

результаты которого пол испытуемых не влияет. С другой стороны,

мы могли бы отобрать задания, по которым женщины показывают

более высокие результаты. Каково, однако, значение такой идентич-

ности или различия в показателях? Чтобы вычленить эту проблему,

следует вспомнить, что средние значения и дисперсии для тестов

являются функциями отдельных наборов заданий. Так что не имеет

смысла утверждать, что исходя из показателей по тесту девочки

выполняют его лучше, или хуже, или так же, как мальчики. Это

должно быть функцией конкретного набора заданий.

На практике это означает, с нашей точки зрения, что если только

у нас нет a priori некоторой веской причины ожидать влияния пола

испытуемых на тест, то должны отбираться те задания, которые не

выявляют половых различий. В случае большинства личностных и

мотивационных переменных это наиболее оптимальный подход.

Следует заметить, что если поданной переменной существуют реаль-

ные различия между полами, то не имеет значения, сколько заданий

испытывается - это проявится в статистических оценках заданий.

Так, если постоянно для каждого задания, безразлично как перефра-

зированного или видоизмененного, обнаруживается устойчивая тен-

денция, то тогда лучше всего будет использовать эти задания, даже

пусть даже тест и показывает нам теперь различия между полами.

Мы можем либо принять это различие как реально существующее

(то есть не как артефакт, порождаемый заданиями), или мы можем

нормировать показатели (см. глава 8), что исправит нарушенное

равновесие. Какой из этих вариантов мы выберем, должно зависеть

от измеряемой переменной. Короче говоря, задания должны испыты-

 

185

 

ваться отдельно для испытуемых каждого пола, и отобранные зада-

ния должны работать одинаково на этих группах. Если это не так, то

для восстановления равновесия должно применяться нормирование,

если мы не хотим, чтобы сохранялось, даже теоретически, влияние

различий между полами.

Эта процедура представляется наилучшей для конструирования

тестов, в ней допускается искусственность происхождения любых

получаемых распределений показателей. Однако, еще одна возмож-

ность состоит в том, чтобы дать тест некоторой выборке испытуемых

(которая, если правильно сформирована, будет наполовину муж-

ской), и просто отобрать наилучшие задания. При этом предполага-

ется, что никакие различия пола не впаяют на ответы. Это вполне

приемлемый подход, поскольку, если половина выборки будет вы-

полнять тест иначе, это неблагоприятно повлияет на статистические

оценки заданий, и, следовательно, задания, на которые мужчины и

женщины отвечают по-разному, будут с большей вероятностью уда-

лены. Это более быстрое, но менее изящное решение, не предостав-

ляющее разработчику теста информацию о том, как пол испытуемого

влияет на ответы на задания. Хотя при помощи этого метода и можно

получить эффективные тесты, использовать его не рекомендуется, за

исключением тех случаев, когда вы крайне ограничены во времени и

ресурсах.

В заключение следует сказать, что рекомендуется проведение

отдельных процедур анализа заданий для испытуемых разных полов.

Если a priori нет ясной противоположной гипотезы, то должны отби-

раться те задания, на которые не влияет пол испытуемых. Если пол

испытуемых оказывает влияние на результаты окончательного тес-

та, то для устранения этого в дальнейшем показатели могут быть

стандартизованы.

 

Возраст испытуемых

 

Это переменная, которая до некоторой степени должна прини-

маться в рассмотрение для всех тестов, но особенно она важна по

отношению к тестам интеллекта и специальных способностей. Что

касается тестов интеллекта, то это обычное явление - конструиро-

вать тесты для относительно узкой возрастной группы. Дело в том,

что если бы для каждой возрастной группы были бы подобраны эф-

фективные задания, надежно их дискриминирующие, то тест был бы

чрезвычайно длинным.

При испытании заданий существенно, чтобы вся сформированная

выборка была подобна той, для которой тест предназначен. Однако,

полезно также провести анализ заданий данного теста отдельно для

 

186

 

различных возрастных групп в рамках одной выборки. Так, могут

быть отобраны задания, эффективные для всех возрастных групп в

рамках данной выборки, хотя, вероятно, и наиболее подходящие для

лиц одного конкретного возраста. В данном случае целью является

получить задания с уровнем трудности, плавно уменьшающимся с

возрастом. Для тестов способностей это может быть трудной задачей,

и лучше разрабатывать тесты для конкретных возрастных групп (по

годам) отдельно, например, тесты математических способностей для

13-летних, для 14-летних и т.д.

Что касается личностных и мотивационных тестов, то в этом слу-

чае обычно принято, как мы увидим, их конструирование для взрос-

лых (16 лет и старше), для подростков (от 12 до 15 лет) и для детей

младшего возраста (с 8 лет и старше), хотя могут быть разработаны

специальные варианты тестов и для более младших.

Очевидно, что в этих случаях мы должны проводить испытания

заданий на выборках, соответствующих по возрасту той категории

лиц, для которых предназначается тест. Однако, полезно изучить

статистические оценки заданий и на подвыборках, составленных из

самых старших и самых младших испытуемых той возрастной груп-

пы, для которой предназначен тест. Так, в варианте теста для взрос-

лых должен быть выполнен анализ заданий на 16-летних испытуе-

мых., чтобы убедиться, что задания эффективны для этой группы.

Аналогично, с вариантом для подростков, где важно увидеть, как

задания работают на границе этой возрастной группы (то есть в тех

областях, для которых возможно несоответствие заданий). Напри-

мер, задание-вопрос о вечеринках может дать различные результаты

для 15-летних, которые устраивают уже свои вечеринки, и для млад-

ших детей, которые в них не участвуют. В случае личностных тестов

для младших групп детей рекомендуется выполнять анализ заданий

отдельно по группам однолеток, так как недостаточное понимание

смысла задания может значительно повлиять на их выполнение.

 

Другие переменные

 

Другие переменные, такие как принадлежность к определенному

социальному классу, культурные различия и связанный с этим уро-

вень образования могут существенно повлиять на ответы в тестах

способностей. Однако, соответствующие методики формирования

выборок должны рандомизировать влияние этих переменных, так

что задания, подверженные их воздействию, просто не будут рабо-

тать эффективно, а тем самым удаляются из окончательного теста.

Если тест предназначен для всей популяции, то это правильно. В

случае, когда тест предназначен для высокообразованных испытуе-

 

187

 

мых, то наша выборка должна, соответственно, состоять из таких

людей. В общем, не следует уделять особого внимания этим перемен-

ным при условии, что наша выборка адекватно отражает ту катего-

рию лиц (популяцию), для которой тест предназначен.

 

Анализ заданий: два полезных показателя

 

С этого момента мы будем предполагать, что наши выборки адек-

ватны по составу и достаточно велики. Сейчас мы подходим к реаль-

ному анализу заданий. Поскольку целью является получить одно-

родный дискриминирующий тест, из этого следует, что существует

два полезных показателя: (1) доля испытуемых, давших ключевые

ответы; и (2) величина корреляции заданий с общим показателем.

 

Корреляция заданий и общего показателя

 

Существует несколько формул для вычисления корреляции зада-

ний с общим показателем. Они перечислены ниже вместе с коммен-

тариями по их использованию при анализе заданий.

(1) Коэффициент произведения моментов Пирсона . Nunnally

(1978) рекомендует его для заданий с оцениванием по многобалль-

ным шкалам. Однако, в случае пяти-балльных шкал (или с меньшим

количеством градаций) правомочность использования этого коэффи-

циента корреляции вызывает сомнения.

(2) Точечно-бисериальная корреляция. Эта формула использует-

ся для дихотомических заданий. Ответы на другие задания могут

быть приведены к виду «правильно/неправильно» или «ключевой/

неключевой ответ» и также обработаны при помощи этой формулы.

(3) Коэффициент (р . Этот коэффициент можно использовать,

если мы приведем общий показатель к дихотомическому виду («тест

выполнен / не выполнен» или «показатель выше / ниже среднего») .

Строго говоря, для этой формулы предполагается, что это неконти-

нуальные градации.

(4) Четырехпольный коэффициент корреляции. Эта формула

может использоваться как и коэффициент (р. Однако, делается пред-

положение, что градации «тест выполнен/не выполнен» или «верно/

неверно» являются континуальными. Для четырехпольного коэффи-

циента корреляции существует проблема, состоящая в том, что его

стандартная погрешность является большой: вдвое больше, чем для

коэффициента произведения моментов. И четырехпольный коэффи-

циент net , и коэффициент <р из-за дихотомизации общего показа-

теля, приводят к отбрасыванию определенных объемов данных.

Anstey (1966) перечисляет еще 66 коэффициентов. Однако, мно-

гие из них разрабатывались, чтобы сэкономить время при вычисле-

188

 

ниях. Это оригинальные краткие формулы, дающие эффективные

оценки корреляции с общим показателем. Однако сейчас, при нали-

чии микрокомпьютеров, необходимость в таких методах отпала.

Вместо этого мы можем выбрать, какие, с точки зрения разработчи-

ков тестов, методы являются наилучшими.

 

ВЫБОР СТАТИСТИЧЕСКИХ КОЭФФИЦИЕНТОВ ДЛЯ АНА-

ЛИЗА ЗАДАНИЙ

Дихотомизировать показатели на высокий и низкий, как это тре-

буется для многих статистических формул анализа заданий, - зна-

чит потерять многоценной информации. Представляется, что у дан-

ного подхода нет никаких достоинств, и я не склонен рекомендовать

его использовать. Теперь, при наличии компьютеров, утрачено его

основное преимущество - экономия времени.

При использовании континуального критерия, общего показателя

по тесту, какой же статистический коэффициент будет наилучшим?

Самым лучшим, несомненно, будет коэффициент точечно-бисери-

альной корреляции, или грЬк Anstey, сравнивая бисериальный и

точечно-бисериальный коэффициенты корреляции, проводит два

важных различия между этими показателями. При бисериальной

корреляции предполагается, что распределение показателей по кри-

терию является нормальным и есть количественное различие между

правильными и неправильными ответами. При точечно-бисериаль-

ной корреляции таких предположений о распределениях не делается

и допускается лишь количественное различие между правильными и

неправильными ответами. Более того, значение коэффициента бисе-

риальной корреляции может, если распределение не является нор-

мальным, превзойти 1; для нее также предполагается линейность

регрессии между заданиями и критерием.

Если мы помним, что, согласно классической модели погрешно-

стей измерения, корреляция заданий с общим показателем равна

средней корреляции некоторого задания со всеми остальными зада-

ниями, то коэффициент rpbis является чрезвычайно значимым. Коро-

че говоря, этот коэффициент корреляции дает нам наилучшее сред-

ство измерения корреляции заданий с общим показателем, что суще-

ственно при конструировании однородного теста.

 

ТРУДНОСТИ ВЫЧИСЛЕНИЯ ПОКАЗАТЕЛЕЙ ПО НЕЗАВЕР-

ШЕННЫМ ТЕСТАМ

Существует практическая проблемы, особенно для тестов способ-

ностей, в работе с которыми некоторые испытуемые не укладываются

во время, отведенное для тестирования. Следовательно, некоторые

задания в конце теста остаются невыполненными. Это приводит к

189

 

искусственному возрастанию корреляции этих заданий с общим по-

казателем теста. Как видно по формулам, приведенным Anstey

(1966); делались попытки учесть это при вычислении корреляции.

Однако, как указывает Anstey, это вряд ли стоит делать. С нашей

точки зрения, лучше всего предъявлять такое количество заданий,

чтобы все они могли быть выполнены. Если, наконец, 10% испытуе-

мых из выборки не выполнили некоторое задание, то это только 10%

утерянной информации, и никакие статистические ухищрения не

могут на это повлиять. Если же это неосуществимо, то, вероятно,

лучше предъявлять задания случайным образом, так, чтобы количе-

ство испытуемых, не выполнивших какое-либо одно задание, было

незначительным.

 

Доля испытуемых, давших ключевые ответы

 

Нет необходимости говорить что-либо об этом статистическом

показателе. Единственной трудностью может быть упомянутая выше

- наличие невыполненных заданий. В общем, все, что необходимо

сделать - это подсчитать количество ответов на каждое задание.

 

Процедуры анализа заданий

 

Сейчас будут описаны основные практические шаги, необходи-

мые для анализа заданий. Метод, который я проиллюстрирую, был

рекомендован Nunnally (1978) и использовался автором данной кни-

ги при конструировании его собственных тестов. Это коэффициент

точечно-бисериальной корреляции грЬц . Прежде чем описывать вы-

числения и процедуры, остается отметить одну маленькую деталь.

При вычислении корреляции задания с общим показателем не ис-

ключается вклад в общий показатель данного задания, следователь-

но, полученное значение будет выше, чем корреляция этого задания

со всеми другими заданиями. Когда производится испытание большо-

го количества заданий (скажем, около 100), этот эффект можно не

принимать во внимание. Однако, Nunnally (1978) приводит коррек-

тирующую формулу:

 

гц (corrected) =

 

r-ltOt-Oi

 

V(7? +ff? -20i0t Гц

где гц - корреляция задания с общим показателем, 0i - стандар-

тное отклонение для задания, 0( - стандартное отклонение для

теста.

 

Эту формулу следует применять, если у вас гораздо меньше

заданий.

 

190

 

Будем предполагать, что множество испытываемых заданий было

предъявлено большой выборке подходящих испытуемых, как обсуж-

далось выше, и результаты были обработаны. Будем также предпо-

лагать, что задания являются дихотомическими. Формула для Грыя :

 

Мн - ML гр-

0 «V

 

где Мн - среднее значение показателей по тесту для испытуе-

мых, давших правильный (ключевой) ответ на данное задание, ML

- среднее значение показателей по тесту для испытуемых, давших

неправильный ответ на данное задание, О- стандартное отклонение

для теста, / - доля испытуемых, давших правильный (ключевой)

ответ на данное задание, ид= ]- Р.

 

Шаги вычислений в процедуре анализа заданий

 

( 1 ) Вычислите арифметическое среднее и стандартное отклонение

для всей группы по тесту.

(2) Для каждого задания вычислите среднее значение показателя

по тесту для испытуемых, давших правильный (ключевой) ответ на

это задание (Мн) и отметьте количество испытуемых, сделавших это

 

WH).

(3) Для каждого задания разделите NH на N . Это дает Р (см.

примечание на стр. 172).

(4) Для каждого задания 1-P=q. Это дает q .

(5) Имея среднее значение общего показателя по тесту для каж-

дого задания, можно получить ML из уравнения:

 

(Мн Х NH) + (ML Х NL) = Мг Х NT

 

Это дает Mi.

(6) Для каждого задания перемножьте Р q и возьмите квадратный

корень.

(7) Теперь может быть получен точечно-бисериальный коэффи-

циент корреляции грЫз для каждого задания:

 

Мн (из шага 2) - ML (из шага 5) Гп- / <-

-»-т-- VP q (из шага о)

О (из шага 1)

 

Эта процедура анализа дает нам для каждого долю испы-

туемых, давших ключевой ответ на данное задание (значение Р из

шага 3), и значение корреляции ГрЬю с общим показателем.

Эта процедура несколько длинновата, если у нас большая выборка

и приличный набор заданий, так что на практике разработчик теста

 

может и не выполнить все эти шаги. Это особенно важно, если при-

меняется корректирующая формула для корреляции (из-за того, что

каждое задание вносит свой вклад в общий показатель). Но в общем

большинство разработчиков тестов имеют доступ к вычислительной

технике, так что в данном случае всю эту работу за вас может сделать

компьютер.

 

Вычисления на компьютере

 

Если можно использовать компьютер, то процедура будет выгля-

деть следующим образом:

(1) Для каждого испытуемого показатель по каждому заданию (О

или 1) и общий показатель по тесту вводятся к память компьютера.

(2) Запрашивается программа, печатающая значения корреля-

ции (скорректированной по отмеченной выше формуле) между зада-

ниями и общим показателем.

(3) Запрашивается программа, печатающая долю испытуемых,

давших правильные (ключевые) (1) ответы на каждое задание.

(4) ОБРАТИТЕ ВНИМАНИЕ, что грЬ-is - это численный эквива-

лент коэффициента произведения моментов Пирсона, так что ком-

пьютеру задается программа вычисления последнего.

 

Краткое вычисление без компьютера

 

Если у вас нет никаких программ для анализа заданий, можно

использовать краткий метод вычислений вручную, который дает удо-

влетворительную точность для практического отбора заданий, хотя

и будет неразумным использовать полученные коэффициенты кор-

реляции для дальнейшего статистического анализа или восприни-

мать их слишком буквально. В этом методе для оценки Р и грЫч

используются верхние и нижние 27% распределения. Для этого раз-

личными авторами были разработаны таблицы процедуры анализа

заданий. Здесь мы приведем краткий метод с использованием таблиц

Фэна (Fan, 1952), которые просты в использовании и легко доступны

в Великобритании.

 

ПРОЦЕДУРА АНАЛИЗА ЗАДАНИЙ С ИСПОЛЬЗОВАНИЕМ

ТАБЛИЦ ФЭНА

(1) Отберите 27% лучших (группа Н ) и 27% худших (группа L )

испытуемых по данному тесту.

(2) Для каждого задания подсчитайте долю испытуемых из груп-

пы Н , давших правильный (ключевой) ответ: РН

(3) Сделайте то же самое для группы L: PL

 

(4) Для каждого задания посмотрите таблицы Фэна, которые для

каждой возможной комбинации Рц и PL дают приближенную оценку

Р и rpbis ,- на пересечении строк и столбцов: каждая строка соответ-

ствует значению РН , а каждый столбец - значению PL

Очевидно, что если у вас есть компьютер, то имеет смысл его

использовать. Тем не менее, всем разработчикам тестов по крайней

мере однажды приходилось анализировать тест вручную, поскольку

видение реального процесса обработки показателей для заданий в

различных группах испытуемых и постоянная перетасовка заданий

теста дают глубокое проникновение в смысл того, что происходит с

заданиями теста - интуицию, которая не может возникнуть из ком-

пьютерных распечаток.

 

Отбор заданий после их анализа

 

Описанный метод анализа заданий дал нам два существенно важ-

ных статистических показателя: Р - долю испытуемых, давших

ключевой ответ на задание, и / - корреляцию между заданием и

общим показателем.

 

Таблица 6.1. Представление результатов

 

N-200МN-200FN-200MA

Про-Про-Про-

цеду-цеду-педу-

ра 1ра2раЗ

РгРrРr

Задание 11, Нравится ли вам бол-0.410.520.730.350.400.47

тать»

Задание 22. Испытываете ли вы0.250.350.410.280.310.20

иногда чувство ревности?

Задание 33. Объедались ли вы ког-0.950.060.900.120.920.03

да-нибудь?

Задание N

Примечание: 1) это не задания реального теста, их статистические показатели были

придуманы для иллюстрации;

2) М - мужчины, F - женщины, MA - мужчины-военнослужащие.

 

Как указывалось, для испытуемых разных полов необходимо вы-

полнять отдельные процедуры анализа заданий, и в некоторых слу-

чаях нам может понадобиться более, чем одна выборка, чтобы убе-

диться в стабильности задания. Предположим, что для всех наших

выборок процедуры анализа заданий выполнены. В таблице 6.1 по-

казан удобный способ представления результатов.

 

4-196

 

193

 

Критерии

 

При отборе заданий для теста есть много разнообразных момен-

тов, о которых следует помнить, и при окончательном отборе мы

должны достичь между ними равновесия. Важность каждого из этих

критериев изменяется до некоторой степени в зависимости от вида

конструируемого теста и его назначения.

Этими критериями являются:

( 1 ) Величина теста. Для обеспечения надежности необходимо от

20 до 30 заданий.

(2) Содержание. В большинстве тестов желательно использование

настолько широкого разнообразия заданий, насколько возможно. Это

в равной степени важно, например, как для математических тестов,

где необходимы задания, выявляющие знания испытуемых в соответ-

ствии со всеми требованиями курса обучения, так и для тестов лич-

ности, с помощью которых должны измеряться столь же широкие

области релевантных аспектов поведения. Например, для экстравер-

сии это будут: общительность, оптимистичность, преобладание бод-

рого настроения и разговорчивость.

(3) Корреляция заданий с общим показателем. Это основной кри-

терий. Чем выше корреляция, тем лучше задание. Ясно, что следует

оставлять в тесте те задания, которые имеют высокую корреляцию с

общим показателем, однако на больших выборках эти цифры могут

быть и низкими. В идеале, все задания должны иметь корреляцию с

общим показателем не ниже 0,2 .

(4) Уровень трудности. Это также важный критерий. Для боль-

шинства тестов принято, что задания со значением Р от 0,80 до 0,20

считаются удовлетворительными. В то же время задание, эффектив-

ное в других отношениях, но со значением Р= 0,19 не должно быть

отброшено. Однако, в некоторых тестах способностей может быть

желательна максимальная дискриминативность для некоторого

уровня измеряемой переменной. Например, для отбора в среднюю

школу в некоторых областях страны требовались тесты с максималь-

ной дискриминативностью на уровне 115-120 IQ; в других регионах,

там, где было меньше мест в средних школах, максимум дискрими-

нативности был на уровне 125 IQ. Чтобы достичь этого, были необхо-

димы задания различного уровня трудности.

 

Такое утверждение существенно упрощает истинное положение дел. Определяю-

щим является не количество заданий, а их характер (особенности) и назначение

теста (Прим .ред.)

 

194

 

Отбор заданий тестов

 

Простейшая процедура отбора заданий для теста, которая должна

удовлетворять нашей модели измерения (и без каких-либо специаль-

ных уровней трудности) приведена ниже:

(1) Выберите те задания, которые во всех процедурах их анализа

удовлетворяют статистическим критериям ГрЬи и Р .

(2) Изучите те задания, которые не прошли одну из процедур

анализа, чтобы увидеть, не повлияла ли на это какая-либо особая

характеристика выборки. Например, для выборки из учителей автор

данной книги обнаружил, что задание, касающееся дисциплины,

имеет совершенно другие статистические оценки, чем для других

выборок. Это открытие позволило принять решение об использова-

нии этого задания. С другой стороны, задание, касающееся ухода за

детьми, на котором выявились большие различия в зависимости от

пола испытуемых, было удалено, поскольку можно было ожидать,

что такие различия будут иметь место всегда. При сравнения заданий

на мужской и женской выборках были обнаружены множество эф-

фективных заданий для мужчин и множество эффективных заданий

для женщин, но они имели относительно малое пересечение, следо-

вательно, это было явным показанием к тому, что на этих множест-

вах желательно создание отдельных тестов.

(3) Проверьте содержание отобранных заданий. Охватывают ли

они все характеристики, которые мы предполагали измерять при

помощи данного теста? Если нет, то изучите отбракованные задания,

чтобы посмотреть, есть ли среди них такие, которые измеряют эти

черты и почти удовлетворяет статистическим критериям. Если есть

несколько таких заданий, они должны быть введены в тест. Если нет,

то из этого вытекают два следствия: (а) эти задания, при предъявле-

нии вместе с отобранными, не образуют однородный тест; или (б) мы

сформулировали неудачные задания. Если мы остановимся на (б), то

задания должны быть переформулированы и опять подвергнуты ис-

пытаниям (см. стр. 197).

(4) Подсчитайте количество отобранных заданий. Если их коли-

чество приближается к рекомендованному (20-30) и охватывает все

содержание теста, вычислите коэффициент надежности K-R20. Он

всегда должен быть не менее 0,7; в противном случае в силу ряда

причин, как об этом говорилось при обсуждении процедуры отбора

по внутренней согласованности, можно ожидать более низкой одно-

родности теста. Если же значение надежности удовлетворительно, то

первое испытание заданий может быть окончено. Сконструирован

однородный, надежный, очевидно релевантный по содержанию тест.

 

т 195

 

(5) Если значение коэффициента надежности невысокое, то мож-

но добавить к тесту задания, имеющие наилучшие показатели по

статистическим критериям из оставшихся. Затем пересчитывается

коэффициент надежности K-R20 всякий раз, когда мы пытаемся

добавлением заданий увеличить значение надежности. Однако, уда-

стся ли это сделать - зависит от случая. Если нововведенные задания

слабо коррелируют с общим показателем, то они не смогут значи-

тельно увеличить надежность. Необходимо испытывать новые зада-

ния (см. стр. 197).

(6) Если испытание заданий завершилось созданием теста, надеж-

ного и удовлетворительного по содержанию, есть смысл изучить рас-

пределение показателей. Обычно распределение должно быть сим-

метричным. Практически, поскольку наибольшие значения корре-

ляции, вычисленной по формуле rpbis , бывают присущи заданиям,

близким к средним по уровню трудности, то почти неизбежно будет

получено симметричное распределение. Если же оно значительно

смещено, то для его корректировки нам могут понадобиться новые

задания, но в процессе стандартизации возможно приведение пока-

зателей к другому виду распределения.

Следует изучить дисперсию. Она должна быть настолько боль-

шой, насколько возможно, так как это означает, что тест является

эффективно дискриминирующим. При малом значении дисперсии в

тест нужно вводить новые задания. Если большое количество испы-

туемых получили максимальные и минимальные показатели, то для

этих уровней трудности могут потребоваться новые задания, по-

скольку ясно, что наш тест не является дискриминативным на этих

уровнях, и на более крупных выборках из изучаемой популяции

следует ожидать еще большего количества таких испытуемых.

(7) Если тест представляется удовлетворительным по дисперсии и

дискриминативности, вычислите Ферпосона. Если ее значение пре-

вышает 0,9 , то с уверенностью можно сказать, что тест является

дискриминативным.

(8) Если все получилось и похоже, что нам удалось сконструиро-

вать удовлетворительный набор заданий, проведите процедуру ана-

лиза этих заданий на новой выборке. Если более, чем одно или два

задания не удовлетворяют статистическим критериям rpbis и Р , яв-

ляющимся единственными критериями, интересующими нас при

этой повторной проверке, то эти задания должны быть переформули-

рованы и испытаны вновь. Это, однако, маловероятно, если на первом

этапе вы использовали хорошо сформированные выборки. На новой

выборке сравните средние значения для мужчин и для женщин: они,

конечно же, не должны сильно различаться.

 

196

 

(9) В этой процедуре производится только анализ заданий. В ней

мы не встречались с проблемами подбора дистракторов для заданий

с несколькими вариантами выбора или случайного угадывания отве-

тов, обсуждавшимися в главе 2, посвященной тестам способностей,

или с устранением влияния установок на ответы, с которыми мы

имели дело в главе 3 о личностных тестах.

 

Понятие надежности, возникающее на шаге 5 приведенной про-

цедуры, нуждается в некотором дополнении. Некоторые авторы от-

стаивают систематический подход к определению надежности, суть

которого в том, что лучшие задания (по критерию корреляции с

общим показателем) должны добавляться к тесту до тех пор, пока не

будет достигнуто настолько высокое значение коэффициента надеж-

ности, насколько это было желательно, и на этом шаге конструиро-

вание теста завершается. С нашей точки зрения, при таком подходе

игнорируются другие важные аспекты теста (как обсуждалось выше)

и слишком много внимания уделяется его внутренней согласованно-

сти.

До сих пор при обсуждении процедур анализа заданий и констру-

ирования тестов предполагалось, что для конструирования шкалы,

которую уже можно исследовать на валидность, было сформулирова-

но достаточное количество заданий. Однако, на различных этапах

процедуры отбора заданий часто возникает необходимость в пере-

формулировании заданий.

 

Переформулирование заданий

 

Если по некоторым аспектам исследуемой переменной нет удов-

летворительных заданий, или их недостаточно для создания надеж-

ного теста, как и в том случае, когда при повторном испытании

некоторые задания не удовлетворяют критериям, может возникнуть

необходимость в переформулировании заданий. При переформули-

ровании заданий может быть полезно знание того, отчего задание

было устранено в процедуре анализа, а также его статистические

оценки. Поясним это на примерах.

 

ПРИМЕР 1

Это задание 3 из таблицы 6.1, в которой показан удобный способ

представления результатов анализа заданий: «Объедались ли вы ког-

да-нибудь?» Статистические оценки задания указывают, что слиш-

ком много испытуемых ответили на этот вопрос утвердительно, а

поэтому он неэффективен. Хотя этот вопрос и предназначался для

выявления обжорства, он соответствует поведению, которое допу-

скал практически каждый. Необходим такой образец обжорства, ко-

 

197

 

торый встречается намного реже. Например, удачным приемом мо-

жет оказаться вопрос: «Съедали ли вы когда-нибудь шесть порций

мороженого за раз?» Это гипотетический пример. Все другие приме-

ры взяты из моей собственной работы над личностными тестами.

 

ПРИМЕР 2

«Воспользовались бы вы чьей-нибудь зубной щеткой?» На этот

вопрос ответили «нет» большинство испытуемых из эксперименталь-

ной выборки. Очевидно, что это была слишком суровая проверка на

безразличие к бактериям. Вместо него было использовано более уме-

ренное задание: «Воспользовались бы вы зубной щеткой своего дру-

га?»

 

ПРИМЕРЗ

«Ваши хобби и интересы такие же, как у большинства других

людей?» На этот вопрос многие испытуемые не дали утвердительного

ответа. Это были те, кто отметили этот вопрос (как им было позволе-

но при испытании заданий) как такой, для ответа на который им

понадобилась неопределенная категория ответа. Проблема заключа-

лась в словах «большинство людей». Действительно, кто знает, что

делают большинство людей? Вместо этого я подставил «у многих

людей», и задание успешно прошло повторные испытания.

 

ПРИМЕР 4

Является ли курение плохой привычкой? Это задание эффектив-

но работало в Великобритании, но оказалось непригодным в Амрит-

саре, штат Пенджаб, где почти все испытуемые из выборки ответили

«да». Однако невозможность использовать его в Амритсаре объясня-

ется тем фактом, что этот город является центром религии сикхов,

которая запрещает курение!

Эти примеры в достаточной степени показывают, что процедура

анализа заданий может дать нам ключ к тому, как они должны быть

переформулированы. Будучи переформулированными, новые зада-

ния вместе с отобранными ранее должны быть предъявлены вновь

соответствующим выборкам испытуемых и подвергнуты процедуре

анализа так, как описано выше. Это должно дать достаточное коли-

чество репрезентативных заданий для формирования приемлемого

теста.

 

Если тест сформировать не удалось

 

Однако, иногда, даже после переформулирования заданий, коли-

чества заданий все еще недостаточно для формирования теста или

даже для получения среднего значения надежности. Существует не-

 

198

 

сколько причин, по которым это могло произойти, и будут обсуждены

меры, которые могут быть приняты в каждом случае.

 

Такой переменной не существует

 

Возможна, особенно в сфере личности и мотивов, где даже среди

специалистов по психометрии мало согласия по поводу того, что

представляют собой конкретные переменные, (не говоря уже о почти

полном отсутствии согласия между психометрией и клинической тео-

рией) , ситуация, когда мы пытаемся измерить переменную или син-

дром, которые попросту не существуют.

Так, если мы попытаемся измерить фаллический характер

(Freud, 1905), гипотетический синдром личностных черт, появляю-

щийся, согласно теории Фрейда, в результате фиксации на фалличе-

ской фазе онтогенеза, впаяне может произойти такая неудача. Ни

одному исследователю не удалось сконструировать валидное средст-

во измерения этой переменной (см. Kline, 1972; Fisher и Greeaberg,

1977). Представляется, что в этом случае нет корреляции между

составляющими ее чертами. Следовательно, тест не может быть

сконструирован. Как я уже утверждал при обсуждении внутренней

согласованности, при измерении синдромов, включающих широкий

набор черт, допустимо, чтобы значение коэффициента надежности

было ниже, чем для других более однородных переменных, если же

нет корреляции, то даже это становится невозможным. Если это

имеет место, от данного теста лучше отказаться.

 

КАК ПОКАЗАТЬ, ЧТО ПЕРЕМЕННАЯ НЕ СУЩЕСТВУЕТ

Единственный обоснованный метод для проверки этой гипотезы,

отличный от выводов из природы той переменной, которую мы пыта-

емся измерить, - вычислить корреляцию между заданиями и, воз-

можно, подвергнуть их факторному анализу, хотя это и не всегда

необходимо.

Эта процедура не описывается подробно, так как она идентична

приводимой ниже процедуре конструирования факторизованных те-

стов. Приведем краткое описание. Вычисляются значения коэффи-

циента корреляции (р между заданиями. Если большинство из этих

значений низкие, меньше, чем 0,2 , или незначимые, то тогда ясно,

что черты, измеряемые данным тестом не образуют синдром. Если же

некоторые задания образуют кластеры, то должно быть изучено их

содержание. Если они все подобны - являются перефразированиями

друг друга или затрагивают явно одинаковые особенности поведения

- то это удовлетворительное объяснение их коррелированности. Ес-

ли же они охватывают по крайней мере часть синдрома, может ока-

 

199

 

заться, что они действительно формируют реально существующую

переменную, то есть синдром более узок, чем это описано в клиниче-

ской теории. В этом случае может оказаться полезным формулирова-

ние новых заданий такого же вида; эти новые задания будут затем

подвергнуты, вместе с исходными, процедуре анализа так, как было

описано.

При этом существует опасность, что при помощи этой процедуры

мы можем сконструировать специфический фактор - дутую, лож-

ную особенность (Cattell и Kline, 1977). Однако, это должно быть

выявлено при выполнении исследований валидности - этот фактор

не будет коррелировать ни с чем. Такой корреляционный анализ,

конечно, имеет смысл осуществлять в том случае, когда не удалось

сформировать тест и если мы пытаемся измерить переменную, суще-

ствование которой вызывает теоретические сомнения. Если бы мы

пытались измерить хорошо определенную переменную, такую как

вербальные способности, корреляционный анализ был бы бессмыс-

ленным, так как неудачу нельзя было бы приписать тому факту, что

такой переменной не существует.

 

Неудовлетворительные задания

 

Логично было бы в каждом случае неудачи при конструировании

теста предположить, что причиной этого является то, что подготов-

ленные задания просто не измеряют того, для измерения чего они

предназначались. Опять-таки, это более вероятно в случае личност-

ных и мотивационных тестов, чем для тестов способностей. Однако,

даже в последних противоречивые высказывания или плохо сформу-

лированные инструкции могут свести на нет их эффективность.

В том случае, когда мы следовали правилам формулирования

заданий (которые были описаны в главах 2 - 4, посвященных конст-

руированию тестов различных типов) и, что более важно, если мы

исправили слабые задания, исходя из требований процедуры их ана-

лиза для повторного испытания, как предлагалось выше, это малове-

роятно (за исключением обычно нескольких заданий, которые просто

отбрасываются).

Это объяснение может быть принято только тогда, когда мы убеж-

дены, что никакие другие причины не могут объяснить полученные

факты. В самом деле, единственный способ продемонстрировать это

- написать эффективные задания для последующих испытаний.

 

Задания нагружают (насыщают) несколько факторов

 

Одним из критических замечаний по процедуре анализа заданий

является то, что можно получить задания, нагружающие два корре-

 

200

 

пирующих фактора, для которых значение корреляции с общим по-

казателем все же будет высоким. Однако, если эти факторы не кор-

релируют, то значение корреляции с общим показателем может быть

только низким, и тест не может быть сконструирован.

Этот случай неудачного составления теста - по существу лишь

вариант первого случая: не существует переменной, положенной в

основу теста, - только в этом случае неудача нас постигает в резуль-

тате того, что существует несколько переменных, которые измеря-

ются нашими заданиями. Если это предположение исходит из приро-

ды самого теста, то должна быть принята следующая процедура.

Во-первых, должны быть вычислены коэффициенты корреляции

<р между заданиями теста. Эти корреляции затем должны быть под-

вергнуты факторному анализу. Это позволит выяснить, действитель-

но ли задания нагружают несколько факторов. Если да, это указыва-

ет на то, что у нас есть несколько тестов, составленных вместе. Когда

мы хотим разработать отдельные тесты для этих факторов, должны

быть изучены задания, нагружающие каждый из факторов, и должны

быть сформулированы другие, подобные им. Однако, при помощи

этой процедуры мы конструируем фактически факторизованные тес-

ты. Методология создания этих средств измерения описана в главе 9,

и здесь им не будет уделено внимания. Следует заметить, что если

задания вообще не нагружают ни один фактор, то мы приходим к

первому случаю, когда тест не измеряет вообще никакой переменной.

 

Недостаточное количество эффективных заданий

 

Nunnally (1978) упоминает один случай неудачного формирова-

ния теста, который легко устраним. Это происходит, когда существу-

ет ядро эффективных заданий с высокими значениями корреляции

заданий с общим показателем и, следовательно, взаимной корреля-

ции между заданиями, но количества этих заданий недостаточно,

чтобы сформировать надежный тест. Добавление других слабых за-

даний не улучшит надежность, поскольку они не коррелируют друг

с другом.

Причину такой неудачи можно быстро определить. Должно быть

несколько эффективных заданий (по критерию ГрЫл ), а для всех

остальных это значение будет низким. С целью устранения сложив-

шейся ситуации следует изучить содержание эффективных заданий

и должны быть сформулированы подобные им другие. Это, однако,

следует делать только тогда, когда видно, что составляющие ядро

эффективные задания охватывают все содержание теста. Если эф-

фективные задания сами очень похожи, то может случиться, что мы

 

201

 

опять конструируем тест для дутого, ложного специфического фак-

тора.

Этот случай идентичен первому случаю неудачного формирова-

ния теста - когда не существует переменная. Корреляционный ана-

лиз заданий может идентифицировать небольшой кластер заданий.

Однако, если это не проявилось в процедуре анализа заданий, таких

заданий будет мало.

 

В этой главе были указаны пошаговые процедуры для анализа

подготовленного множества заданий и отбора их для окончательного

теста. Было также показано, как результаты анализа заданий могут

помочь переформулированию заданий.

Следует подчеркнуть, что описанные методы гарантируют пол-

учение теста с удовлетворительной внутренней согласованностью и

дискриминативностью, который измеряет некоторую переменную.

Продемонстрировать, что это за переменная - задача исследований

валвдности.

 


Дата добавления: 2018-02-18; просмотров: 547; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!