ХАРАКТЕРИСТИКИ ЭФФЕКТИВНЫХ ПСИХОЛОГИЧЕСКИХ ТЕСТОВ



П. Клайн. Справочное руководство по конструированию тестов: Введение в психометрическое проектирование: Перевод с английского / Под ред. Л.Ф. Бурлачука. Киев: ПАН Лтд., 1994. 288 с.

 

 

Перевод книги одного из ведущих специалистов в области психодиагностики. Книга представляет собой идеальное учебное пособие для тех, кто занимается конструированием тестов (психологических, профессиональных, учебных и т.д.), и для тех, кто эти тесты применяет в практической работе.

Пособие квалифицированно раскрывает сложные вопросы внутреннего построения тестов.

 

ISBN 5-7101-0024-2

 

c <ПАН Лтд.>, 1994

c Перевод. Е.П.Савченко, 1994

 

Предисловие редактора русского перевода

 

Одной из важнейших и сложнейших задач психодиагностики является создание и совершенствование средств измерения индивидуально-психологических особенностей личности. Судьба психодиагностики как области той науки, которая до недавнего времени называлась советской психологией, трагична и поучительна. От массового использования тестов на этапе становления, через период запрета на их применение, который продлился без малого полвека, до второго рождения в конце 60-х годов - вот путь отечественной психодиагностики.

 

Однако, будучи даже официально признанной, психодиагностика продолжает находиться на периферии психологического знания. Известные достижения и определенный подъем психодиагностических исследований в 70 - 80-е годы связаны скорее с усилиями немногих  энтузиастов, нежели с содействием со стороны академической психологии, чаще всего занимавшей позицию невмешательства, если не игнорирования нужд этой науки. Именно этим в первую очередь можно объяснить низкий уровень психометрической культуры большинства наших психологов, не только широко заимствующих зарубежные тесты, но и стремящихся разработать собственные. Примеров тому несть числа. Взять хотя бы так называемую Санкт-Петербургскую школу психолотческого тестирования. «Тесты», разработанные в этой «школе» («Последний патрон Фании Каплан», «Тест на оценку нереализованного интеллектуального потенциала» и др.) не диагностируют ничего, кроме дурного вкуса разработчика, и, согласимся с их автором, «не имеют аналогов ни в нашей стране, ни за рубежом» (С.274)[1].

Перевод на русский язык книги Пола Клайна как раз и призван восполнить существенный пробел в той части отечественной психодиагностики, которая занимается конструированием и научно обоснованной адаптацией зарубежных психологических тестов. Автор настоящего издания - известный психолог, работающий на факультете психологии Эксетерского университета (Великобритания). Его монографии «Научный анализ личности и мотивации» (совместно с Р.Кэттеллом), «Теория и измерения личности», «Психология и фрейдовская теория», «Факт и вымысел в фрейдовской теории», другие книги и статьи всегда вызывают интерес специалистов многих стран мира.

Руководство П.Клайна вводит читателя в мир психологических измерений. Уже в самом начале книги автор пишет о том, что прогресс в психологии, как и в естественных науках, зависит от разработки эффективной системы измерений; точное измерение - обязательное условие научности. Зачем я здесь упоминаю об этом достаточно банальном суждении?

Дело в том, что мне, в отличие от автора книги, хотелось бы всячески выделить, подчеркнуть тот момент, что речь идет об измерениях во внефизической сфере, сфере гуманитарной науки. Вряд ли кому-то сегодня придет в голову мысль отказаться от измерения в психологии по причине грубости, неточности измерительных процедур. Прогресс в области психометрии, психодиагностики виден невооруженным взглядом. В то же время никогда не следует забывать о том, что гуманитарные науки накладывают на измерение как одну из основных процедур гораздо больше ограничений, чем естественные и технические. Формализация и количественные методы, математические модели в психологии никогда не смогут заменить разработку теоретических конструктов, фундаментальных принципов исследования.

Для П.Клайна характерно стремление (и не хочется его в этом упрекать!) прежде всего средствами математики, а тем самым точного измерения, объяснить, как сделать психологический тест надежным, дискриминативным и валидным. При этом порой забывается, что измерению подлежат фрагменты человеческого поведения, а не, скажем, физические явления. Это отчетливо просматривается в заключении автора о том, что «надежность оценки возрастает с увеличением размера теста» (с.Зб), а также анализе причин снижения надежности при высокой дискриминативности.

Для понимания теоретических позиций автора наиболее важна четвертая глава, посвященная конструированию т.н. «объективных тестов». Прежде всего о том, что автор понимает под таковыми.

Основными признаками объективного теста являются следующие :

1) цель скрыта от испытуемого;

2) полученные результаты могут быть оценены независимо от лица, выполнявшего обследование и интерпретацию. Такое понимание объективных тестов, идущее от Р.Кэттелла, - ни что иное, как стремление (уже понятное нам) максимально объективировать процесс психологического измерения, уподобить его измерению в естественных науках. А поскольку достигнуть этого невозможно, то и появляются сентенции типа:

«Хорошо известно, что «объективные» методы не обеспечивают объективности даже в точных науках». Результаты любых исследований обретают смысл исключительно в рамках концептуальных установок ученого;

«Лучше иметь валидный тест, результаты которого, вероятно, могут быть искажены испытуемым, чем невалидный, но противостоящий всем попыткам фальсификации» (с. II 6).

В разработке объективных тестов, как с очевидным сожалением констатирует П.Клайн, «все еще необходимо определенное чутье, интуиция» (с. 128). Психологи, со студенческой скамьи усвоившие то, что темперамент и личность совсем не одно и то же (и это справедливо!), сразу обратят внимание на постулируемое автором тождество тестов личности и темперамента. Кстати, ничего нового в этом нет. Достаточно вспомнить «Обзор темпераментов» Гилфорда- Циммермана (1956), измеряющий такие его (темперамента) особенности, как самообладание, властность, дружелюбие и др. Подобные пассажи зарубежных психологов, даже весьма именитых, - свидетельство слабости их методологических позиций, нежелания обращаться к вопросам теории, удовлетворенность эмпирическими данными, далеко не всегда позволяющими отделить друг от друга разноуровневые составляющие целостного поведения. Естественным следствием эмпиризма, пренебрежения разработкой исходных теоретических позиций о личности как объекте исследования являются те объективные тесты, в которых по диагностируемым физиологическим и психофизиологическим параметрам делаются выводы о психологических особенностях личности, хотя П.Клайн, вслед за Р.Кэттеллом (1967), и вынужден сказать о том, что «совсем не просто теоретизировать с какой-либо степенью ответственности о психологических аспектах физиологических функций» (с. 140).

Нельзя не упомянуть о позиции автора книги по отношению к проективным методикам диагностики личности. П.Клайн полагает, что, несмотря на огромное количество исследований в области проективных тестов, фактически нет каких-либо существенных открытий, обогащающих психологическую теорию и практику. Его замечания в адрес проективных методик страдают излишней академичностью и никак не позволяют объяснить, например, сохраняемого уже полвека лидирующего положения этих инструментов изучения личности в области клинической психологии. Понятно, что П.Клайна смущает прежде всего известная субъективность интерпретации результатов, получаемых с помощью этих методик. «.. .Необходимо только реализовать объективное оценивание показателей и отказаться от бессвязных интерпретаций, столь излюбленных многими исследователями, использующими проективные тесты» (с. 142). Исходя из этого, П.Клайн аргументирует не только возможность работы с ухе известными проективными тестами, но и целесообразность создания новых.

Но ему опять-таки приходится признать, что при т.н. объективной оценке утрачивается часть того богатства сведений о личности, которое содержится в протоколах обследования!

В главах, обращенных к имеющим в психометрии принципиальное значение вопросам расчета различных показателей (надежности, дискриминативности, оценке заданий и т.п.) читатели получают знания о том, что скрывается за фасадом внешне простых и безыскусных диагностических методик. Для одних читателей это будет расставание с иллюзией общедоступности конструирования тестов, для других - руководством к действию. Ныне, во времена повсеместного использования вычислительной техники, которая, конечно же, избавляет нас от рутинной, непродуктивной деятельности, хочется еще раз, следом за автором, напомнить о том, что всем разработчикам необходимо пройти через анализ теста вручную, поскольку «видение реального процесса обработки показателей…., постоянная перетасовка заданий теста дают глубокое проникновение в смысл того, что происходит. . . - интуицию, которая не может возникнуть из компьютерных распечаток» (с. 193).

И еще о компьютерах и компьютерном тестировании . П.Клайн, имеющий большой опыт разработки тестов, весьма скептичен по отношению к модному компьютерному тестированию. Он пишет о том, что «компьютеризированная версия стандартного теста напоминает, вероятно, прекрасно оформленное издание книги, но сафьяновый переплет не улучшит ее содержания» (с.258), и справедливо видит подлинную мощь этого направления психодиагностики в индивидуально-ориентированном тестировании.

Не только за рубежом, но в последнее время и у нас, пока, правда, весьма робко, обсуждается вопрос об этике психодиагностических исследований, основной заповедью которой, как и в медицине, является «не навреди!». Какое это может иметь отношение к вопросам конструирования тестов? П.Клайн утверждает, и надо всячески поддержать его в этом, что «нельзя выходить за границы той системы ценностей, которой привержены испытуемые» (с. 126)[2]. Хотел бы обратить также внимание читателей на то, что в книге очень часто сталкиваешься с психоаналитической терминологией, психоаналитически ориентированными исследованиями, которым совсем не чужд и сам ее автор. Не буду здесь вступать в давний спор о месте и вкладе психоанализа в изучении человеческого поведения. Бесспорно другое - неподготовленность многих психологов, воспитывавшихся в материалистических традициях, к пониманию того, о чем идет речь. Впрочем, для постижения принципов конструирования тестов это не имеет никакого значения, но, даст Бог, послужит стимулом к освоению идей психоанализа.

И последнее. Несколько слов об особенностях перевода книги. Редактор и переводчик старались ориентироваться на уже осуществленные издания переводов зарубежных книг по психодиагностике и математической статистике, сохраняя, насколько это возможно, начинающий складываться на русском языке терминологический аппарат. Однако, не всегда это оказывалось возможным. Так, несмотря на существующую в литературе по психологии традицию перевода «error of measurement» как «ошибка измерения», мы сочли необходимым употреблять термин «погрешность измерения».

Книга П.Клайна не относится к тем, которые легко читаются, тем, в которых все доступно, понятно. Многие ее страницы заставят к ним не раз возвратиться, особенно тех, кто делает первые шаги в психодиагностике и психометрии. В конечном счете все усилия, затраченные на работу с этой книгой, окупятся сторицею - повышением эффективности наших инструментов исследования личности. Руководства по конструированию тестов имеют много общего с кулинарной книгой. Рецепты одинаковы для всех, а вот блюда получаются разные. Поэтому не следует огорчаться возможным первым неудачам. Опыт практической деятельности, приобретаемые знания, интуиция - залог того, что разработанные вами тесты окажутся достойными их создателя.

 

Л.Ф. Бурлачук

Киев, июль 1993 г.

 

Предисловие к английскому изданию

 

Название этой книги - «СПРАВОЧНОЕ РУКОВОДСТВО ПО КОНСТРУИРОВАНИЮ ТЕСТОВ» - указывает на то, что ее автор преследовал сугубо практические цели. Она создавалась как методическое пособие, путеводитель для всех, кому необходимо разрабатывать психологические тесты.

Книга содержит вводную теоретическую главу с подробным изложением статистических методов, используемых при составлении описанных в ней психологических тестов. Это сделано для того, чтобы автор мог быть уверенным, что его читатели понимают суть математических методов, а не слепо поклоняются догмам. Такое понимание позволит читателям также, как надеется автор, модифицировать любую из методик в свете их практических нужд.

Эта книга - попытка не только помочь разработчику тестов выполнять психометрические требования и соблюдать технологии, необходимые для разработки адекватных тестов, но также и стимулировать осознанное измененение и формулировку им новых заданий.

А это уже настоящее искусство, потому что хотя в этой области и есть определенные приемы и правила, все же на долю разработчика остается достойная творчества часть, так как в конце концов качество теста ограничивается качеством его заданий. Будучи вооруженным данным руководством, читатель сможет сам конструировать и валидизировать психологические тесты.

Я также выделил описание вычислительных алгоритмов для многих психометрических методик, пытаясь устранить пугающую зависимость от компьютерных программ, развившуюся у многих психологов и социологов. Изучая докторские диссертации во многих университетах, я обнаружил, что соискатели используют сложные и экзотические статистические методики с минимальным их пониманием. Это не лучший путь развития психологии - путь, сопряженный с весьма объемными и утомительными разъяснениями того, что следует делать, а также с подробными инструкциями к компьютерным программам.

 

Пол Клайн

 

Факультет психологии

Университет г. Эксетера (Шотландия)

Апрель 1986 г.

 

Глоссарий

 

- анализа заданий процедура (item analysis) - процедура для оценки эффективности заданий в тесте; она может включать определение корреляции заданий с общим показателем по тесту, факторный анализ заданий, шкалирование заданий по Рашу или другие виды оценивания заданий по их характеристическим кривым.

- валидность (validity) - комплексная характеристика теста, включающая сведения об области исследуемых явлений и репрезентативности исследуемой по отношению к ней диагностической процедуры.

-дифференциальная (differential validity) -один из компонентов прогностической валидности, отражающий способностью методики дифференцировать испытуемых по отдельным областям проявления исследуемых свойств.

- инкрементная (incremental validity) - один из компонентов прогностической валидности, отражающий практическую ценность методики при проведении отбора.

- конкурентная (concurrent validity) - характеристика теста, отражающая его способность различать испытуемых на основании диагностического признака, являющегося объектом исследования в данной методике; измеряется корреляцией результатов данного теста с измерениями при помощи других тестов, предназначенных для измерения той же самой переменной.

- конструктная (construct validity) - один из основных типов валидности, отражающий степень репрезентации исследуемого психологического конструкта в результатах теста; чем больше результаты теста соответствуют теоретической гипотезе о природе измеряемой переменной, тем выше конструктная валидность теста.

- очевидная (face validity) - представление о тесте, сфере его применения, результативности и прогностической ценности, которое возникает у испытуемого или другого лица, не располагающего специальными сведениями о характере использования и целях методики. Чем более тест выглядит измеряющим то, для измерения чего он предназначен, тем выше его очевидная валидность.

- прогностическая (predictive validity) - информация о тесте, характеризующая степень точности и обоснованности суждения о диагностируемом психологическом качестве по его результату спустя определенное время после измерения; чем лучше тест может прогнозировать критерий, тем выше его прогностическая валидность.

- содержательная (content validity) - один из основных типов валидности, характеризующий степень репрезентативности содержания заданий теста по отношению к измеряемой области психических свойств.

- выборка (sample) - случайным образом формируемое из генеральной или выборочной совокупности множество: а) заданий; или б) испытуемых (стат.)

- гиперплоскость (hyperplane) - плоскость в многомерном факторном пространстве, образованная всеми теми переменными, которые имеют нулевые факторные нагрузки по фактору, ортогональному данной гиперплоскости (факторный анализ).

- дискриминативность (discriminatory power) - способность отдельных заданий теста и теста в целом дифференцировать обследуемых относительно «максимального» и «минимального» результата теста.

- дисперсионный анализ (variance analysis) - статистический метод изучения влияния отдельных переменных на изменчивость изучаемого признака (стат.).

- дисперсия (variance) - показатель изменчивости, разброса некоторого множества измерений вокруг арифметического среднего; среднее значение возведенных к квадрат отклонений от арифметического среднего, квадрат стандартного отклонения (стат.)

- дистракторы (distractors) - в заданиях тестов интеллекта, специальных способностей и достижений варианты ответов, близких к правильному; испытуемый должен выбрать единственный верный ответ, дистрактором не являющийся.

- «задание-ответ» кривые зависимости (item-characteristic curves) -характеристические кривые заданий, отражающие вероятность ответов на задания, предназначенные для измерения некоторых гипотетических свойств или латентных черт испытуемых.

- измерения стандартная погрешность (standard error of measurement) - статистическая величина, отражающая степень точности отдельных измерений; диапазон изменения показателей, в который попадает теоретический показатель, при данном выборочном показателе, с различной степенью вероятности (стат.)

- корреляционная матрица (correlation matrix) - набор значений коэффициента корреляции между переменными, представленный в виде матрицы (стат.).

- корреляция (correlation), корреляционный анализ - комплекс методов статистического исследования взаимозависимости между переменными, связанными корреляционными отношениями (стат.).

- бисериальная (biserial correlation) - метод корреляционного анализа отношения переменных, одна из которых измерена в дихотомической шкале наименований, а другая - в интервальной шкале отношений или порядковой шкале (то есть является континуальной) (стат.).

- корреляции коэффициент - показатель степени взаимозависимости двух переменных; изменяется в пределах от -1 до +1. Значение коэффициента корреляции 0 указывает на возможное отсутствие зависимости, значение +1 свидетельствует о согласованности переменных (стат.).

- дихотомический - показатель связи признаков (переменных), измеряемых по дихотомическим шкалам наименований.

- произведения моментов Пирсона (Pearson product-moment correlation) - коэффициент корреляции, используемый для континуальных переменных (стат.).

- ранговой корреляции Спирмена (Spearmens rank-order correlation) - коэффициент корреляции для переменных, измеренных в порядковых (ранговых) шкалах (стат.).

- точечно-бисериальной корреляции (point-biserial correlation) - коэффициент корреляции, применяемый в случае анализа отношения переменных, одна из которых измерена в континуальной шкале, адругая – в строго дихотомической шкале наименований (стат.).

- коэффициент р - коэффициент корреляции, используемый в случае, если обе переменные измерены в дихотомической шкале наименований (стат.).

- четырехпольный (tetrachoric) - коэффициент корреляции, используемый в случае, если обе переменные измерены в континуаьных шкалах.

- критериально-ключевых признаков методика (criterion-keying) - способ конструирования тестов (например, для шкал настроений и состояний), основанная на экспериментальном выделении критериальных групп (criterion groups) испытуемых; в тест отбираются те задания, которые обеспечивают разделение критериальной группы и контрольной по измеряемому признаку.

- надежности коэффициент (reliability coefficient) - средняя величина корреляции одного теста или задания со всеми тестами или заданиями из генеральной совокупности.

- Кронбаха а - оценка корреляции данного теста с тестом такой же длины из одной генеральной совокупности заданий.

- Кьюдера - Ричардсона формула (Kuder-Richardson, KR-20) - частный случай коэффициента а. для заданий дихотомического типа.

- надежность (reliability) - характеристика методики, отражающая точность психодиагностических измерений, а также устойчивость результатов теста к действию посторонних случайных факторов; согласованность теста внутренняя и по прошествии времени.

- параллельных форм (parallel-form reliability) - характеристика надежности психодиагностической методики с помощью взаимозаменяемых форм теста, предъявляемых одной и той же группе испытуемых.

- ретестовая (test-retest reliability) - характеристика надежности психодиагностической методики при повторном исследовании испытуемых с помощью одного и того же теста по прошествии времени.

- частей теста (split-half reliability) - характеристика надежности психодиагностической методики, получаемая путем анализа устойчивости результатов отдельных совокупностей тестовых задач или отдельных заданий теста.

- нормы (norms) - показатели для различных групп испытуемых, полученные при стандартизации теста.

- общность (communality) - доля дисперсии, общее изменение данной переменной, обусловленное факторами, общими для некоторой совокупности переменных (термин из дисперсионного и факторного анализа).

- опросники личностные (personality inventories) - психодиагностические методики, направленные на измерение различных особенностей личности, задания которых представлены в виде вопросов (или утверждений).

- ответ ключевой (keyed responce) - ответ на задание (вопрос или утверждение) в личностном опроснике, указывающий на наличие измеряемой особенности личности.

- оценка истинных показателей (estimate) - приближенные значения истинных (теоретических) показателей, получаемые на основе выборочных показателей и погрешностей измерения.

- перцепт-генетическая методика (percept-genetic method) - прием тестирования, в котором используется тахистоскопическое предъявление стимулов, основанный на концепции развития образов (восприятий).

- показатель (score) - количественная характеристика выраженности измеряемого психологического свойства, получаемая при помощи данного теста.

- выборочный (fallible score) - показатель, получаемый испытуемым, выполняющим задание, относящееся к той выборке, которая формируется из генеральной совокупности заданий (стат.).

- ипсативный (личностный) (ipsative scores) - показатель, допускающий сравнение выраженности тех или иных психологических особенностей относительно самого обследуемого (в отличие от нормативных, дающих внешние сравнения относительно нормативной выборки).

- истинный (true score) - гипотетический (теоретический) показатель, который получил бы испытуемый, если бы он выполнил все задания из генеральной совокупности заданий, относительно которой задания данного теста являются некоторой выборкой (стат.)

- IQ - стандартизованный показатель, имеющий распределение со средним 100 и стандартным отклонением 15.

- необработанный («сырой») (raw score) - первичный (не подвергнутый обработке) показатель, полученный испытуемым по данному тесту.

- нормализованный стандартный - стандартизованный показатель, приведенный к нормальному распределению.

- процентиль (percentile) - ранг показателя в виде процентного отношения в нормативной группе тех испытуемых, которые получили более низкий показатель.

- стандартизованный (standard score) - показатель, отражающий степень выраженности измеряемого психологического свойства, черты у испытуемого относительно некоторой нормативной группы (стат.).

- стенайны (stanines) - нормализованный стандартный показатель на одномерной шкале ранжирования от 1 до 9.

- стены (stens) - нормализованный стандартный показатель на одномерной шкале ранжирования от 1 до 10.

- Т-показатель (T-score) - стандартизованный показатель, имеющий распределение со средним 50 и стандартным отклонением

- Т-показатель нормализованный (T-score normalized) - стандартизованный показатель, имеющий нормальное распределение со средним 50 и стандартным отклонением 10.

- Z-показатель (Z-score) - стандартизованный показатель, имеющий распределение со средним 0 и стандартным отклонением.

- простая структура (simple structure) - положение набора факторов, полученное в результате их вращения, при котором лишь несколько факторов имеют высокие нагрузки, а у остальных нагрузки нулевые.

- распределение частотное (frequency distribution) - для каждого значения показателя количество лиц, получивших этот показатель по данному тесту (стат.).

- регрессия множественная (multiple regression) - статистический метод для вычисления корреляции между некоторым набором переменных и критериальной переменной. Каждая переменная получает оптимальный весовой коэффициент для максимизации этой корреляции - коэффициент ft (стат.).

- репрезентативность - свойство выборочной сопокупности представлять характеристики генеральной совокупности; означает, что с определенной погрешностью можно считать, что представленное в выборочной совокупности распределение изучаемых признаков соответствует их реальному распределению.

- совокупность выборочная, популяция (population) - репрезентативная часть генеральной совокупности, определенное множество: а) заданий для измерения данной черты, из которого формируются выборки заданий теста; или б) испытуемых, из которого формируются репрезентативные выборки испытуемых (стат.).

- совокупность генеральная (universe) - гипотетическое множество элементов, объединенных общей характеристикой: а) всех возможных заданий для выявления измеряемой черты или свойства; или б) всего контингента испытуемых (стат.).

- согласованность внутренняя (internal consistency) - характеристика теста, указывающая на степень однородности состава заданий с точки зрения измеряемого качества.

- стандартизация теста (test standardisation) - процедура получения показателей по тесту для репрезентативных групп испытуемых, чем достигается сопоставимость получаемых результатов у разных испытуемых.

- стандартное отклонение (standard deviation) - характеристика изменчивости; определяется как квадратный корень из дисперсии (стат.).

- степени свободы (degrees of freedom) -характеристика распределения, используемая при проверке статистических гипотез; показатель количества значений, которые могут произвольно изменяться (стат.).

- стимульно-инструктивная ситуация (stimulus-instruction situation) - термин, обобщающий особенности как материала теста, так и прилагаемой к нему инструкции.

- таблицы ожиданий (expectancy tables) - метод интерпретации показателей теста (отличный от норм) с целью прогнозирования критерия; в таблицах указывается вероятность того, что испытуемые, получившие некоторый показатель по тесту, достигнут критериального показателя; наиболее часто используется при тестировании результатов обучения.

- тест психологический (test) -стандартизированное, часто ограниченное во времени испытание, предназначенное для установления количественных (и качественных) индивидуально-психологических особенностей.

- аттитюдов (test of attitude) - группа опросников, предназначенных для измерения относительной ориентировки индивидуума в одномерном континууме (шкале) аттитюда.

- групповой (group test) - методика, пригодная для одновременного тестирования группы испытуемых.

- достижений (attainment test) - тест, направленный на оценку достигнутого уровня развития умений, навыков и знаний.

- индивидуально-ориентированный (tailored test) - тест, специально создаваемый или модифицируемый для определенного испытуемого.

- индивидуальный (individual test) - методика, предназначенная только для индивидуального тестирования, не пригодная для одновременного тестирования группы испытуемых.

- интеллекта (intelligence test) - совокупность методик, образованных в рамках объективного диагностического подхода, предназначенных для измерения уровня интеллектуального развития.

- интересов (test of interest) - группа опросников, предназначенных для измерения интересов.

- критериально-ориентированный (criterion-referenced test) - тип тестов, предназначенных для определения уровня индивидуальных достижений относительно некоторого критерия (знаний, умения, навыка), а не относительно групповых норм.

- личности (personality test) - собирательное наименование группы методик, направленных на измерение неинтеллектуальных проявлений личности. В данной книге то же, что и тесты темперамента.

- мотивов (motivation test) - группа методик, предназначенных для диагностики мотивационно-потребностной сферы личности, позволяющих определить, на что направлена активность индивидуума и как осуществляется регуляция динамики его поведения. В данной книге то же, что и тесты динамики (dynamics).

- настроений и состояний (mood and state test) - тесты временных, преходящих состояний, таких как эмоции, в отличие от более стабильных черт личности.

- объективный (objective test) - в данной книге: тест, результаты которого могут быть оценены объективно (то есть для вычисления показателей по которому и их интерпретации не привлекаются субъективные суждения) и назначение которого испытуемому практически невозможно угадать.

- параллельная форма (parallel form of test) - вариант теста, близкий его основной форме по критериям валидности, надежности и другим характеристикам и способный его заменить.

- проективный (projective test) - совокупность методик, образованных в рамках проективного диагностического подхода; характеризуются неопределенностью, неоднозначностью используемых стимулов, что допускает почти неограниченное разнообразие возможных ответов. Поэтому стимулы этих тестов рассматриваются как своего рода экран, на котором отвечающий «проецирует» характерные для него потребности, конфликты, способы защиты «Я».

- результативности (power test) - тест, не имеющий ограничений по времени. Задания подобраны так, что лишь небольшое количество испытуемых может выполнить все их правильно, как бы долго они над ними ни работали.

- скорости (speed (ed) test) - тип тестов, в которых основным показателем продуктивности работы испытуемых является время выполнения (объем) заданий теста.

- специальных способностей (test of ability) - группа тестов, предназначенных для измерения уровня развития отдельных аспектов интеллекта и психомоторных функций, преимущественно обеспечивающих эффективность в конкретных, достаточно узких областях деятельности.

- факторно-аналитический (factor analytic test) - тест, сконструированый при помощи факторного анализа и измеряющий определенный фактор (факторы).

- теста задания (test items) - отдельные задания методики, служащие в совокупности для моделирования исследуемой деятельности, актуализации изучаемых психологических качеств, анализа установок и отношений личности и пр.

- альтернативные (true-false item) - форма задания, которое содержит некоторое утверждение, которое испытуемый должен оценить как истинное или ложное (дать ответ «да» или «нет»).

- дихотомические (Yes-No items, dichotomous items) - вопросы личностных опросников с ответом типа «да-нет».

- на аналогии (analogies) - форма заданий тестов интеллекта, в которой испытуемый должен выявить отношение аналогии между парами элементов (слов, наименований, цифр, изображений и пр.)

- на восстановление соответствия (matching items) - форма заданий тестов интеллекта, специальных способностей и достижений, в которых испытуемому предлагается восстановить соответствие между элементами двух списков.

- на завершение последовательности (sequences) - форма заданий тестов интеллекта, в которых испытуемый должен завершить предъявляемую последовательность элементов (вербальных, числовых, графических и пр.).

- с вариантами выбора (multiple-choice items) - форма заданий тестов интеллекта, специальных способностей и достижений, в котором испытуемый должен выбрать правильный ответ из нескольких вариантов, один из которых правильный, а остальные (являющиеся дистракторами) - нет; используется также в личностных тестах как предложение выбрать вариант, наиболее приемлемый для испытуемого.

- с вынужденным выбором (forced-choice items) - форма заданий опросников, в которых испытуемые должны выбрать то утверждение (обычно из двух), которое наиболее соответствует их представлению о себе и (или) явлениях действительности.

- с ограничениями на ответы (limited-response items, restricted-response items) - форма заданий, в которых испытуемые должны давать ответы, возможности формулирования которых соотвествующим образом ограничены.

- со свободным (произвольным) ответом (free-response items) - форма заданий, в которых на ответы не накладываются никакие ограничения, однако при корректной формулировке заданий предполагается наличие только одного правильного ответа.

- с ответами типа «нравится-не нравится» (like-dislike items) - форма заданий опросников, в которых испытуемые должны указать, нравится им предложенное или нет.

- с рейтинговыми шкалами (items with rating scales) - форма заданий опросников, в которых испытуемым для оценки предъявляемых утверждений прилагаются рейтинговые шкалы.

- типа «встретил лишнее - убери» (odd-man-out) - форма заданий тестов интеллекта, в которой испытуемый должен выявить общую закономерность для списка элементов и устранить лишний для этой закономерности элемент.

- трихотомические (trichotomous items) -задания, предусматривающие три варианта ответов: «да - ? - нет», «да - затрудняюсь ответить - нет», «обычно – иногда - никогда», «согласен - не уверен- не согласен» и пр.

- теста область заданий (domain) - множество заданий, материал, подбираемый исследователем и являющийся исходным для формирования теста (стат.)

- теста область применения (domain) - характеристика методики, указывающая на особенности контингента испытуемых, для которых предназначен тест (стат.)

- теста однородность (test homogeneity) - характеристика теста, отражающая степень соответствия всех заданий измеряемой черте или свойству; определяется как средняя корреляция между заданиями теста.

- теста трудность заданий (difficulty) - характеристика заданий теста, отражающая статистический уровень их выполнения в данной выборке стандартизации.

- угадывание ответов (guessing) - проблема в конструировании тестов интеллекта, специальных способностей и достижений, состоящая в возможности случайного угадывания испытуемыми правильных ответов, искажающего их показатели по тесту.

- установки на ответ (response sets) - стереотипы ответов на задания теста, ведущие к нарушению валидности; наиболее распространенные - установка на согласие и установка на социально одобряемые ответы; наибольшее значение имеют для личностных тестов (опросников).

- на крайние ответы (response set of using the extreme response) - тенденция испытуемого выбирать крайние ответы шкалы.

- на неопределенные или средние ответы (response set of using the uncertain or middle cathegory) - склонность испытуемого прибегать к средней или неопределенной категории ответов как к безопасному компромиссу.

- на согласие (response set of acquiescence) - тенденция испытуемого соглашаться с утверждениями (вопросами) теста независимо от их содержания.

- на социально одобряемые ответы (response set of social desirability) - тенденция испытуемого отвечать на вопросы так, чтобы выглядеть «социально положительным».

фактор - измерение, конструкт или вектор, который может математически отражать ковариацию между переменными (факторный анализ).

- генеральный (general factor) - фактор, соответствующий всем элементам данного множества переменных, то есть имеющий нагрузки по всем переменным.

Применительно к тестам интеллекта обычно выделяют:

- фактор «g» (general factor) - фактор, определяющий положительные корреляции между любыми тестами интеллекта.

Из него выделены:

-фактор «gf» текучие способности (fluid abilities) - способность отыскивать связи и выявлять отношения, зависимости на материале, который, как предполагается, минимизирует индивидуальные различия в образовании и культурном уровне.

- фактор «gc» кристаллизованные способности (crystallized abilities) - результат обучения и опыта, изменяются в зависимости от культуры, к которой принадлежит человек, активности, интересов личности.

- групповой (group factor) - фактор, определяющий положительные корреляции ограниченных групп тестов, но не являющийся универсальным, подобно фактору «g» для тестов интеллекта; имеет нагрузки на группу переменных из общего множества переменных.

- зависимые (облические) (oblique factors) - коррелирующие факторы; при векторном представлении факторные оси стоят под острыми углами друг к другу.

- общий (common factor) - фактор, соответствующий по крайней мере двум элементам данного множества переменных.

-ортогональные (orthogonal factors) - не коррелирующие между собой факторы.

- специфический (specific factor) - фактор, соответствующий лишь одному элементу данного множества переменных.

- факторов вращение (factor rotation) - при векторном представлении факторов возможно вращение одного фактора относительно другого; при этом значения факторных нагрузок (представляющих собой проекции вращаемого вектора на оси координат, образуемые другими факторами) изменяются, но в целом они математически эквивалентны, так что существует бесконечное количество эквивалентных факторно-аналитических решений (стат.).

- факторов облическое (косоугольное) вращение (oblique rotation) - при таком вращении векторов или факторов, находящихся в косоугольном положении (то есть угол между ними менее 90 градусов), факторы коррелируют, а значение их корреляции равно косинусу угла между ними (стат.).

- факторов ортогональное вращение (orthogonal rotation) - при ортогональном вращении факторов сохраняются прямые углы между векторами, и значение их взаимной корреляции равно нулю (стат.).

- факторные нагрузки (factor loadings) - значения корреляции факторов с переменными; фактор может быть определен по его факторным нагрузкам (стат.).

- факторный анализ (factor analysis) - раздел многомерного статистического анализа, объединяющий математико-статистические методы снижения размерности изучаемого многомерного признака. В исследованиях Р. Кэттелла и его последователей факторный анализ выступает не только в качестве статистического метода, но и как инструмент познания личности.

- Холли методика (НоНеу) - методика вычисления показателей проективных тестов, заключающаяся в содержательном анализе протоколов тестирования и оценкой 0 или 1 отсутствия или наличия тех или иных особенностей.

- черта (trait) - измеряемая при помощи психодиагностической методики особенность испытуемого.

- скрытая черта (latent trait) - внутренняя, скрытая особенность исследуемого объекта или явления, выявляемая на основе ее внешних проявлений.

- шкала - форма фиксации совокупности признаков изучаемого объекта с упорядочением их в определенную числовую систему.

- Гутмена (Guttman scales) - тип шкал для тестов способностей, достижений, интеллекта и аттитюдов, в которых предполагается, что задания упорядочены по трудности, а их выполнение испытуемыми, описывается кривыми зависимости «задание-ответ».

- интервалов (interval scale) - континуальная шкала без фиксированной нулевой точки (точки отсчета), с равномерным разбиением измеряемого интервала делениями шкалы.

- Лайкерта (Likert scales) - тип шкал для тестов аттитюдов, состоящих из утверждений с 5- или 7-балльными шкалами, указывающими степень согласия испытуемого с этими утверждениями; предполагается также, что отдельные задания монотонно связаны с измеряемым аттитюдом.

- наименований (номинативная) (nominal scale) - простейшая классификация, устанавливающая соответствие признака тому или иному классу.

- лжи (lie scale) - шкала для тестов личности (опросников), состоящая из вопросов, касающихся незначительных проступков, которые совершаются большинством людей; используется для выявления лиц, склонных к социально одобряемым ответам.

- отношений (ratio scale) - континуальная шкала с равномерно нанесенными делениями и со значимой нулевой точкой.

- порядковая (ранговая) (ordinal scale) - элементы шкалы упорядочены (ранжированы), но в этой шкале не учитываются расстояния между ними.

- сбалансированная (balanced scale) - шкала для тестов личности (опросников), в которой примерно равное количество заданий имеют ключевые ответы «да» или «нет»; используется как один из способов минимизации влияния установки на согласие.

- Терстоуна (Thurstone scale)- тип шкалы для тестов аттитюдов, по которой ответы испытуемого оцениваются относительно 11-балльной шкалы с равномерно распределенными по ней заданиями (утверждениями относительно данного аттитюда), оцененными предварительно экспертами.

- шкалирование по Рашу (Rasch scaling) - метод шкалирования заданий, разработанный Рашем, в котором предполагается, что вероятность правильного ответа определяется двумя параметрами: степенью, в которой задание выявляет скрытую черту, и выраженностью у испытуемого этой черты. Эти параметры могут оцениваться независимо.

- элементарные когнитивные задачи (elementary cognitive tasks - ECTs) - экспериментальные задачи, рассматриваемые как индикаторы психических процессов, разработанные в рамках когнитивного подхода к изучению способностей, для метода прогнозирования эффективности (успешности) деятельности по факторам успешности выполнения этих задач.

- Q -анализ - факторно-аналитическая методика, в которой в качестве переменных представлены испытуемые, а не тесты или измеряемые свойства (стат.).

 

ГЛАВА 1.

ХАРАКТЕРИСТИКИ ЭФФЕКТИВНЫХ ПСИХОЛОГИЧЕСКИХ ТЕСТОВ

 

Психологический тест может быть охарактеризован как эффективный при условии, что он удовлетворяет определенным требованиям. Основные требования следующие:

1) использование шкалы интервалов;

2) надежность;

3) валидность;

4) дискриминативность;

5) наличие нормативных данных или возможность описания с высокой точностью моделью Раша и ей подобными, а в случае индивидуально-ориентированных тестов - наличие критериев, установленных экспертами.

В этом руководстве я намерен продемонстрировать, как эти требования могут быть учтены в тестах при их обосновании, а также в процессе конструирования. Однако прежде чем это будет сделано, необходимо обсудить и определить все те термины, в которых следует досконально разобраться, если вы хотите, чтобы тесты были не только правильно сконструированы, но и соответствующим образом использовались.

Всегда следует помнить о том, что все требования, предъявляемые к психологическим тестам, не случайны, а связаны с улучшением точности измерений. Точные измерения - это обязательное условие научности. Прогресс в естественных науках зависел от разработки эффективной системы измерений и, с моей точки зрения, психология не является исключением из этого правила. Короче говоря, каждое из требований, описываемых ниже, вносит свой вклад в эффективность психометрии.

 

Типы шкал

 

Существуют шкалы нескольких уровней, иерархически упорядоченных по сложности. Это следующие уровни, начиная с простейшего:

(1) Номинативные шкалы (шкалы наименований). Это простейшая классификация испытуемых: мужчина/женщина - классификация по номинативной шкале.

(2) Порядковые шкалы. Здесь субъекты ранжированы, например, по весу или росту. Такая шкала очевидно груба, поскольку не учитывает значения разностей между рангами.

(3) Шкалы интервалов. В них разности между значениями во всех точках данной шкалы равны. Эквивалентные интервальные шкалы могут быть линейно преобразованы друг в друга, что позволяет приводить результаты тестирования к общим шкалам и таким образом осуществлять сравнение показателей. Более того, многие статистические процедуры предполагают измерения по шкале интервалов.

(4) Шкалы отношений. Шкалы отношений помимо всего имеют значимую нулевую точку (в отличие от интервальной шкалы она не произвольна, а указывает на полное отсутствие измеряемого свойства). Наличие такой точки - проблема для большинства психологических переменных, хотя существуют методы конструирования тестов, позволяющие использовать эту возможность.

По рассмотрении перечисленных четырех шкал становится очевидным, что в идеале разработчик психологических тестов должен стремиться использовать шкалы отношений. В случае, когда это невозможно, то желательны шкалы интервалов, если предполагается, что результаты будут подвергаться статистическому анализу. Поскольку изучение валидности тестов практически неизбежно влечет за собой такой анализ (а также потому, что количественные показатели измерений в психологических тестах предоставляют им преимущества по сравнению с другими видами испытаний), вывод очевиден: ничего менее точного, чем шкалы интервалов, использовать нельзя.

Фактически же, как указывает Brown (1976), большинство психометрических тестов приближаются к интервальным шкалам, а обработка результатов тестов так, как если бы они основывались на шкалах интервалов, дает полезные результаты.

 

Надежность

 

В психометрии термин «надежность» имеет два значения. Тест называется надежным, если он является внутренне согласованным (self-consistent). Тест также называется надежным, если он дает одни и те же показатели для каждого испытуемого (при условии, что испытуемый не изменился) при повторном тестировании. Надежность при повторном тестировании по прошествии времени называется ретестовой надежностью (test-retest reliability).

 


Дата добавления: 2018-02-18; просмотров: 1297; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!