П л а н ы е х-р о s t-f а с t о
В заключение рассмотрим еще один специфический метод, который часто применяется в психологии. У него есть несколько наименований: эксперимент, на который ссылаются, эксперимент ех-post-facto и т.д. Он часто применяется в социологии, педагогике, а также в нейропсихологии и клинической психологии. В социологических исследованиях его часто использовали в 30—40-е годы. Тогда же социолог Ф.С.Чейз ввел название этого метода и разработал схемы анализа данных. В социологии и педагогике стратегия его применения состоит в следующем. Экспериментатор сам не воздействует на испытуемых. В качестве воздействия (позитивного значения независимой переменной) выступает некоторое реальное событие из их жизни. Отбирается группа "испытуемых", подвергшаяся воздействию, и группа, не испытавшая его. Отбор осуществляется на основании данных об особенностях "испытуемых" до воздействия; в качестве сведений могут выступать личные воспоминания и автобиографии, сведения из архивов, анкетные данные, медицинские карты и т.д. Затем проводится тестирование зависимой переменной у представителей "экспериментальной" и контрольной групп. Данные, полученные в результате тестирования групп, сопоставляются и делается вывод о влиянии "естественного" воздействия на дальнейшее поведение испытуемых. Тем самым план ex-post-facto имитирует схему эксперимента для двух групп с их уравниванием (лучше — рандомизацией) и тестированием после воздействия.
|
|
(R) Х О, (R) О,
Эквивалентность групп достигается либо методом рандомизации, либо попарного уравнивания, при котором сходные индивиды относятся кразным группам. Метод рандомизации дает более надежные результаты, но применим лишь тогда, когда выборка, из которой мы формируем контрольную и основную группы, достаточно велика.
Этот план реализуется во многих современных исследованиях. Типичным является исследование посттравматического стресса, который возникает у некоторых лиц, оказавшихся в ситуациях, выходящих за пределы обычного жизненного опыта, связанных с угрозой для здоровья человека и его жизни. Посттравматический стресс
164
встречается у многих (но не у всех) участников войны, жертв насилия, свидетелей и жертв природных и техногенных катастроф и т.д. Изучение причин возникновения посттравматического стресса проводится по схеме: выделяется выборка лиц, перенесших воздействие боевой ситуации, катастрофы и т.п., тестируется на предмет наличия посттравматического синдрома; результаты сопоставляются с результатами контрольной выборки. Наилучшей стратегией формирования основной и контрольной выборки является предварительный отбор " исп ытуем ых" для тестирован ия на основе ан кетн ых данных и рандомизация групп. Но в реальности может проводиться диагностика только тех лиц, перенесших воздействие травматического фактора, которые сами обращаются с просьбой пройти обследование к психологам либо врачам. Таким образом, существует риск, что выборка добровольцев будет сильно отличаться от всей популяции перенесших травматическое воздействие. В первую очередь эти отличия проявляются в повышенной частоте встречаемости синдрома посттравматического стресса. Эффект воздействия травматического фактора на популяцию будет преувеличен. И вместе с тем эксперимент ex-post-facto — единственно возможный способ проведения таких исследований (над этими проблемами работает лаборатория психологии посттравматических состояний Института психологии РАН, руководитель — Н.В.Тарабрина).
|
|
Метод ex-post-facto часто применяется в нейропсихологии: травмы головного мозга, поражения определенных структур предоставляют уникальную возможность для выявления локализации психических функций. Травмы коры больших полушарий во время войны (в первую очередь второй мировой) дали, как это ни кощунственно звучит, богатейший материал нейропсихологам и нейрофизиологам, в том числе — отечественным (работы Лурии и его школы).
|
|
5.3. Корреляционное исследование
Читателю следует обратиться к гл. 6. В ней подробно изложена теория психологических измерений. Детальная характеристика особенностей психологического измерения и тестирования необходима не только сама по себе, но и для того, чтобы можно было подойти к выяснению особенностей наиболее распространенной схемы современного психологического эмпирического исследования — корреляционного.
Теория корреляционного исследования, основанная на представлениях о мерах корреляционной связи, разработана К.Пирсоном и
165
подробно излагается в учебниках по математической статистике. Здесь рассматриваются лишь методические аспекты корреляционного психологического исследования.
Стратегия проведения корреляционного исследования сходна с квазиэкспериментом. Отличие от квазиэксперименia лишь в том, что управляемое воздействие на объект отсутствует. План корреляционного исследования несложен. Исследователь выдвигает гипотезу о наличии статистической связи между несколькими психическими свойствами индивида или между определенными внешними уровнями и психическими состояниями. При этом предположения о причинной зависимости не обсуждаются.
|
|
Корреляционным называется исследование, проводимое для подтверждения или опровержения гипотезы о статистической связи между несколькими (двумя и более) переменными. В психологии переменными могут выступать психические свойства, процессы, состояния и др.
"Корреляция" в прямом переводе означает "соотношение". Если изменение одной переменной сопровождается изменением другой, то можно говорить о корреляции этих переменных. Наличие корреляции двух переменных ничего не говорит о причинно-следственных зависимостях между ними, но дает возможность выдвинуть такую гипотезу. Отсутствие же корреляции позволяет отвергнуть гипотезу о причинно-следственной связи переменных. Различают несколько интерпретаций наличия корреляционной связи между двумя измерениями:
1. Прямая корреляционная связь. Уровень одной переменной непосредственно соответствует уровню другой. Примером является закон Хика: скорость переработки информации пропорциональна логарифму от числа альтернатив. Другой пример: корреляция высокой личностной пластичности и склонности к смене социальных установок.
2. Корреляция, обусловленная третьей переменной. Две переменные (а, с) связаны одна с другой через третью (в), не измеренную в ходе исследования. По правилу транзитивности, если есть R (а, Ь) и R (Ь, с), то R (а, с). Примером подобной корреляции является установленный психологами США факт связи уровня интеллекта с уровнем доходов. Если бы такое исследование проводилось в сегодняшней России, то результаты были бы иными. Очевидно, все дело в структуре общества. Скорость опознания изображения при быстром (тахистос коническом) предъявлении и словарный запас испытуемых также положительно коррелируют. Скрытой переменной, обусловливающей эту корреляцию, является общий интеллект.
166
3. Случайная корреляция, не обусловленная никакой переменной.
4. Корреляция, обусловленная неоднородностью выборки. Представим себе, что выборка, которую мы будем обследовать, состоит из двух однородных групп. Например, мы хотим выяснить, связана ли принадлежность к полу с уровнем экстраверсии. Считаем, что "измерение" пола трудностей не вызывает, экстраверсию же измеряем с помощью опросником Айзенка ETI-1. У нас две группы: мужчины-математики и женщины-журналистки. Не удивительно, если мы получим линейную зависимость между полом и уровнем экстраверсии — интроверсии: большинство мужчин будут интровертами, большинство женщин — экстравертами.
Корреляционные связи различаются по своему виду. Если повышение уровня одной переменной сопровождается повышением уровня другой, то речь идет о положительной корреляции. Чем выше личностная тревожность, тем больше риск заболеть язвой желудка. Возрастание громкости звука сопровождается ощущением повышения его тона. Если рост уровня одной переменной сопровождается снижением уровня другой, то мы имеем дело с отрицательной корреляцией. Поданным Зайонца, число детей в семье отрицательно коррелирует с уровнем их интеллекта. Чем боязливей особь, тем меньше у нее шансов занять доминирующее положение в группе.
Нулевой называется корреляция при отсутствии связи переменных.
В психологии практически нет примеров строго линейных связей (положительных или отрицательных). Большинство связей — нелинейные. Классический пример нелинейной зависимости — закон Йеркса—Додсона:. возрастание мотивации первоначально повышает эффективность научения, а затем наступает снижение продуктивности (эффект "перемотивации"). Другим примером является связь между уровнем мотивации достижений и выбором задач различной трудности. Лица, мотивированные надеждой на успех, предпочитают задания среднего диапазона трудности — частота выборов на шкале трудности описывается колоколообразной кривой.
Математическую теорию линейных корреляций разработал Пирсон. Ее основания и приложения излагаются в соответствующих учебниках и справочниках по математической статистике. Напомним, что коэффициент линейной корреляции Пирсона г варьируется от -1 до +1. Он вычисляется путем нормирования ковариации переменных на произведение их среднеквадратических отклонений.
167
Значимость коэффициента корреляции зависит от принятого уровня значимости а и от величины выборки. Чем больше модуль коэффициента корреляции, тем ближе связь переменных к линейной функциональной зависимости.
Планирование корреляционного исследования
План корреляционного исследования является разновидностью квазиэкспериментального плана при отсутствии воздействия независимой переменной на зависимые. В более строгом смысле: тестируемые группы должны быть в эквивалентных неизменных условиях. При корреляционном исследовании все измеряемые переменные — зависимые. Фактором, определяющим эту зависимость, может быть одна из переменных или скрытая, неизмеряемая переменная.
Корреляционное исследование разбивается на серию независимых друг от друга измерений в группе испытуемых Р. Различают простое и сравнительное корреляционные исследования. В первом случае группа испытуемых однородна. Во втором случае мы имеем несколько рандомизированных групп, различающихся по одному или нескольким определенным критериям. В общем виде план такого исследования описывается матрицей вида: Рх О (испытуемые х измерения). Результатом его является матрица корреляций. Обработку данных можно вести, сравнивая строки исходной матрицы или столбцы. Коррелируя между собой строки, мы сопоставляем друг с другом испытуемых; корреляции же интерпретируются как коэффициенты сходства — различия людей между собой. Разумеется, Р-корреляции можно вычислять лишь в том случае, если данные приведены к одной шкальной размерности, в частности, с помощью Z-
Коррелируя между собой столбцы, мы проверяем гипотезу о статистической связи измеряемых переменных. В этом случае их размерность не имеет никакого значения.
Такое исследование называется структурным, так как в итоге мы получаем матрицу корреляций измеренных переменных, которая
168
выявляет структуру связей между ними.
В исследовательской практике часто возникает задача выявить временные корреляции параметров или же обнаружить изменение структуры корреляций параметров во времени. Примером таких исследований являются лонгитюды.
План лонгитюдного исследования представляет собой серию отдельных замеров одной или нескольких переменных через определенные промежутки времени. Лонгитюдное исследование — это промежуточный вариант между квазиэкспериментом и корреляционным исследованием, так как время интерпретируется исследователем как независимая переменная, определяющая уровень зависимых (например, личностных черт).
Полный план корреляционного исследования представляет собой параллелепипед Рх Ox P, грани которого обозначаются как "испытуемые", "операции", "временные этапы".
Результаты исследования можно анализировать по-разному. Помимо вычисления P- и 0-корреляций возникает возможность сравнения матриц Рх О, полученных в разные периоды времени, путем подсчета двухмерной корреляции — связи двух переменных с третьей. То же самое касается и матриц Р х Т и Т х О.
Но чаще исследователи ограничиваются обработкой другого типа, проверяя гипотезы об изменении переменных во времени, анализируя матрицы РхТ по отдельным измерениям.
Рассмотрим основные типы корреляционного исследования. 1. Сравнение двух групп. Этот план лишь условно можно отнести к корреляционным исследованиям. Он применяется для установления сходства или различия двух естественных или рандомизированных групп по выраженности того или иного психологического свойства или состояния. Допустим, у вас есть желание выяснить, отличаются ли мужчины и женщины по уровню экстраверсии. Для этого вы должны создать две репрезентативные выборки, уравненные по прочим значимым для экстраверсии — интроверсии параметрам (по параметрам, влияющим на уровень экстраверсии — интроверсии), и провести измерение с помощью теста EPQ. Средние результаты у двух групп сравниваются с помощью t-критерия Стьюдента. При необходимости сравниваются дисперсии показателя экстраверсии по критерию F.
Простейшее сопоставление двух групп содержит в себе источники ряда артефактов, характерных для корреляционного исследования. Во-первых, возникает проблема рандомизации групп — они должны четко разделяться по выбранному критерию. Во-вторых, реальные измерения происходят не одновременно, а разновременно:
169
R' 0, -
R" - О,
В-третьих, хорошо, если тестирование внутри группы проводят одновременно. Если же отдельных испытуемых тестируют в разное время, то может сказаться влияние временного фактора на величину переменной.
Пол без особых усилий (в том числе без хирургического воздействия) поменять сегодня нельзя, но можно перейти из одной учебной группы в другую, а также из класса в класс.
Если исследователь задался целью сравнить две учебные группы по уровню успеваемости, он должен позаботиться о том, чтобы не произошло их "перемешивания" в ходе исследования.
Эффект неодновременности измерений в двух группах (в случае предположения о значимости этого фактора) можно было бы "убрать" введением двух контрольных групп, но ведь тестировать их тоже придется в другое время. Удобнее разделить первоначальные группы пополам и тестирование (по возможности) провести по следующему плану:
R- 0, -
R" - О,
R' 0, -
R" - О,
Обработка результатов для выявления эффекта последовательности осуществляется методом двухфакторного анализа 2х2. Сравнение естественных (нерандомизированных) групп ведется потому же плану.
2. Одномерное исследование одной группы в разных условиях. План этого исследования аналогичен предыдущему. Но по своей сути он близок к эксперименту, так как условия, в которых находится группа, различаются. В случае корреляционного исследования мы не управляем уровнем независимой переменной, а лишь констатируем изменение поведения индивида в новых условиях. Примером может служить изменение уровня тревожности детей при переходе из детского сада в 1 -и класс школы: группа одна и та же, а условия различные.
Главные артефакты этого плана — кумуляция эффектов последовательности и тестирования. Кроме того, искажающее влияние на результаты может оказывать временной фактор (эффект естественного развития).
170
Схема этого плана выглядит очень просто: АО, ВОд, где А и В — разные условия. Испытуемые могут отбираться из генеральной популяции случайным образом или представлять собой естественную группу.
Обработка данных сводится к оценка сходства между результатами тестирования в условиях А и В. Для контроля эффекта последовательности можно произвести контрбалансировку и перейти к корреляционному плану для двух групп:
А О, В 0^, В О, А О,
В этом случае мы можем рассматривать А и В как воздействия, а план — как квазиэксперимент.
3. Корреляционное исследование попарно эквивалентных групп. Этот план используется при исследовании близнецов методом внутрипар-ных корреляций. Дизиготные или монозиготные близнецы разбиваются на две группы: в каждой — один близнец из пары. У близнецов обеих групп измеряют интересующие исследователя психические параметры. Затем вычисляется корреляция между параметрами (0-корреляция) или близнецами (Р-корреляция). Существует множество более сложных вариантов планов психогенетических исследований близнецов.
4. Для проверки гипотезы о статистической связи нескольких переменных, характеризующих поведение, проводится структурное корреляционное исследование. Оно реализуется по следующей программе. Отбирается группа, которая представляет либо генеральную совокупность, либо интересующую нас популяцию. Отбираются тесты, проверенные на надежность и внутреннюю валидность. Затем групп а тестируется по определенной программе:
R А(0,) В(0,) С(0,) D(0,) ... N(0„),
где
А, В, С ... N — тесты, Т> — операция тестирования.
Данные исследования представлены в форме матрицы: тх п, где т — количество испытуемых, n — тесты. Матрица "сырых" данных обрабатывается, подсчитываются коэффициенты линейной корреляции. Получается матрица вида тх n, где n — число тестов. В клеточках матрицы — коэффициенты корреляции, по ее диагонали — единицы (корреляция теста с самим собой). Матрица симметрична
171
относительно этой диагонали. Корреляции оцениваются на статистические различия следующим образом: сначала г переводится в Z-оценки, затем для сравнения г применяется t-критерий Стьюдента. Значимость корреляции оценивается при ее сопоставлении с табличным значением. При сравнении^,, и r^ ^ принимается гипотеза о значимом отличии корреляции от случайной при заданном значении точности ( а = 0,05 или а = 0,001). В некоторых случаях возникает необходимость вычисления множественных корреляций, частных корреляций, корреляционных отношений или редукции размерности — уменьшения числа параметров.
Для уменьшения числа измеренных параметров используются различные методы латентного анализа. Применению их в психологическом исследовании посвящено множество публикаций. Главной причиной артефактов, возникающих при проведении многомерного психологического тестирования, является реальное физическое время. При анализе данных корреляционного исследования мы отвлекаемся от неодновременности проводимых измерений. Кроме того, считается, что результат последующего измерения не зависит от предыдущего, т.е. не существует эффекта переноса.
Перечислим основные артефакты, которые возникают в ходе применения этого плана:
1. Эффект последовательности — предшествующее выполнение одного теста может повлиять на результат выполнения другого (симметричный или асимметричный перенос).
2. Эффект научения — при выполнении серии различных тестовых испытаний у участника эксперимента может повышаться компетентность в тестировании.
3. Эффекты фоновых воздействий и "естественного" развития приводят к неконтролируемой динамике состояния испытуемого в ходе исследования.
4. Взаимодействие процедуры тестирования и состава группы проявляется при неоднородной группе: интроверты хуже сдают экзамены, чем экстраверты, "тревожные" хуже справляются со скоростными тестами интеллекта.
Для контроля эффектов последовательности и переноса следует пользоваться тем же приемом, что и при планировании экспериментов, а именно — контрбалансировкой. Только вместо воздействий меняется порядок проведения тестов.
Для трех тестов полный план корреляционного исследования с контрбалансировкой выглядит следующим образом:
1-я группа: А В С
2-я группа: CAB
172
3-я группа: В С А
где А, В, С — различные тесты. Однако я не знаю ни одного случая, когда бы в отечественных корреляционных исследованиях контролировались эффекты тестирования и переноса.
Приведу один пример. Нам необходимо было выявить, как влияет вид задания на успешность выполнения сменяющих одна другую задач. Мы предположили, что для испытуемых не безразлично, в какой последовательности ему даются тесты. Были выбраны задания на креативность (из теста Торренса) и на общий интеллект (из теста Айзенка). Задачи давались испытуемым в случайном порядке. Оказалось, что предшествующее выполнение задания на креативность снижает скорость и точность решения задачи на интеллект. Обратного эффекта не наблюдалось. Не вдаваясь в объяснения этого явления (это сложная проблема) заметим, что здесь мы столкнулись с классическим эффектом асимметричного переноса.
5. Структурное корреляционное исследование. От предшествующих вариантов эта схема отличается тем, что исследователь выявляет не отсутствие или наличие значимых корреляций, а различие в уровне значимых корреляционных зависимостей между одними и теми же показателями, измеренными у представителей различных групп.
Поясним этот случай примером. Допустим, нам необходимо проверить гипотезу, влияет ли пол родителя и ребенка на сходство их личностных черт, например уровня нейротизма по Айзенку. Для этого мы должны провести исследование реальных групп — семей. Затем вычисляются коэффициенты корреляции уровней тревожности родителей и детей. Получаются четыре основных коэффициента корреляции: 1) мать — дочь; 2) мать — сын; 3) отец — дочь; 4) отец — сын, и два дополнительных: 5) сын —дочь; 6) мать—отец. Если нас интересует лишь сравнение сходства — различия первой группы корреляций, а не исследование ассортативности, то мы строим 4-кле-точную таблицу 2х2:
Дети | Роди | тел и |
Мать | Отец | |
1 Дочь | г!. | '-12 |
2 Сын | '•21 | '22 |
Корреляции подвергаются Z-преобразованию и сравниваются not-критерию Стьюдента.
173
Здесь приведен простейший пример структурного корреляционного исследования. В исследовательской практике встречаются более сложные версии структурных корреляционных исследований. Чаще всего они проводятся в психологии индивидуальности (Б.Г.Ананьев и его школа), психологии труда и обучения (В.Д.Шадриков), психофизиологии индивидуальных различий (Б.М.Теплов, В.Д.Не-былицын, В.М.Русалов и др.), психосемантике (В.Ф.Петренко, А.Г.Шмелев и др.).
6. Лонгитюдное корреляционное исследование. Лонгитюдное исследование — вариант квазиэкспериментальных исследовательских планов. Воздействующей переменной психолог, проводящий лонгитюд-ное исследование, считает время. Оно является аналогом плана тестирования одной группы в разных условиях. Только условия считаются константными. Результатом любого временного исследования (в том числе и лонгитюдного) является построение временного трен-да измеряемых переменных, которые могут быть аналитически описаны теми или иными функциональными зависимостями.
Лонгитюдное корреляционное исследование строится по плану временных серий с тестированием группы через заданные промежутки времени. Помимо эффектов обучения, последовательности и т.д. в лонгитюдном исследовании следует учитывать эффект выбывания: не всех первоначально принимавших участие в эксперименте удается обследовать через какое-то определенное время. Возможно, взаимодействие эффектов выбывания и тестирования (отказ от участия в последующем обследовании) и т.д.
Структурное лонгитюдное исследование отличается от простого лонгитюдатем, что нас интересует не столько изменение центральной тенденции или разброса какой-либо переменной, сколько изменение связей между переменными. Такого рода исследования широко распространены в психогенетике.
Обработка и интерпретация данных корреляционного исследования. Данные структурного корреляционного исследования представляют собой одну или несколько матриц "испытуемые" х "тесты". Первичная обработка заключается в подсчете коэффициентов статистической связи между двумя и более переменными. Выбор меры связи определяется шкалой, с помощью которой произведены измерения.
1. Если измерения произведены по дихотомической шкале, то для подсчета тесноты связи признаков применяется коэффициенте?. Дихотомическую шкалу часто путают со шкалой наименований (даже в пособиях по статистике; см., например, Дж. Гласе и Дж. Стенли "Статистические методы в педагогике и психологии", 1976). Дихотомическая шкала — вырожденный вариант шкалы интервалов; для нее
17.4
применимы все статистические методы шкалы интервалов. Данные для вычисления коэффициента^ представлены втаблице сопряженности:
2. Данные представлены в порядковой шкале. Мерой связи, которая соответствует шкале порядка, является коэффициент Кэндел-ла. Он основан на подсчете несовпадений в порядке следования ранжировок Х и Y. Есть ряд испытуемых: сначала мы выстраиваем этот ряд в порядке убывания массы тела, а затем — в порядке убывания роста. Для каждой пары подсчитывается число совпадений и инверсий: совпадение, если их порядок по Х и Y одинков; инверсия, если порядок различен. Разница числа "совпадений" и числа "инверсий", деленная на п (п-1) / 2, дает коэффициентт. Алгоритм подсчета при-' веден в пособиях по статистике (см. Дж.Гласс и Дж.Стенли) и в любом статпакетедля персональных компьютеров.
Часто для обработки данных, полученных с помощью шкалы порядка, используют коэффициент ранговой корреляции Спирмена, который является модификацией коэффициента Пирсона для нату-' рального ряда чисел (рангов). Никакого отношения к порядковой шкале он не имеет. Но его рекомендуют применять в том случае, если одно измерение произведено по шкале порядков, а другое — по шкале интервалов.
3. Данные получены по шкале интервалов, или отношений. В этом случае применяется стандартный коэффициент корреляции Пирсо-на"или коэффициент ранговой корреляции Спирмена. В том случае, если одна переменная является дихотомической, а другая — интер-' вальной, используется так называемый бисериальный коэффициент корреляции.
Наконец, если исследователь полагает, что связи между переменными нелинейны, вычисляется корреляционное отношение, харак-
175 \
теризующее величину нелинейной статистической зависимости двух переменных.
Корреляционное исследование завершается выводом о сгатисти-ческой значимости установленных (или неустановленных) зависимостей между переменными. Однако исследователи не ограничиваются такой констатацией. Одна из главных задач, которые возникают перед психологами, — выяснить, не обусловлены ли связи между отдельными параметрами (психологическими свойствами) скрытыми факторами? Для этой цели применяется аппарат редукции числа переменных: методы многомерного анализа данных, которые изучаются психологами в курсе "Математические методы в психологии".
5.4. Некоторые перспективы развития планирования исследований
Все сказанное в этой главе относится к общепсихологическому исследованию. Существуют, по крайней мере, три области планирования исследования, которые не рассматриваются в литературе, посвященной методам психологической науки.
Первая область — многомерный эксперимент. Планы многомерного исследования, в частности эксперимента, являются обобщением традиционных схем для случая п-зависимых переменных. В обычном эксперименте мы исследуем влияние одной независимой переменной на одну зависимую. Многоуровневый факторный эксперимент проводится для изучения влияния 1,2,..., m независимых переменных также на одну зависимую переменную. В многомерном эксперименте рассматривается схема: m х п, где m — число независимых переменных, n — число зависимых переменных. Уже применение плана для двух независимых и двух зависимых переменных требует выявления связей между каждой парой "независимая — зависимая переменная", т.е. построения 4 таблиц средних результатов 2х2 (если сравниваются средние). Кроме того, требуется выявить влияние уровня каждой независимой переменной, а также их взаимодействия на корреляционную связь между двумя зависимыми переменными.
Более сложные планы многомерного психологического эксперимента очень трудоемки и требуют автоматизированного планирования и проведения исследования, а также особых компьютерных программ обработки результатов. По крайней мере, планирование
176
многомерных экспериментов предоставляет исследователям широкие возможности для творчества.
Вторая область — эксперимент в дифференциальной психологии, или индивидуально-психологический эксперимент. Его цель — выявление индивидуальных различи и поведения в однородных ситуациях. Даже в обычном многомерном исследовании основной гипотезой являются не безусловные суждения "Если А, то В", а условное суждение "Если А, то В — при условии С,, В — при условии Сд... и т.д." . В качестве условия выступают дополнительные переменные — индивидуально-психологические различия.
В дифференциально-психологическом эксперименте дополнительная переменная становится основной: мы исследуем личность какдетерминанту поведения. Преимущественной статистикой в этом исследовании считается не мера центральной тенденции (среднее, медиана, мода), а показатели вариации значений зависимой переменной. Независимая переменная (задания испытуемому, экспериментальное воздействие) переходит в дополнительную. Варьирование независимой переменной превращается в процедуру подбора методом, сочетающим стратификацию и рандомизацию. Например, при разработке тестов группы отбираются по полу и возрасту, по другим же показателям они уравниваются.
Планирование дифференциально-психологического исследования — еще одна важнейшая и недостаточно разработанная область экспериментальной психологии.
Третья область — кросскультурные исследования. Любое кросс-культурное исследование проводится для сопоставления поведения индивидов, выросших в разных социокультурных условиях. Факторы естественного развития и фона ("истории"), которые в обычном общепсихологичееком исследовании выступают как источники артефактов, в кросскультурном являются аналогами независимой переменной.
По сути своей кросскультурное исследование — вариант эксперимента ex-post-facto (эксперимента, на который ссылаются), все требования к которому, а также ограничения при интерпретации результатов распространяются в равной мере и на кросскультурное наследование. Интерес к сравнительному изучению закономерностей психического развития представителей различных культур очень велик, поэтому планирование кросскультурных исследований — это одна из наиболее интенсивно развивающихся областей экспериментальной психологии.
177
Литература
КэмпбеллД. Модели эксперимента в социальной психологии и
прикладных исследованиях. М.: Прогресс, 1980. Хикс Ч. Основные принципы планирования эксперимента. М.,
1967.
Налимов В. В. Теория эксперимента. М., 1971. Адлер Ю.П. Планирование эксперимента. М., 1978.
Вопросы
1. Какие источники артефактов позволяет контролировать план Соломона?
2. Чем квазиэксперимент отличается от эксперимента?
3. В чем состоит преимущество планирования по методу "латинского квадрата", по сравнению с использованием полного факторного плана?
4. В каких случаях прибегают к схемам уравнивания?
5. Каковы особенности многомерного эксперимента?
ГЛАВА 6 ПСИХОЛОГИЧЕСКОЕ ИЗМЕРЕНИЕ
Содержание. Основания теории измерений, классическая теория психологических измерений. Типы шкал и виды допустимых преобразований. Виды шкальных преобразований. Психологическое тестирование, обобщенная модель теста. Основные виды психологических измерений, их классификация. Классическая статистическая теория теста. Измерительные качества теста и их оценка. Стохастическая теория тестов (теория выбора ответа) и ее модификации: модели Лазарсфельда, Раша, Бирнбаума. Оценка трудности заданий и градуировка теста.
Основные понятия. Измерение, шкалы, числовая система с отношениями, эмпирическая система с отношениями, отображение, порядок, номинация, метрика, свойство, шкалограмма, тест, валид-ность, надежность, гомогенность, прогностичность, тестовые нормы, латентно-структурный анализ, латентная переменная, логит, трудность задания, дискриминантность задания.
6.1. Элементы теории психологических измерений
Измерение может быть самостоятельным исследовательским методом, но может выступать как компонент целостной процедуры эксперимента.
Как самостоятельный метод, он служит для выявления индивидуальных различий поведения субъекта и отражения им окружающего мира, а также для исследования адекватности отражения (традиционная задача психофизики) и структуры индивидуального опыта.
Измерение включается в контекст эксперимента как метод регистрации состояния объекта исследования и соответственно изменения этого состояния в ответ на экспериментальное воздействие. /^
Исследования, проводимые по плану временных проб, зачастую сводятся лишь к измерениям особенностей поведения испытуемых
179
через различные промежутки времени. Время выступает в этом случае как единственная переменная, воздействующая на объект.
На основе теории измерения строятся психологические тесты. Тест — сокращенная по времени и упрощенная процедура психологического измерения, применяемая для решения практических (иногда — исследовательских) задач.
В чем же заключается суть психологического измерения?
В психологии различают три основные процедуры психологического измерения. Основанием для различения является объект измерения. Во-первых, психолог может измерять особенности поведения людей для того, чтобы определить, чем один человек отличается от другого с точки зрения выраженности тех или иных свойств, наличия того или иного психического состояния или для отнесения его к определенному типу личности. Психолог, измеряя особенности поведения, определяет сходства или различия людей. Психологическое измерение становится измерением испытуемых.
Во-вторых, исследователь может использовать измерение какза-дачу испытуемого, в ходе выполнения которой он измеряет (классифицирует, ранжирует, оценивает и т.п.) внешние объекты: других людей, стимулы или предметы внешнего мира, собственные состояния. Часто эта процедура оказывается измерением стимулов. Понятие "стимул" используется в широком смысле, а не вузкопсихофи-зическом или поведенческом. Под стимулом понимается любой шкалируемый объект.
В-третьих, существует процедура так называемого совместного измерения (или совместного шкалирования) стимулов и людей. При этом предполагается, что "стимулы" и "испытуемые" могут быть расположены на одной оси. Поведение испытуемого рассматривается как проявление взаимодействия личности и ситуации. Подобная процедура применяется при тестировании знаний и задач по Кумбсу, Гуттману или Рашу.
Внешне процедура психологического измерения ничем не отличается от процедуры психологического эксперимента. Более того, в психологической исследовательской практике "измерение" и "эксперимент" часто используются как синонимы. Однако при проведении психологического эксперимента нас интересуют причинные связи между переменными, а результатом психологического измерения является всего лишь отнесение испытуемого либо оцениваемого им объекта к тому или иному классу, точке шкалы или пространству признаков.
В строгом смысле слова психологическим измерением можно назвать лишь измерение поведения испытуемых, т.е. измерение в
180
первом значении этого понятия.
Психологическое измерение стимулов является задачей, которую выполняет не экспериментатор, а испытуемый в ходе обычного психологического (точнее — психофизического) эксперимента. В этом случае измерение используется только как методический прием наряду с другими методами психологического исследования; испытуемый же "играет роль" измерительного прибора. Поскольку результаты такого рода "измерений" интерпретируются на основе той же модели измерений, а обрабатываются с применением тех же математических процедур, что и результаты измерения поведения испытуемых, в психологии принято употреблять понятие "психологическое измерение" в двух различных смыслах.
Процедура психологического измерения состоит из ряда этапов, аналогичных этапам экспериментального исследования.
Основой психологических измерений является математическая теория измерений — раздел психологии, интенсивно развивающийся параллельно и в тесном взаимодействии с развитием процедур психологического измерения. Сегодня это — крупнейший раздел математической психологии.
С математической точки зрения измерением называется операция установления взаимно однозначного соответствия множества объектов и символов (как частный случай — чисел). Символы (числа) приписываются вещам по определенным правилам.
Правила, на основании которых числа приписываются объектам, определяют шкалу измерения.
Измерительная шкала — основное понятие, введенное в психологию в 1950 г. С.С.Стивенсом; его трактовка шкалы и сегодня используется в научной литературе.
Итак, приписывание чисел объектам создает шкалу. Создание шкалы возможно, поскольку существует изоморфизм формальных систем и систем действий, производимых над реальными объектами.
Числовая система является множеством элементов с реализованными на нем отношениями и служит моделью для множества измеряем ых объектов.
"Различают несколько типов таких систем и соответственно несколько типов шкал. Операции, а именно — способы измерения объектов, задают тип шкалы. Шкала в свою очередь характеризуете^ видом преобразований, которые могут быть отнесены к результатам измерения. Если не соблюдать это правило, то структура шкалы нарушится, а данные измерения нельзя будет осмысленно интерпретировать.
181
Тип шкалы однозначно определяет совокупность статистических методов, которые могут быть применены для обработки данных измерения.
Шкала (лат. scala — лестница) в буквальном значении есть измерительный инструмент.
П.Суппес и Дж. Зиппес дали классическое определение шкалы:
"ПустьА—эмпирическая система с отношениями (ЭСО), R— полная числовая система с отношениями (ЧСО), f— функция, которая гомоморфно отображает А в подсистему R (если в области нет двух разных объектов с одинаковой мерой, что является отображением изоморфизма). Назовем шкалой упорядоченную тройку <А; R; f>".
Обычно в качестве числовой системы R выбирается системадей-ствительных чисел или ее подсистема. Множество А — это совокупность измеряемых объектов с системой отношений, определенной на этом множестве. Отображение f— правило приписывания каждому объекту определенного числа.
В настоящее время определение Суппеса и Зиппеса уточнено. Во-первых, в определение шкалы вводится G — группа допустимых преобразований. Во-вторых, множество А понимается не только как числовая система, но и каклюбая формальная знаковая система, которая может быть поставлена в отношение гомоморфизма с эмпирической системой. Таким образом, шкала — это четверка <А; R; f;
G>. Согласно современным представлениям, внутренней характеристикой шкалы выступает именно группа G, а f является лишь привязкой шкалы к конкретной ситуации измерения.
В настоящее время под измерением понимается конструирование любой функции, которая изоморфно отображает эмпирическую структуру в символическую структуру. Как уже отмечено выше, совсем не обязательно такой структурой должна быть числовая. Это может быть любая структура, с помощью которой можно измерить характеристики объектов, заменив их другими, более удобными в обращении (в том числе — числами).
Подробнее математические основания теории психологических измерений изложены в монографии А.Д.Логвиненко "Измерения в психологии: математические основы" (1993).
Существуют следующие основные типы шкал: наименований, порядка, интервалов, отношений. Ряд специалистов выделяют также абсолютную шкалу и шкалу разностей.
Рассмотрим особенности каждого типа шкал.
Шкала наименований Шкала наименований получается путем присвоения "имен" объ-
182
ектам. При этом нужно разделить множество объектов на непересекающиеся подмножества.
Иными словами, объекты сравниваются друг с другом и определяется их эквивалентность — неэквивалентность. В результате процедуры образуется совокупность классов эквивалентности. Объекты, принадлежащие одному классу, эквивалентны друг другу и отличны от объектов, относящихся к другим классам. Эквивалентным объектам присваиваются одинаковые имена.
Операция сравнения является первичной для построения любой шкалы. Для построения такой шкалы нужно, чтобы объект был равен или подобен сам себе (х=хдля всех значений х), т.е. на множестве объектов должно быть реализовано отношение рефлексивности. Для психологических объектов, например испытуемых или психических образов, это отношение реализуемо, если абстрагироваться от времени. Но поскольку операции попарного (в частности) сравнения множества всех объектов эмпирически реализуются неодновременно, то в ходе эмпирического измерения даже это простейшее условие не выполняется.
Следует запомнить: любая шкала есть идеализация, модель реальности, даже такая простейшая, как шкала наименований.
На объектах должно быть реализовано отношение симметрии (R (X=Y) -> R (Y=X)) и транзитивности R (X=Y, Y=Z) -> R (X=Z). Но на множестве результатов психологических экспериментов эти условия могут нарушаться.
Кроме того, многократное повторение эксперимента (накопление статистики) приводит к "перемешиванию" состава классов: в лучшем случае мы можем получить оценку, указывающую на вероятность принадлежности объекта к классу.
Таким образом, нет оснований говорить о шкале наименований (номинативной шкале или шкале строгой классификации) как простейшей шкале, начальном уровне измерения в психологии.
Существуют более "примитивные" (с эмпирической, но не с математической точки зрения) виды шкал: шкалы, основанные на отношениях толерантности; шкалы "размытой" классификации и т.п.
О шкале наименований можно говорить в том случае, когда эмпирические объекты просто "метятся" числом. Примером являются номера на майках футболистов: цифру " 1" по традиции получает вратарь, и это указывает на то, что по своей функции он отличен от всех остальных ифоков; но его функция на футбольном поле эквивалентна функции других вратарей, если не учитывать качество игры.
В принципе вместо чисел при использовании шкалы наименований необходимо применять другие символы, ибо числовая шкала
183
(натуральный ряд чисел) характеризуется разными системами операций.
Итак, если объекты в каком-то отношении эквивалентны, то мы имеем право отнести их к одному классу. Главное, как говорил Стивене, не приписывать один и тот же символ разным классам или разные символы одному и тому же классу.
Для этой шкалы допусти мол юбое взаимно однозначное преобразование.
Несмотря на тенденцию "завышать" мощность шкалы, психологи очень часто применяют шкалу наименований в исследованиях. "Объективные" измерительные процедуры при диагностике личности приводят ктипологизации: отнесению конкретной личности к тому или иному типу. Примером такой типологии являются классические темпераменты: холерик, сангвиник, меланхолик и флегматик.
В "субъективной" психологии измерения используются также классификации. Примеры: сортировка объектов по Гарднеру, метод константных стимулов в психофизике и т.д.
Исследователь, пользующийся шкалой наименований, может применять следующие инвариантные статистики: относительные частоты, моду, корреляции случайных событий, критерий^2.
Шкала порядка
Порядковая шкала образуется, если на множестве реализовано одно бинарное отношение — порядок (отношения "не больше" и "меньше"). Построение шкалы порядка — процедура более сложная, чем создание шкалы наименований.
На шкале порядка объект может находиться "между" двумя другими, причем если а "больше" b, b "больше" с, то а "больше" с (правило транзитивности отношений).
Классы эквивалентности, выделенные при помощи шкалы наименований, могут быть упорядочены по некоторому основанию. Различают шкалу строгого порядка (строгая упорядоченность) и шкалу слабого порядка (слабая упорядоченность). В первом случае на элементах множества реализуются отношения "не больше" и "меньше", а во втором — "не больше или равно" и "меньше или равно".
Шкала порядка сохраняет свои свойства при изотонических преобразованиях. Все функции, которые не имеют максимума (монотонные), отвечают этой группе преобразований.
Значения величин можно заменять квадратами, логарифмами, нормализовать и т.д. При таких преобразованиях значений величин, определенных по шкале порядка, место объектов на шкале не изменяется, т.е. не происходит инверсий.
184
Еще Стивене высказывал точку зрения, что результаты большинства психологических измерений в лучшем случае соответствуют лишь шкалам порядка.
Шкалы порядка широко используются в психологии познавательных процессов, экспериментальной психосемантике, социальной психологии: ранжирование, оценивание, в том числе педагогическое, дают порядковые шкалы. Классическим примером использования порядковых шкал является тестирование личностных черт, а также способностей. Большинство же специалистов в области тестирования интеллекта полагают, что процедура измерения этого свойства позволяет использовать интервальную шкалу и даже шкалу отношений.
Как бы то ни было, эта шкала позволяет ввести линейную упорядоченность объектов на некоторой оси признака. Тем самым вводится важнейшее понятие — измеряемое свойство, или линейное свойство, тогда как шкала наименований использует "вырожденный" вариант интерпретации понятия "свойство": "точечное" свойство (свойство есть — свойства нет).
Переходным вариантом шкалы можно считать дихотомическую классификацию, проводимую по принципу "есть свойство — нет свойства" (I; 0) при 1 > 0. Дихотомическое разбиение множества позволяет применять не только порядок, но и метрику. Для интерпретации данных, полученных посредством порядковой шкалы, можно использовать более широкий спектр статистических мер (в дополнение к тем, которые допусти мы для шкалы наименований).
В качестве характеристики центральной тенденции можно использовать медиану, а в качестве характеристики разброса — про-центили. Для установления связи двух измерений допустима порядковая корреляция (т-Кэнделла ир-Спирмена).
Числовые значения порядковой шкалы нельзя складывать, вычитать, делить и умножать.
Шкала интервалов
Шкала интервалов является первой метрической шкалой. Собственно, начиная с нее, имеет смысл говорить об измерениях в узком смысле этого слова — о введении меры на множестве объектов. Шкала интервалов определяет величину различий между объектами в проявлении свойства. С помощью шкалы интервалов можно сравнивать два объекта. При этом выясняют, на сколько более или менее выражено определенное свойство у одного объекта, чем у другого.
Шкала интервалов очень часто используется исследователями. Классическим примером применения этой шкалы в физике являет-
185
ся измерение температуры по Цельсию. Шкала интервалов имеет масштабную единицу, но положение нуля на ней произвольно, поэтому нет смысла говорить, во сколько раз больше или меньше утренняя температура воздуха, измеренная шкалой Цельсия, чем дневная.
Значения интервальной шкалы инвариантны относительно группы аффинных преобразований прямой. То есть мы имеем право изменять масштаб шкалы, умножая каждое значение на константу, и производить ее сдвиг относительно произвольно выбранной точки на любое расстояние вправо или влево (прибавлять или отнимать константу).
Интервальная шкала позволяет применять практически всю параметрическую статистику для анализа данных, полученных с ее помощью. Помимо медианы и моды для характеристики центральной тенденции используется среднее арифметическое, а для оценки разброса—дисперсия. Можно вычислять коэффициенты асимметрии и эксцесса и другие параметры распределения. Для оценки величины статистической связи между переменными применяется коэффициент линейной корреляции Пирсона и т.д.
Большинство специалистов по теории психологических измерений полагают, что тесты измеряют психические свойства с помощью шкалы интервалов. Прежде всего это касается тестов интеллекта и достижений. Численные значения одного теста можно переводить в численные значения другого теста с помощью линейного преобразования: х' = ах + Ь.
Ряд авторов полагают, что относить тесты интеллекта к шкалам интервалов нет оснований. Во-первых, каждый тест имеет "нуль" — любой индивид может получить минимальный балл, если не решит ни одной задачи в отведенное время. Во-вторых, тест имеет максимум шкалы — балл, который испытуемый может получить, решив все задачи за минимальное время. В-третьих, разница между отдельными значениями шкалы неодинакова. По крайней мере, нет никаких теоретических и эмпирических оснований утверждать, что 100 и 120 баллов по шкале IQ отличаются на столько же, на сколько 80 и 100 баллов.
Скорее всего, шкала любого теста интеллекта является комбинированной шкалой, с естественным минимумом и\или максимумом, но порядковой. Однако эти соображения не мешают тестологам рассматривать шкалу IQ как интервальную, преобразуя "сырые" значения в шкальные с помощью известной процедуры "нормализации" шкалы.
186
Шкала отношений
Шкала отношений — наиболее часто используемая в физике. По крайней мере, идеалом измерительной процедуры является получение таких данных о выраженности свойств объектов, когда можно сказать, во сколько раз один объект больше или меньше другого.
Это возможно лишь тогда, когда помимо определения равенства, рангового порядка, равенства интервалов известно равенство отношений. Шкала отношений отличается от шкалы интервалов тем, что на ней определено положение "естественного" нуля. Классический пример — шкала температур Кельвина.
В психологии шкалы отношений практически не применяются. Одним из исключений являются шкалы оценки компетентности, основанные на модели Раша (о ней пойдет речь позже). Действительно, вполне можно представить уровень "нулевой" осведомленности испытуемого в какой-то области знаний (например, знание автором этого учебника эскимосского языка) или же "нулевой" уровень владения каким-либо навыком. Авторы стохастической теории теста доказывают, что, введя единую шкалу "трудности задачи — способности испытуемого", можно измерить во сколько раз одна задача труднее другой или же один испытуемый компетентнее другого.
Значения шкалы отношений инвариантны относительно преобразования вида: х' = ах.
Значения шкалы можно умножать на константу. К ним применимы любые статистические меры.
Измерения массы, времени реакции и выполнения тестового задания — области применения шкалы отношений.
Отличием этой шкалы от абсолютной является отсутствие "естественной" масштабной единицы.
Другие шкалы
а. Дихотомическая классификация часто рассматривается как вариант шкалы наименований. Это верно, за исключением одного случая, когда мы измеряем свойство, имеющее всего лишь два уровня выраженности: "есть — нет", так называемое "точечное" свойство. Примеров таких свойств много: наличие или отсутствие у испытуемою какой-либо наследственной болезни (дальтонизм, болезньДау-на, гемофилия и др.), абсолютного слуха и др. В этом случае исследователь имеет право проводить "оцифровку" данных, присваивая каждому из типов цифру "1" или "О", и работать с ними, как со значениями шкалы интервалов.
В ряде пособий неверно утверждается, что шкала наименований различает предметы по проявлению свойства, но не различает их по
187
уровню проявления свойства. Шкала наименований вообще не основана на понятии "свойство", которое вводится, лишь начиная со шкалы порядка, а базируется на представлении о "типе" — множестве эквивалентных объектов. Для того, чтобы ввести понятие "свойство", требуется ввести отношения не между объектами, а между классами (типами) эквивалентных объектов (которые, конечно, могут содержать всего лишь один объект).
б. Шкала разностей, в отличие от шкалы отношений, не имеет естественного нуля, но имеет естественную масштабную единицу измерения. Ей соответствует аддитивная группа действительных чисел. Классическим примером этой шкалы является историческая хронология. Она сходна со шкалой интервалов. Разница лишь в том, что значения этой шкалы нельзя умножать (делить) на константу. Поэтому считается, что шкала разностей — единственная с точностью до сдвига. Некоторые исследователи полагают, что Иисус Христос родился за четыре года до общепринятого начала нашего христианского летосчисления. Сдвиг на четыре года назад ничего не изменит в хронологии. Можно использовать мусульманское ле-тосчисление или же от сотворения мира. Кому как нравится.
В психологии шкала разностей используется в методиках парных сравнений.
в. Абсолютная шкала является развитием шкалы отношений и отличается от нее тем, что обладает естественной единицей измерения. В этом ее сходство со шкалой разностей. Число решенных задач ("сырой" балл), если задачи эквивалентны, — одно из проявлений абсолютной шкалы.
В психологии абсолютные шкалы не используются. Данные, полученные с помощью абсолютной шкалы, не преобразуются, шкала тождественна сама себе. Любые статистические меры допустимы.
г. В литературе, посвященной проблемам психологических измерений, упоминаются и другие типы шкал: ординальная (порядковая) с естественным началом, лог-интервальная, упорядоченная метрическая и др. О свойствах порядковой шкалы с естественным началом упоминалось в данном разделе.
Все написанное выше относится к одномерным шкалам. Шкалы могут быть и многомерными: шкалируемый признак в этом случае имеет ненулевые проекции на два (или более) соответствующих параметра. Векторные свойства, в отличие от скалярных, являются многомерными.
Шкальныепреобразования Возможны два варианта шкальных преобразований:
188
1) повышение мощности шкалы;
2) понижение мощности шкалы.
Вторая из процедур является тривиальной. Поскольку все возможные процедуры преобразований, которые приемлемы для более мощной шкалы (например, шкалы интервалов), допустимы и для менее мощной (например, шкалы порядка), то у нас есть право рассматривать данные, полученные с помощью интервальной шкалы, как порядковые или, допустим, порядковую шкалу — в качестве номинальной.
Другое дело, если (по каким-либо соображениям) у нас возникает потребность перейти от шкалы наименований к шкале порядка и т.д. Для этого требуется вводить необъективные (с позиций математической теории измерений) допущения и эмпирические приемы, базирующиеся лишь на интуиции и правдоподобных рассуждениях. Но в большинстве случаев производится эмпирическая проверка: в какой мере данные, полученные с помощью "слабой" шкалы, удовлетворяют требованиям более "мощной" шкалы.
Рассмотрим переход от шкалы наименований к порядковой шкале. Естественно, для этого нужно упорядочить классы по некоторому основанию. Предположим, что принадлежность объекта к некоторому классу есть случайная функция. Тогда переход от номинативной шкалы к шкале порядка возможен в том случае, если существует упорядоченность классов. Во-первых, для каждого элемента существует модальный класс, вероятность принадлежности к которому значимо больше, чем к другим классам. Во-вторых, для каждого элемента существует только одна функция вероятностной принадлежности к множеству классов, такая, что эти классы можно упорядочить единственным образом. Проще говоря, каждый класс должен иметь только двух соседей: "слева" и "справа", а порядок соседства определяется эмпирической частотой попадания элементов в различные классы. В "свой" класс элемент попадает чаще, в соседние со "своим" — реже и в отдаленные — еще реже. При обработке данных осуществляется эмпирическая проверка каждой тройки классов на стохастическую транзитивность. Преобразование шкалы порядка в шкалу интервалов — более частый вариант. Он подробно описан в литературе, посвященной теории психологических измерений, в частности в теории тестов.
6.2. Виды психологических измерений
В психологии используется множество конкретных измерительных методик. Удобную классификацию психологических измерений дал С.С. Паповян. Будем придерживаться ее вдальнейшем изложении.
Методы психологических измерений могут быть классифицированы по различным основаниям:
1) процедуре сбора "сырых" данных;
2) предмету измерения;
3) виду используемой шкалы;
4) типу шкалируемого материала;
5) моделям шкалирования;
6) числу мерностей (одномерные и многомерные);
7) мощности метода сбора данных (мощные или слабые);
8)типу ответа индивида;
9) какими они являются: детерминистскими или вероятностными.
Для психолога-экспериментатора главными основаниями являются процедура сбора данных и предмет измерения.
Чаще всего применяются следующие процедуры субъективного шкалирования:
Метод ранжирования. Все объекты представляются испытуемому одновременно, он должен их упорядочить по величине измеряемого признака.
Метод парных сравнений. Объекты предъявляются испытуемому попарно (число предъявлении равно числу сочетаний (п)). Испытуемый оценивает сходства—различия между членами пар.
Метод абсолютной оценки. Стимулы предъявляются по одному. Испытуемый дает оценку стимула в единицах предложенной шкалы.
Метод выбора. Индивиду предлагается несколько объектов (стимулов, высказываний и т.д.), из которых он должен выбрать те, которые соответствуют заданному критерию.
По предмету измерения все методики делятся на а) методики шкалирования объектов; б) методики шкалирования индивидов и в) методики совместного шкалирования объектов и индивидов.
Методики шкалирования объектов (стимулов, высказываний и др.) встраиваются в контекст экспериментальной или измерительной процедуры. По своей сути они не являются задачей исследователя, а представляют собой экспериментальную задачу испытуемого. Исследователь использует эту задачу для выявления поведения
190
испытуемого (в данном случае — реакций, действий, вербальных оценок и др.), чтобы знать особенности его психики. Поэтому нет оснований причислять эти техники к методам психологического измерения поведения, если под измерением понимать только задачу экспериментатора.
При субъективном шкалировании испытуемый выполняет функции измерительного прибора, а экспериментатор мало интересуется особенностями "измеряемых" испытуемым объектов и исследует сам "измерительный прибор".
Парадигма субъективного шкалирования перешла в другие области психологии из психофизики, где классификация задач испытуемого в эксперименте очень хорошо разработана. Этого нельзя сказать о других областях психологии.
Но по укоренившейся традиции методики и модели субъективного шкалирования рассматриваются в одном разделе с техниками и моделями измерения поведения. Традиция эта связана с тем, что и при "шкалировании объектов", и при "шкалировании индивидов" в ходе обработки и интерпретации данных используется сходный математический аппарат.
Процедуре одномерного и многомерного субъективного шкалирования посвящена обширная научная и учебная литература (см. "Списоклитературы").
Остановимся на моделях совместного шкалирования объектов и испытуемых. Модели делятся на два вида: детерминистические и вероятностные. Суть этих моделей в том, что и объекты, и индивиды, которые высказывают суждения об объектах, "отображаются" на одну шкалу на основании обработки данных поведенческого измерения либо субъективного шкалирования.
Основными детерминистическими моделями являются метод развертывания К.Кумбса и шкалограммный анализ Л. Гуттмана. К вероятностным моделям относится латентно-структурный анализ IRT (item response theory) (см. разд. 6.5). Здесь же мы кратко остановимся на детерминистических моделях.
Метод развертывания Кумбса исходит из предположения, что объекты и индивиды могут быть размещены на шкале одномерного признака. Индивид может предпочитать один объект другому. Существует "идеальная точка" индивида — субъективный эталон. Индивид предпочитает тот стимул, который "ближе" к субъективному эталону.
Процедура измерения состоит в следующем. Испытуемому предъявляются пары стимулов, которые он сравнивает. Формируется мат-рица частоты предпочтений стимулов размером m х п (т — стиму-
191
лы, n — индивиды). В клеточках матрицы — относительные частоты предпочтений.
Шкалограммный анализ Гуттмана используется для построения опросников. Наиболее часто применяется при дихотомической оценке ответа испытуемого ("да" — "нет", "решил" — "не решил").
Предполагается следующее: принятие индивидом пункта (решение задачи, ответ "да" и т.д.) означает то, что его шкальное значение не меньше величины пункта. Если индивид решает данную задачу, то он решает любую другую (болеелегкую) задачу. Принятие индивидом пункта опросника или правильное решение задачи обозначается как " 1", неприятие пункта или неверное решение — "О".
В ходе обработки строки и столбцы исходной матрицы данных переставляются так, чтобы она соответствовала "совершенной" шка-лограмме: матрица выше диагонали, т.е. верхняя правая часть матрицы должна состоять из единиц, а нижняя левая — включать только нули. Порядок индивидов по строкам должен соответствовать порядку заданий по столбцам по величине выраженности свойства.
Задачи
1 | 2 | 3 | 4 5 | |
1 | 1 | 1 | 1 | 1 1 |
2 | 0 | 1 | 1 | 1 1 |
Индивиды з | 0 | 0 | 1 | 1 1 |
4 | 0 | 0 | 0 | 1 1 |
5 | 0 | 0 | 0 | 0 1 |
Практически никогда идеальная шкалограмма не получается. Оценка одномерности признака предложена Гуттманом и называется коэффициентом воспроизводимости-.
R = I - e/nk,
где
е — число "ошибок" в откликах испытуемых, n — количество испытуемых, k — число заданий.
Существует также модификация модели Гуттмана, описывающая процедуру с несколькими вариантами ответов.
6.3. Тестирование и теория измерений
Тестирование (в частности, психологическое) является разновидностью процедуры измерения свойств объекта. Свойство — фило-
192
софская категория, выражающая такую сторону предмета, которая обусловливает его различия и общность с другими предметами и обнаруживается в его отношении к ним.
В логике под свойством понимается одноместный предикат вида Р(х): например, х-город — в отличие от отношения, которое также является одноместным предикатом. Свойство может быть многоместным предикатом, а отношение — одноместным, например:
"Петр любит самого себя". Свойство ограничивает область объектов, которым оно приписывается. В результате операции приписывания свойства объектов становится меньше, чем было до этого. Отношение же всегда образует новые объекты, например, Р (х, у, z), где х — мужчины,у — женщины, z — дети; если Р — генетическое отношение, то связанные этим отношением х, у и z дают новый объект — человечество.
Отсюда ясно, что, вводя понятие "свойство", мы выделяем класс психических сущностей, которые этим свойством обладают.
Свойства классифицируются по наличию интенсивности и ее изменениям. При этом различают три основных типа свойств:
а) точечные;
б) линейные;
в) многомерные.
Рассмотрим первый тип: точечные свойства. Человек может быть:
либо мертвым, либо живым; или мужчиной, или женщиной; или холериком, или сангвиником. Ни одна женщина не может быть чуть-чуть беременной. Существуют свойства, которые не имеют интенсивности и могут рассматриваться как точечные или "свойства нулевого измерения". Такие свойства обладают определенностью, качественной, но не количественной.
Второй тип свойств образуют линейные свойства (одномерные свойства). Последний термин, с нашей точки зрения, более удачен. Другие линейные свойства, присущие предмету, всегда имеют определенную интенсивность, причем могут изменяться лишь в направлении уменьшения или увеличения этой интенсивности. Таковы масса, упругость, вязкость, мощность, температура, физическая сила человека, его рост и т.д. Отметим, что большинство психичес-ких'свойств относится традиционно к этому типу. В частности, факторная теория интеллекта вводит понятия: "общий интеллект", "креативность", "дивергентное мышление", основываясь на том, что эти свойства являются одномерными (линейными).
Одномерные (линейные) свойства помимо качественной определенности обладают также количественной. Обычно вводится понятие интервала интенсивности, под которым понимается вся сово-,
7 Экспериментальная психологи 193
купность интенсивностей данного свойства (диапазон интенсивности). Физические свойства такого рода называются скалярами.
Примером двухмерных свойств являются векторные величины. Двухмерные свойства можно представить как комбинацию одномерных (разложение вектора на плоскости — комбинация скалярных величин: величины угла и длины отрезка). Их обобщением являются многомерные свойства, которые можно определить как свойства, способные изменяться вп-отношениях: пространственные векторы в математике, тензоры в физике и т.д.
Между точечными, линейными и многомерными свойствами существует простое отношение сводимости: многомерное свойство может быть представлено как совокупность линейных свойств, али-нейное — как множество точечных свойств. Соответственно набор точечных свойств можно представить в качестве псевлолинейного свойства, а набор линейных — как псевдомногомерное свойство.
Можно теоретически предусмотреть 4-й случай, когда свойство качественно не определено. Это парадоксально только на первый взгляд. Возможен вариант: есть некое число, но неясно, представляет ли оно какое-либо свойство.
Таким образом, можно ввести следующую типологию свойств:
1) свойство не определено;
2)точечное свойство;
3) линейное свойство;
4) многомерное свойство.
Рассмотрим на качественном уровне общую структуру психологического тестирования — применение теста, призванного измерить определенное свойство.
Психологический тест включает в себя некоторую совокупность заданий, инструкции: испытуемому— правило работы с тестом, экспериментатору — правило организации работы испытуемого с тестом и правило работы с данными, а также теоретическое описание с указанием свойств, измеряемых тестом, шкал (топологии свойства) и метода введения шкальной оценки. Указываются также психометрические параметры теста.
С теоретической точки зрения для измерения свойства и интерпретации тестового балла следует описать типичную структуру и процедуры тестирования с позиций взаимодействия испытуемого и экспериментатора.
Испытуемые, обладающий свойством (Р,), должен выполнить (f|) задания теста (Z), дать ряд ответов (J). Экспериментатор должен этот ряд ответов (J) отобразить (F^) на "модели совокупности испытуемых", т.е. совокупности измеряемых свойств (Р), чтобы получить некоторый результат тестирования.
194
Тем самым существуют два типа процедур: собственно тестирование — взаимодействие испытуемого с тестом и интерпретация — "взаимодействие" данных испытуемого с "моделью совокупности испытуемых". Получаем два отображения — F:P->JuF:J^P. Идеальная обобщенная модельтеста, возникающая из процедуры тестирования, тем самым должна включать в себя:
1) описание вида отображений F, и F^ (они должны быть тождественными);
2) описание топологии свойства;
/ ' л л
3) характеристику индикаторов (ответов испытуемого) J и задач Z. Индикаторы являются поведенческими признаками и также, как свойства, могут быть: 1) не определены; 2) дискретны; 3) линейны;
4) многомерны. В обычном случае мы имеем дискретные индикаторы: отдельные поведенческие акты. Искусственным методом (суммируя индикаторы) мы образуем при интерпретации псевдолинейное свойство, получая "сырой" балл. Возникает проблема: в каких случаях можно это делать? Кроме того, существуют некоторые отношения на множествах испытуемых и индикаторов.
Если свойство не определено, то единственное отношение, которое можно установить на множестве испытуемых, — это отношение сходства.
Если свойство является точечным, то на множестве испытуемых можно ввести отношения эквивалентности (обладает свойством), неэквивалентности (не обладает свойством) и применить дихотомическую классификацию.
Наконец, если свойство линейное или многомерное, то испытуемых можно шкалировать по их положению налинейном континууме или в пространстве.
Поступаем так и в отношении индикаторов. Они могут быть эквивалентны или неэквивалентны, определены или не определены, шкалированы или не шкалированы.
Следовательно, в зависимости от вида отношений, которые мы вводим на множестве испытуемых (определяется природой свойства) или индикаторов (определяется описанием поведения и заданий), получаем разные модели теста. Кроме того, необходимо учесть вид отображений — f| и Fy которые представляют собой решающие правила соотнесения индикаторов со свойством. Они зависят от интерпретации процедуры тестирования. Ниже мы рассмотрим некоторые возможные модели.
Итак, возможны следующие модели теста, основанные на различной топологии измеряемого свойства.
1. Если свойство не определено, то необходимо рассматривать отношение различия на множестве людей. Это отношение порожда-
7* 195
ет новый класс объектов. Отсюда — тест выявляет меру сходства каждого человека с "человеком-эталоном".
2. Если свойство качественно определено, то оно рассматривается как точечное, что позволяет ограничить класс объектов — выделить людей, обладающих свойством, и людей, им не обладающих.
Тест позволяет в этом случае произвести дихотомическую классификацию.
3. Если свойство линейное или многомерное, то можно выявить величину свойства, характеризующую каждого человека.
Тест позволяет измерить свойство количественно.
Существует множество конкретных тестовых методик, которые можно классифицировать по самым разным основаниям. В настоящее время психологический тест рассматривается как набор заданий, т.е. измерительный инструмент, обнаруживающий свойство. Общее название для заданий — пункты теста. Испытуемому предлагаются варианты ответа по отношению к каждой задаче. Ответ регистрируется и считается индикатором (признаком), обнаруживающим свойство. Варианты ответа могут быть разными, но чаще используются такие: "да" — "нет", "решил" — "перешил" и др. Каждый индикатор, сочетание пунктов — ответ, соотносится с ключом, который приписывает индикатор определенному свойству.
В основе подобной процедуры лежит модель, предложенная еще К.Левиным, — поведение есть функция личности и ситуации: В = =f(P, S). Решается иная задача: восстановить свойство личности по поведению в ситуации: ситуацией является пункт теста, а поведением — ответ испытуемого: Р = f(B, S). Таким образом, каждый индикатор свойства есть соединение поведения и ситуации: J = В & S. Тем самым личность есть производное от совокупности индикаторов: P=f(J).
Многомерный тест измеряет не одно, а несколько свойств личности, поэтому в общем случае имеется матрица вида J х Р, каждый индикатор соотносится со свойством.
Процедура обнаружения свойств, к которой сводится тестовое измерение, завершается выводом суммарного балла. Такое отношение между индикаторами и тестом называется кумулятивно-аддитивной моделью. "Сырой" балл считается оценкой, характеризующей испытуемого.
Наиболее часто эту оценку считают оценкой "интенсивности" свойства.Тем самым явно или неявно принимается гипотеза о том, что относительная частота обнаружения свойства прямо пропорциональна "интенсивности" свойства: у = k (m/n) + С, где m/n — отношение числа обнаруженных признаков к общему числу испыта-
196
ний, у — "интенсивность" свойства, а k и С — некоторые константы. Очевидно, что неявным образом для измерения психологических особенностей индивидов применяется интервальная шкала.
Гипотезу о наличии подобной связи называют также гипотезой эквивалентности интенсивности и экстенсивности проявления свойства.
Кумулятивную гипотезу проверяют путем корреляции результатов применения различных методик. В частности, при измерении мотивации в качестве базовой методики используется предложенный Мюрреем Тест тематической апперцепции (ТАТ). Он состоит из нескольких картинок с изображением людей в определенных ситуациях. Испытуемому предлагается составить рассказ по поводу каждой ситуации. Его высказывания анализируются. Выявляется по известным ключевым признакам связь высказываний с определенной мотивацией. Число высказываний, относящихся к тому или иному мотиву, характеризует величину его интенсивности. Кумулятивная гипотеза является в этом случае переводом на математический язык известной поговорки: "У кого что болит, тот о том и говорит". Считается, что количество "речевых продуктов" пропорционально силе мотива. Число признаков психологического свойства при этом не фиксировано, а может быть только соотнесено со средним значением по выборке. Опросники, разработанные для диагностики мотивации, сопоставляются с методикой ТАТ. При наличии высокого положительного коэффициенталинейной корреляции результатов кумулятивно-аддитивная модель принимается и для обработки данных личностного опросника.
Критическую оценку применения кумулятивно-аддитивной модели дал Р.Мейли. Он полагал, что и методика типа ТАТ, и опрос-ники (особенно — на самооценку) измеряют только вероятность наличия у испытуемого того или иного психологического свойства.
Критика, с которой выступает Мейли, носит только качественный характер и не имеет математического или эмпирического обоснования.
Процедура суммирования баллов сама по себе не плоха и не хороша: важно выявить природу итоговой оценки. Суммарный балл мо^ет характеризовать близость испытуемого к некоторому эталону испытуемого, вероятность его принадлежности к конкретному типу, а с помощью оценки определяется его место на шкале порядка или интервалов. Вид интерпретации тестового балла зависит от принятой разработчиком модели.
Традиционные обобщенные измерительные модели теста являются математическими, описывающими взаимодействие измеритель-
197 с
ного инструмента (теста) и объекта измерения (человека). Основная особенность этих моделей: они применялись для обоснования метода обработки данных тестирования в целях выявления латентного свойства.
В отношении психологического свойства можно сделать следующие теоретические предположения. Первое, наиболее простое, заключается в том, что нам неизвестно, есть свойство или нет. Утверждение кажется парадоксальным, однако дело в том, что психическое свойство — некоторое теоретическое допущение, и, если у нас нет достаточных оснований пользоваться этим понятием для объяснения поведения, лучше к нему не прибегать. Второй вариант допущения состоит в том, что свойство есть, но нам неизвестна его топология: неясно, является ли это свойство точечным, линейным, многомерным и т.д. Третье возможное утверждение: нам известна топология свойства. Свойство — одномерный континуум (непрерывный) и может быть измерено некоторой порядковой или метрической шкалой (шкала наименований не является шкалой в строгом смысле этого слова).
По отношению к взаимодействию испытуемого и теста возможны два допущения:
1) появление признака строго детерминированно и соответственно детерминирован тип ответа;
2) взаимодействие испытуемого и задания определяет вероятность получения того или иного ответа. Чаще применяется вероятностная модель.
Валидность признаков 198
Множество свойств имеет определенную структуру. Традиционно полагается, что тестируемые свойства должны бытьлинейно независимы, хотя в общем случае это условие необязательно.
Каждое свойство имеет определенную топологию: она может быть не определена, а свойство — точечно, линейно, многомерно.
I. Тест измеряет свойства некоторых объектов, принадлежащих определенному множеству 0-совокупности потенциальных испытуемых. В руководстве к тесту оговариваются характеристики множества испытуемых, для которых он предназначен. Тем самым определено некоторое множество О с отношениями между его элементами. Эти отношения связаны с топологией свойства. Если топология свойства не определена, то на множестве испытуемых можно вводить только отношения сходства, не соответствующего правилу транзитивности отношений. Если свойство является точечным, то, согласно его определению, оно позволяет отделить испытуемых, обладающих свойством, от испытуемых, им не обладающих. То есть на множестве испытуемых можно ввести отношения эквивалентности— неэквивалентности, свидетельствующие о степени обладания свойством. Наконец, если свойстволинейное, то испытуемых можно расположить на линейном континууме и ввести метрику.
2. Тест включает в себя множество заданий (Z) и вариантов ответов испытуемого (R), которые оговорены в предлагаемой ему инструкции (решил—не решил, да—нет, хорошо—средне—плохо и т.д.). Декартово произведение Zx R = J дает нам множество индикаторов (признаков) измеряемого свойства. Индикаторы могут быть относительно свойства разнородны, однородны (т.е. на них могут быть введены отношения эквивалентности), шкалированы (область разной "силы").
Отношения на множестве индикаторов независимы от отношений на множестве испытуемых, т.е. от топологии свойства. Это правило соответствует принципу объективности метода измерения:
свойства прибора (в нашем случае — тестовых заданий) не зависят от свойств объекта.
а л
3. Между множествами испытуемых (О), индикаторов (J) и свойств (Р) существуют определенные отношения, которые можно разбить на отношения измерения и интерпретации. Измерение — это творческий подход испытуемого (испытуемых) к работе с тестом, "порождение" ответов на задания (признаков).
Интерпретация заключается в том, что на основе этих признаков экспериментатор при работе с "ключом" теста выявляет свойства испытуемого и относит его к определенной категории (подмножеству множества испытуемых).
199
Отношения измерения:
1. Отображение множества свойств на множество испытуемых вида F,: Р-> 6 дает представление об отношении измеряемых свойств к испытуемым. Например: испытуемые могут обладать или не обладать той или иной интенсивностью свойства и т.д.
Каждое свойство характеризуется вектором вида <0^,0у ..., 0^>, где О — величина, показывающая на принадлежность свойства Р испытуемому 0^.
Обычно Р. характеризует распределение испытуемых, на которых апробировался тест, по отношению к пространству свойств.
2. Отображение F^: P—>J определяет процесс измерения. Каждое свойство характеризуется вектором <i.,, \.у ..., i^>, где i^—величина, определяющая, в какой мере свойство Р детерминирует индикатор J^. Если описание теста сопровождается данными факторного или латентно-структурного анализа, то эта величина отражает "нагрузку" фактора на пункт теста.
3. Отображение Fy 6 —> Р позволяет оценить результат измерения и определить, какие признаки проявил испытуемый при выполнении теста. Каждый испытуемый характеризуется вектором <1ц, i^, ..., i^>, где i^ — величина, указывающая, в какой мере испытуемый О, проявил признак !у Обычно признаки проявляются дихотомически: решил — не решил, да — нет; иногда привлекаются непрерывные величины: время решения задания, шкальная оценка и т.д.
Этот вектор характеризует ответы испытуемого на тест и подвергается процедуре интерпретации.
Отношения интерпретации:
1. Отображение множества J на множество О вида Fy J —> О дает представление о первичной структуре данных.
Каждый индикатор характеризуется вектором <0,, Оу ..., 0^>. При тестировании способностей этот вектор позволяет определить, какие испытуемые решили те или иные задачи.^
2. Отображение множества J на множество Р вида F^.: J —> Р указывает на процесс интерпретации тестового балла, точнее — вектора обнаруженных признаков. Каждый индикатор характеризуется вектором <р.|, Р.,, Рз,..., Р.д>, где Р, — величина, определяющая "вес" индикатора по отношению к свойству. В инструкции к тесту "вес" индикатора используется для подсчета накопленного балла. Он соответствует "нагрузке" фактора на пункт теста. По отображению F^ можно говорить о процедуре подсчета "сырого"^балла.
3. Отображение множества О на множество Р вида F^,: О —> Р характеризует интерпретацию — приписывание свойства или определенного уровня его интенсивности конкретному испытуемому (груп-
200
пе испытуемых). Каждый испытуемый характеризуется вектором <Р^, Ру, ..., Ру>, где Р — величина, определяющая, в какой мере свойство Р выражено у испытуемого О.. Эта величина является итогом процесса интерпретации — "психологическим портретом" испытуемого. С позиции обобщенной модели основное требование к тесту заключается втом, чтобы процедуры интерпретации и измерения были тождественными. Иными словами, тождественными должны быть обратные отображения F, и f|., F^ и F^,, F^ и F^.. В противном случае результаты интерпретации будут расходиться с результатами измерения (тестирования).
Описания множеств О, J, Р, Z, Ки видов отображения F,,, F^., F.,. определяются в ходе разработки теста и включаются в теоретическое описание теста и в инструкцию экспериментатора.
Поскольку тест направлен на измерение психического свойства (в частности, способности), вид конкретной модели, описывающей тест, определяется топологией свойства.
Рассмотрим варианты нормативной обобщенной модели теста для одномерного случая, когда измеряется только одно свойство:
(.Свойство не определено.
Если топология свойства не определена, то это означает, что множество испытуемых нельзя (в соответствии с определением понятия "свойство") разбить на подмножества, обладающие или не обладающие свойством. Иначе: на множестве испытуемых нельзя ввести отношения эквивалентности—неэквивалентности. Однако на множестве испытуемых можно ввести отношения толерантности (сходства). Это отношение рефлексивно, симметрично, но не транзитивно. Множество индикаторов J нельзя характеризовать по отнесенности к свойству, так как Р — множество свойств, качественно не определенных. Следовательно, каждый испытуемый характеризуется лишь структурой своих ответов.
Единственно возможный способ интерпретации таких результатов — выделение из множества испытуемых "эталонного испытуемого" (например, решившего все задачи теста). После этого производится подсчет коэффициентов сходства всех испытуемых с "эталоном".
"Назовем этот вариант модели "моделью сходств". В психологических исследованиях она применяется редко. Очевидно, свою роль ифает стремление исследователей максимально повысить мощность интерпретации данных.
2. Свойство качественно определено. Топология свойства определена: оно является точечным. На множестве испытуемых можно ввести отношение эквивалентности—не-
201
эквивалентности (рефлексивное, симметричное, транзитивное), указывающее на наличие или отсутствие у них свойства. Следовательно, отображение F.: О —> Р является отображением множества на точку. Вектор значений Р характеризует индивидуальную меру выраженности свойства (в вероятностной интерпретации — вероятность его наличия) у испытуемого. Соответственно определены все отображения F„, F-., F^. (и обратные им). Если испытуемые обладают/ не обладают свойством, то их можно разбить на основании результата тестирования на классы, имеющие и не имеющие свойства. При интерпретации данных используется следующий алгоритм: фиксируются индикаторы, проявленные испытуемым, подсчитывается индивидуальный показатель наличия или отсутствия у него свойства и принимается решение о его принадлежности к одному из дихотомических классов — А и А (обладающих и не обладающих свойством).
Назовем эту модель моделью дихотомической классификации. Она использована в опросникахЛичко,опросникахУНП и ряде других.
3. Свойство качественно и количественно опре-д е л е н о.
Свойство является линейным континуумом, следовательно, на нем определена метрика. Отображение F,: О -> Р указывает на меру принадлежности испытуемых к той или иной градации свойства (точке линейного континуума).
В этом случае для подсчета величины, характеризующей принадлежность испытуемого к определенной интенсивности свойства, применяют кумулятивно-аддитивную модель: число признаков, проявленных при выполнении заданий теста (с учетом "весов"), прямо пропорционально интенсивности свойства, которым обладает испытуемый. 3i а модель есть отображение Fy: Р-> 6. Тем самым применяется следующая интерпретация: фиксируются ответы испытуемого; вычисляется "сырой" балл; испытуемый обладает определенной интенсивностью свойства на основе отображения "сырого" балла на шкалу, характеризующую свойство. Эта модель — модель латентного континуума — является наиболее распространенной при тестировании психических свойств.
Индикаторы свойства также могут быть однородными и разнородными. В последнем случае они шкалируются или не шкалируются. Если индикаторы однородны, то они выявляют свойство или уровень его интенсивности с равной вероятностью. Если индикаторы разнородны, то они выявляют свойство или уровень его интенсивности с разной вероятностью. На множестве индикаторов может быть введена некоторая мера — "сила" признака: чем сильнее признак, тем с большей вероятностью он выявляет свойство или определен-
202
ный уровень его интенсивности. В этом случае для описания теста мы получаем так называемую модель Раша.
6.4. Классическая эмпирико-статистическая теория теста
Классическая теория теста лежит в основе современной дифференциальной психометрики.
Описание оснований этой теории содержится во многих учебниках, пособиях, практических руководствах, научных монографиях. Количество изданных учебников, излагающих эмпирико-статисти-ческую теорию теста, особенно выросло за последние 5—Улет. Вместе с тем в учебнике, посвященном методам психологического исследования, нельзя хотя бы вкратце не упомянуть основные положения теории психологического тестирования.
Конструирование тестов для измерения психологических свойств и состояний основано на шкале интервалов. Измеряемое психическое свойство считается линейным и одномерным. Предполагается также, что распределение совокупности людей, обладающих данным свойством, описывается кривой нормального распределения.
В основе тестирования лежит классическая теория погрешности измерений; она полностью заимствована из физики. Считается, что тест такой же измерительный прибор, как вольтметр, термометр или барометр, и результаты, которые он показывает, зависят от величины свойства у испытуемого, а также от самой процедуры измерения ("качества" прибора, действий экспериментатора, внешних помех и т.д.). Любое свойство личности имеет "истинный" показатель, а показания по тесту отклоняются от истинного на величину случайной погрешности. На показания теста влияет и "систематическая" погрешность, но она сводится к прибавлению (вычитанию) константы к "истинной" величине параметра, что для интервальной шкалы значения не имеет.
Если тест проводить много раз, то среднее будет характеристикой "истинной" величины параметра^ Отсюда вводится понятие ре-тестовой надежности: чем теснее коррелируют результаты начального и повторного проведения теста, тем он надежнее. Стандартная погрешность измерения:
203
где
о^ — стандартное отклонение,
г„ — коэффициент корреляции тест—ретест.
Предполагается, что существует множество заданий, которые могут репрезентировать измеряемое свойство. Тест есть лишь выборка заданий из их генеральной совокупности. В идеале можно создать сколько угодно эквивалентных форм теста. Отсюда — определение надежности теста методами параллельных форм и расщепление его на эквивалентные равные части.
Задания теста должны измерять "истинное" значение свойства. Все задания одинаково скоррелированы друг с другом. Корреляция задания с истинным показателем:
а2 — дисперсия для гсего теста.
Для определения надежности методом расщепления используется формула Спирмена— Брауна.
В принципе классическая теория теста касается лишь проблемы надежности. Вся она базируется натом, чю результаты выполнения разных заданий можно суммировать с учетом весовых коэффициентов. Так получался "сырой'' балл.
У=Хд\ +с,
где
х_ — результат выполнения i-ro задания,
а — весовой коэффициент огвета,
с — произвольная константа.
По поводу того, откуда возникают "ответы", в классической теории не говорится ни слова.
Несмотря на то что проблеме валидности в классической теории теста уделяется много внимания, теоретически она никак не решается. Приоритет отдан надежности, что и выражено в правиле: ва-лидность теста не может быть больше его надежности.
Валидность означает пригодность теста измерять то свойство, для измерения которого он предназначен. Следовательно, чем больше па результат выполнения теста или отдельного задания влияет измеряемое свойство и чем меньше — другие переменные (в том числе внешние), тем тест валидной и, добавим, надежнее, поскольку влияние помех на деятельность испытуемого, измеряемую валидным тестом, минимально.
Но это противоречит классической теории теста, которая основана не на деятельностном подходе к измерению психических свойств, а на бихевиористской парадигме: стимул — ответ. Если же рассматривать тестирование как активное порождение испытуемым о гвегов на задания, то надежное! ь теста будет функцией, производной от валидности.
Тест валиден (и надежен), если на его результаты влияет лишь измеряемое свойство.
- Тест невалиден (\\ ненадежен), если результаты тестирования определяются влиянием нерелевантных переменных.
Каким же образом определяется валидность? Все многочисленные способы доказательства валидности теста называются разными ее видам и.
1. Очевидная валидность. Тест считается валидным, если у испытуемых складывается впечатление, что он измеряет то, что должен
205
где
r, — корреляция i-ro задания с истинным показателем t, r — средняя корреляция i-ro задания с другими. Поскольку в реальном монометрическом тесте число заданий ограничено (не более 100), то оценка надежности теста всегда приблизительна.
Так, определяемая надежность теста связана с однородностью, которая выражается в корреляциях между заданиями. Надежность возрастает с увеличением одномерности теста и числа его заданий, причем довольно быстро. Стандартная надежность 0,02 соответствует тесту дли ной в 10 заданий, а при 30 заданиях она равна 0,007. Оценка стандартной надежности:
где
or— стандартная погрешность оценивания r ,
о — стандартное отклонение корреляций заданий в тесте,
к — число заданий в тесте.
Для оценок надежности используется ряд показателей.
Наиболее известна формула Кронбаха:
где
к — число заданий в тесте,
£o2 — сумма дисперсий заданий,
204
измерять.
2. Конкретная валидность, или конвергентная—дивергентная. Тест должен хорошо коррелировать с тестами, измеряющими конкретное свойство либо близкое ему по содержанию, и иметь низкие корреляции с тестами, измеряющими заведомо иные свойства.
3. Прогностическая валидность. Тест должен коррелировать с отдаленными по времени внешними критериями: измерение интеллекта в детстве должно предсказывать будущие профессиональные успехи.
4. Содержательная валидность. Применяется для тестов достижений: тест должен охватывать всю область изучаемого поведения.
5. Конструктная валидность. Предполагает:
а) полное описание измеряемой переменной;
б) выдвижение системы гипотез о связях ее с другими переменными;
в) эмпирическое подтверждение (не опровержение) этих гипотез.
С теоретической точки зрения единственным способом установления "внутренней" валидности теста и отдельных заданий является метод факторного анализа (и аналогичные), позволяющий:
а) выявлять латентные свойства и вычислять значение "факторных нагрузок" — коэффициенты детерминации свойством тех или иных поведенческих признаков;
б) определять меру влияния каждого латентного свойства на результаты тестирования.
К сожалению, в классической теории теста не выявлены причинные связи факторных нагрузок и надежности теста.
Дискриминативность задания является еще одним параметром, внутренне присущим тесту. Тест должен хорошо "различать" испытуемых с разными уровнями выраженности свойства. Считается, что больше 9—10 градаций использовать не стоит.
Тестовые нормы, полученные входе стандартизации, представляют собой систему шкал с характеристиками распределения тестового балла для различных выборок. Они не являются "внутренним" свойством теста, а лишь облегчают его практическое применение.
6.5. Стохастическая теория тестов (IRT)
Наиболее общая теория конструирования тестов, опирающаяся на теорию измерения, — Item Response Theory (IRT). Онаосновыва-
206
ется на теории латентно-структурного анализа (ЛСА), созданной \ П.Лазарсфельдом и его последователями. 1 Латентно-структурный анализ создан для измерения латентных (в том числе психических) свойств личности. Он является одним из вариантов многомерного анализа данных, к которым принадлежат факторный анализ в его различных модификациях, многомерное шкалирование, кластерный анализ и др.
Теория измерения латентных черт предполагает, что:
1. Существует одномерный конти нуум свойства — латентной переменной (х); на этом континууме происходит вероятностное распределение индивидов с определенной плотностью цх).
2. Существует вероятностная зависимость ответа испытуемого на задачу (пункт теста) от уровня его психического свойства, которая называется характеристикой кривой пункта. Если ответ имеет две градации ("да — нет", "верно — не верно"), то эта функция есть вероятность ответа, зависящая от места, занимаемого индивидом на континууме (х).
3. Ответы испытуемого не зависят друг от друга, а связаны только через латентную черту. Вероятность того, что, выполняя тест, испытуемый даст определенную последовательность ответов, равна произведению вероятностей ответов на отдельные задания.
Конкретные модели ЛСА, применяемые для анализа эмпирических данных, основаны надополнительныхдопущенияхо плотности распределения индивидов на латентном континууме или о форме функциональной связи уровня выраженности свойства у испытуемого и ответа на пункт теста.
В модели латентного класса функция плотности распределения индивидов является точечно-дискретной: все индивиды относятся к разным непересекающимся классам. Измерение производится номинальной шкалой.
В модели латентной дистанции постулируется, что вероятность ответа индивида на пункт теста является мультипликативной функцией от параметров задачи и величины свойства:
где
Р,(х) — вероятность ответа "да" на i-й пункт,
а — ''дифференцирующая сила" задания,
х — величина свойства,
Р,— "трудность" задания.
207
Вероятность ответа на пункт теста описывается функцией, изо Сраженной на графике.
где
F(x) — величина i-ro задания, Р^(х) — вероятность ответа на i-e задание.
Модель нормальной огивы есть обобщение модели латентной дистанции. В ней вероятность ответа на задание такова:
где
-L(x) — плотность нормального распределения. В логистической модели вероятность ответа на задание описывается следующей зависимостью:
распределения.
Логистическая модель используется наиболее широко, так как она специально предназначена для тестов, где свойство измеряется суммированием баллов, полученных за выполнение каждого задания с учетом их весов.
Логистическая функция и функция нормального распределения тесно связаны:
/ Ф(x)-\V(^,7x) \<0,01
(здесьф(х) — кумулятивная функция нормального распределения). Развитием ЛСАявляются различные модификации Item Response Theory. В IRT распределения переменных на оси латентного свой-208
ства считаются непрерывными, т.е. модель латентного класса не используется.
База для IRT— это модель латентной дистанции. Предполагается, что и индивидов, и задания можно расположить на одной оси "способность — трудность", или "интенсивность свойства — сила пункга". Каждому испытуемому ставится в соответствие только од но значение латентного параметра ("способности").
В общем виде вероятность ответа зависит от множества свойств испытуемого, но в моделях IRT рассматривается лишь одномерный случай.
Главное отличие IRT от классической теории теста в том, что в ней не ставятся и не решаются фундаментальные проблемы эмпирической валидности и надежности теста: задача априорно соотносится лишь с одним свойством, т.е. тест заранее считается валидным. Вся процедура сводится к получению оценок параметров трудности задания и к измерению "способностей" испытуемых (образованию "характеристических кривых").
В классической теории теста индивидуальный балл (уровень свойства) считается некоторым постоянным значением. В IRT латентный параметр трактуется как непрерывная переменная.
Первично моделью в IRT стала модель латентной дистанции, предложенная Г.Рашем: разность уровня способное ги и трудносчи Tecia х^ —р^, где х^ — положение i-ro испытуемого на шкале, ар— положение j-ro задания на той же шкале. Расстояние (х^ — р^) характеризует отставание способности испытуемого от уровня сложности задания. Если разница велика и отрицательна, то задание не может быть выполнено, так как для данного испытуемого оно слишком сложно. Если же разница велика и положительна, то задание также не информативно, ибо испытуемый заведомо легко и правильно его решит.
Вероятность правильного решения задания (или ответа "да") i-м испытуемым:
Р,(^)=Г(х-Р,) Вероятность выполнения j-ro задания группой испытуемых:
Р^(х-Р^).
В IRT функции (х) и f(P) называются функциями выбора пункта. Соответственно первая является характеристической функцией испытуемого, а вторая — характеристической функцией задания.
209
Считается, что латентные переменные х и (3 нормально расиреде лены, поэтому для характеристических функций выбирают либоло-гистическую функцию, либо интегральную функцию нормирован ного нормального распределения (как мы уже отмегилн выше, от, мало отличаются друг от друга).
Поскольку логистическую функцию проще аналитически зада вать, ее используют чаще, чем функцию нормальною распределс ния.
Кроме "свойства" и "силы пункта" (она же — трудность задания 1 в аналитическую модель IRT могут включаться и другие перемен ные. Все варианты IRT классифицируются по числу используемых i, них переменных.
Наиболее известны однопараметрическая модель Г.Раша. двухпараметрическая модельА.Бирнбаума и трехпараметрическая модель А.Бирнбаума.
В однопараметрической модели Pauia предполагается, чтоотвеч испытуемого обусловлен только индивидуальной величиной измеряемого свойства (й^) и "силой" тестового задания ([3). Следовательно, для верного ответа ("да")
и для неверного ответа ("нет")
Наиболее распространена модель Раша с логистической функцией отклика.
Для тестового задания:
Естественно, чем выше уровень свойства (способности), тем вероятнее получить правильный ответ ("ключевой" огвет — "да"). Следовательно, функция Р (9) является монотонно возрастающей.
В точке "перегиба" характеристической кривой i-ro задания теста "способность" равна "трудности задания", следовательно, "вероятность его решения" равна 0,5.
210
ичевидно, что индивидуальная кривая испытуемого, характеризующая вероятность решить то или иное задание (дать ответ "да"), будет монотонно убывающей функцией.
В точке на шкале, где "трудность" равна "индивидуальной способности испытуемого", происходит "перегиб" функции. С ростом "способности" (развитием психологического свойства) кривая сдвигается вправо.
Главной задачей IRT является шкалирование пунктов теста и испытуемых.
Упростим исходную формулу модели, введя параметр V= e91-^:
Шанс на успех i-ro испытуемого при решении j-ro задания определяется отношением:
211
Если сравнить шансы двух испытуемых решить одно и то жej-е задание, то это отношение будет следующим:
Следовательно, разница в успешности решения задания испыту емыми не зависит от сложности задания и определяется лишь уров нем способности.
Нетрудно заметить, что в модели Раша отношение трудности заданий не зависит от способности испытуемых. Для того, чтобы убедиться в этом, достаточно проделать аналогичные простейшие пре образования, сравнивая вероятности ответов группы на два пункта, теста, а не вероятности ответов разных испытуемых.
где
Р,^— вероятность ответа на k-e задание для i-го испытуемого,U==
ев.-р,
и для неправильного ответа
Следовательно,
Для сравнения шансов на успех i-ro испытуемого решить задания k и п берем отношение:
Тем самым отношение шансов испытуемого решить два разных задания определяется лишь трудностью этих заданий.
Обратим внимание, что шкала Раша (в теории) является шкалой отношений.
Теперь у нас есть возможность ввести единицу измерения способности (в общем виде — свойства). Если взять натуральный лога-
21?
рифм от е1'" -pk или е9' -ет, то получается единица измерения "логит" (термин ввел Г.Раш), которая позволяет измерить и "силу пункта" (трудность задания), и величину свойства (способность испытуемого) в одной шкале.
Эмпирически эта процедура производится следующим образом. Предполагается, что данные тестирования и значения латентных переменных характеризуются нормальным распределением. Уровень "способности" испытуемого в "логитах" определяется на шкале интервалов с помощью формулы:
где
п — число испытуемых,
р^ — доля правильных ответов i-ro испытуемого на задания теста,
q^ — доля неправильных ответов,
Р,+Я,=1-
Для первичного определения трудности задания в логитах используют оценку
Р"= In ——, j=l,2,..„ п, Р,
где п — число заданий,
р, — доля правильных ответов для испытуемых группы Haj-e задание, q —доля неправильных ответов,
P+Q-1-
Хотя параметры (3 и 6 изменяются от "плюса" до "минуса". io при Р < — 6 значения р^ близки к единице, т.е. на эти задания практически каждый испытуемый дает правильный ("ключевой") ответ. При (3 > б с заданием не сможет справиться ни один испытуемый, точнее — вероятность дать "ключевой" ответ ниччожна.
Рекомендуется рассматривать лишь интервалы от — 3 до + 3 как для Р (трудности), так и для 6 (способность).
Второй этап шкалирования испытуемых и заданий сводится к тому, что шкалы преобразуются в единую путем "уничтожения" влияния трудности задания на результат индивидов. И наоборот, эли-
213
минируется влияние индивидуальных способностей на решение заданий различной трудности. Для шкалы испытуемых:
где
(3 — среднее значение логитов трудности заданий теста, W — стандартное отклонение распределения начальных значений
параметра (3, n — число испытуемых. Для шкалы заданий:
6 — среднее значение логитов уровней способностей,
V — стандарное отклонение распределения начальных значений "способности",
n — число заданий в тесте.
Эти эмпирические оценки используются в качестве окончательных характеристик измеряемого свойства и самого измерительного инструмента (заданий теста).
Если перед исследователем стоит задача конструирования теста, то он приступает к получению характеристических кривых заданий теста. Характеристические кривые могут накладываться одна на другую. В этом случае избыточные задания выбраковываются. На определенных участках оси 9 ("способность") характеристические кривые заданий могут вовсе отсутствовать. Тогда разработчик теста должен добавить задания недостающей трудности, чтобы равномерно заполнить ими весь интервал шкалы логитов от —6 до +6. Заданий средней трудности должно быть больше, чем на "краях" распределения, чтобы тест обладал необходимой дифференцирующей (различающей) силой.
Вся процедура эмпирической проверки теста повторяется несколько раз, пока разработчик не останется доволен результатом работы. Естественно, чем больше заданий, различающихся по уровню
214
трудности, предложил разработчик для первичного варианта теста, тем меньше итераций он будет проводить.
Главным недостатком модели Раша теоретики считают пренебрежение "крутизной" характеристических кривых: "крутизна" их полагается одинаковой.
Задания с более "крутыми" характеристическими кривыми позволяют лучше "различать" испытуемых (особенно в среднем диапазоне шкалы способности), чем задания с более "пологими" кривыми.
Параметр, определяющий "крутизну" характеристических кривых заданий, называют дифференцирующей силой задания. Он используется в двухпараметрической модели Бирнбаума.
Модель Бирнбаума аналитически описывается формулой
Параметра определяет "крутизну" кривой в точке ее перегиба;
его значение прямо пропорционально тангенсу угла наклона касательной к характеристической кривой задания теста в точкеЭ = (^.
Интервал изменения параметра а от—с^до +оо. Если значения а близки к 0 (для заданий разной трудности), то испытуемые, различающиеся по уровню выраженности свойства, равновероятно дают "ключевой" ответ на это задание теста. При выполнении такого задания у испытуемых не обнаруживается различий.
Парадоксальный вариант получаем при а < 0. В этом случае более способные испытуемые отвечают правильно с меньшей вероятностью, а менее способные — с большей вероятностью. Опытные психодиагносты знают, что такие случаи встречаются в практике тестирования очень часто.
Ф.Лорди М.Р.Новик в своей классической работе приводят формулы оценки параметра а. При а = 1 задание соответствует одно-215
параметрической модели Раша. Практики рекомендуют использовать задания, характеризующие значение а в интервале от 0.5 до 3.
Все психологические тесты можно разделить в зависимости oi формального типа ответов испытуемого на "открытые" и "закрытые". В тестах с "открытым" ответом, к которым относятся tcctwais Д.Векслераили методикадополнения предложений, испытуемый са\' порождает ответ. Тесты с "закрытыми" заданиями содержат варианты ответов. Испытуемый может выбрать один или несколько вариантов из предлагаемого множества. В тестах способностей (тес'1 Д.Равена, GABT и др.) предусмотрено несколько вариантов неправильного решения и один правильный. Испытуемый может применить стратегию угадывания. Вероятность угадывания ответа:
где
n — число вариантов.
Результаты эмпирических исследований показали, что относительные частоты решения "закрытых" заданий отклоняются от теоретически предсказанных вероятностей двухпараметрической модели Бирнбаума. Чем ниже уровень способностей испытуемого (низкие значения параметра 6), тем чаще он прибегает к стратегии угадывания. Аналогично, чем труднее задание, тем больше вероятность того, что испытуемый будет пытаться угадать правильный ответ, а не решать задачу.
Бирнбаум предложил трехпараметрическую модель, которая позволила бы учесть влияние угадывания на результат выполнения теста.
Трехпараметрическая модель Бирнбаума выглядит так:
Соответственно оценка "силы" пункта (трудности задания) вло-гистической форме модели
С характеризует вероятность правильного ответа на задание j в том случае, если испытуемый угадывал ответ, а не решал задание, т.е. при 9 —> 0. Для заданий с пятью вариантами ответов С = 0,2, с четырьмя вариантами — С = 0,25 и т.д.
Нетрудно заметить, что характеристическая кривая задания при учете параметра С становится более пологой, так как 0 < С < 1,но
216
при всех С = 0 кривая поднимается над осью 9 на величину С^. Тем самым даже самый неспособный испытуемый не может показать нулевой результат. Дифференцирующая сила тестового задания при введении параметра С снижается. Из этого следует нетривиальный вывод: тесты с "закрытыми" заданиями (вынужденным выбором ответа) хуже дифференцируют испытуемых по уровням свойства, чем тесты с "открытыми" заданиями.
Модель Бирнбаума не объясняет парадоксального, но встречающегося в практике тестирования феномена: испытуемый может реже выбирать правильный ответ, чем неправильный. Таким образом, частота решения некоторых заданий может не соответствовать предсказаниям модели Р < С, тогда как, согласно модели Бирнбаума, в пределе Р = С.
Рассмотрим еще одну модель, которую предложил В.С.Аванесов. Как мы уже заметили, в IRT не решается проблема валидности: успешность решения задачи зависит в моделях IRT только от одного свойства. Иначе говоря, каждое задание теста считается априорно валидным.
Аванесов обратил внимание на это обстоятельство и ввел дополнительный, четвертый, параметр, который можно обозначить как внутреннюю валидность задания. Успешность решения задания определяется не только "основной" способностью (9), но и множеством условий, нерелевантных заданию, однако влияющих надеятель-ность испытуемого.
Четырехпараметрическая модель представляет, по мнению ряда исследователей, лишь теоретический интерес:
где
у — валидность тестового задания.
Если у < 1, то тест не является абсолютно валиднным. Следовательно, вероятность решения задания не только определяется теоретически выделенным свойством, но и зависит от других психических особенностей личности.
Бирнбаум считает, что количество информации, обеспеченное j-м заданием теста, при оценивании 9 является величиной, обратно пропорциональной стандартной ошибке измерения данного значения 6 j-м заданием. Более подробно вычисление информационной функции рассмотрено в работе М.Б.Челышковой.
Многие авторы, в частности Пол Клайн, отмечают, что IRT обладает множеством недостатков. Для того, чтобы получить надеж-
217
ную и независимую от испытуемых шкалу свойств, требуется провести тестирование большой выборки (не менее 1000 испытуемых) Тестирован недостижений показывает, что существу ют значительные расхождения между предсказаниями модели и эмпирическими данными.
В 1978 г. Вуд доказал, чтолюбые произвольные данные могутбыть приведены всоогветствиес моделью Раша. Кроме того, существуе! очень высокая корреляция шкал Раша с классическими тестовыми шкалами (около 0,90).
Шкалирование, по мнению Раша, способно привести к образованию бессмысленных шкал. Например, попытка применить его модель к опроснику EPQ Айзенка породила смесь шкал N, Е, Р и L.
Главный же недостаток IRT — игнорирование проблемы валид-ности. В психологической практике не наблюдается случаев, когда ответы на задания теста были бы обусловлены лишь одним фактором. Даже при тестировании общего интеллекта модели 1'R.T неприменимы.
Клайн рекомендует использовать модели IRT для коротких тестов с валидными заданиями (факторно простые тесты).
В пособии Клайна "Справочное руководство по конструированию тестов" (Киев, 1994) приведен алгоритм конструирования тестов на основе модели Раша.
В заключение рассмотрим вероятностную модель тестов "уровня" Ф.М.Юсупова, аспиранта лаборатории психологии способностей Института психологии РАН. Его модель разработана для тестов с "закрытыми" заданиями (выбором ответов из множества), различающимися по уровню трудности. В "закрытых" тестах испытуемый может применить стратегию "угадывания" ответа. Вероятность угадывания
где
m — число альтернатив.
Сложность тестового задания
где
n — число испытуемых, способных решить задание, N — общее количество испытуемых в выборке валидизации. При W< P невозможно определить, решена задача случайно или за-
218
кономерно. Полагается, что биноминальное распределение вероятности успешного выполнения тестового задания при больших N аппроксимируется нормальным. Должны выполняться следующие условия:
1. Правильный ответ выбирается неслучайно, если:
его экспериментально полученная частота больше 1/т;
это превышение статистически значимо;
оценить его можно с помощью t-критерия Стьюдента.
2. Все ложные варианты ответов должны выбираться не чаще, чем случайные:
где
n — частота выбора неверного ответа.
Тем самым тестовое задание стимулирует испытуемого к выбору правильного ответа.
3. В тестах "уровня" диапазон изменения показателя сложности О < W S 1 должен быть уменьшен "слева" на величину W, значимо отличающуюся от W, в которой t = t^ (t — критерий Стьюдента). Чем больше вариантов ответов в тесте, тем меньше W и шире область допустимых значений показателя сложности тестового задания. Например, для N = 100, а = 0,05 (t^ = 1,90) и 10 > m > 3 расчет показывает, что уже при m > 6 скорость расширения области значений показателя сложности значимо замедляется. Поэтому рекомендуется выбирать 6— 10 вариантов ответа.
В тесте "уровня" число градаций сложности и число заданий связано. Чем точнее оценка свойства, тем больше число градаций. Но это влечет снижение достоверности измерения, так как длина теста (число задан и и) ограниченна. Уменьшение числа градаций приведет к нивелированию различий между испытуемыми.
Предельно возможное число заданий в тесте выбирается при условии, что различие в уровне их сложности гарантируется с выбранной вероятностью.
Поскольку дисперсия биноминального распределения максимальна в центре интервала 0 — 1 и уменьшается к периферии до 0, шаг градаций сложности на разных участках этого интервала будет различным: на периферии он должен стремиться к нулю.
Удобно принять в качестве шага градации сложности 1/10 интервала. Для а = 0,05, N = 100 получается 7 значений показателя сложности, что при шаге, равном 0,1, гарантирует различение между уровнями с вероятностью 0,9.
219
Если учесть условие минимизации случайного выбора правильного ответа, то число градаций сложности должно быть еще меньше. Например, при б вариантах ответа число заданий разного уровня сложности не может быть больше 6.
Эти выводы верны в том случае, если биноминальное распределение аппроксимируется нормальным распределением. При большом числе испытуемых такая аппроксимация возможна.
Расчеты показывают, что минимально необходимый объем выборки для апробации тестовых заданий не так уж и велик — 56 человек при достоверности 0,9.
Следовательно, исходя из вероятностной модели теста и не прибегая к допущениям о моделях тестирования, можно рассчитать параметры теста как предельные характеристики, обеспечивающие достоверность измерения.
Литература
Психологические измерения. М.: Мир, 1976. Наповян С. С. Математические методы в социальной психологии.
М.: Наука, 1983. Клайн П. Справочное руководство по конструированию тестов.
Киев,1994. ДюкВ.А. Компьютерная психодиагностика. СПб.: Братство, 1994.
Вопросы
1. Какие основные типы шкалы используются в психологических исследованиях?
2. В чем состоят отличия классической модели теста от теории выбора ответа (IRT)?
3. Что гакое "логит"?
4. Каким должно быть число уровней трудности заданий в тесте?
5. В каких случаях применяется шкалограммный анализ?
ГЛАВА 7 ИНТЕРПРЕТАЦИЯ И ПРЕДСТАВЛЕНИЕ РЕЗУЛЬТАТОВ
Содержание. Результаты эмпирического исследования и их представление. Принятие решения о гипотезе (подтверждение, опровержение). Ошибки первого и второго рода, их причины и средства минимизации. Обобщение экспериментальных результатов на другие выборки, другие условия эксперимента и на других экспериментаторов. Представление результатов исследования: графическое, символическое и вербальное. Требования к научному тексту. Структура и содержание научной статьи. Оформление научной статьи. Стандарт "Психологического журнала" и стандарт АРА (США).
Основные понятия. Принятие решения, ошибки первого и второго рода, достоверность, обобщение, текст, график, граф, диаграмма, полигон распределения, гистограмма, стандарт.
7.1. Результаты исследования, их интерпретация и обобщение
Автор этого учебника сознательно не включил главу с изложением методов математико-статистической обработки данных. Во-первых, существует обширная учебная литература, справочники и монографии, где эти вопросы изложены профессионально и подробно. Во-вторых, студенты-психологи изучают отдельный курс "Магема-тические методы в психологии", а попрактиковаться в их применении они могут, обрабатывая результаты лабораторных исследований на практикуме по общей психологии. Поэтому содержание этой главы начинается с того момента, когда данные исследования уже обработаны и представлены в той или иной форме. Кроме того, применение статистических критериев уже позволило сделать вывод о принятии или отвержении стагистической гипотезы Н, или Нд.
Предположим, что статистическая гипотеза о различии результатов экспериментальной и контрольной групп принята. Какие выводы мы можем сделать после обработки экспериментальных резуль-
221
татов? Итог любого исследования — преобразование "сырых" данных в решение об обнаружении явления (различий в поведении двух и более групп), о статистической связи или причинной зависимости. Подтверждение или опровержение статистической гипотезы о значимости обнаруженных сходств — различий, связей и т.д. должно быть интерпретировано как подтверждение (неопровержсние) или опровержение экспериментальной гипотезы. Как правило, исследователь пытается подтвердить гипотезу о различиях поведения контрольной и экспериментальной групп. Нуль-гипотеза — гипотеза о тождестве групп.
При статистическом выводе возможны различные варианты решений. Исследователь может принять или отвергнуть статистическую нуль-гипотезу, но она может быть объективно ("на самом деле") верной или ложной. Соответственно возможны четыре исхода: 1) принятие верной нуль-гипотезы; 2) отвержение ложной нуль-гипотезы; 3) принятие ложной нуль-гипотезы; 4) отвержение верной нуль-гипотезы. Два варианта решения правильны, два — ошибочны. Ошибочные варианты называются ошибками 1 -го и 2-го рода.
Ошибку 1-го рода исследователь совершает, если отвергает истинную нуль-гипотезу. Ошибка 2-го рода состоит в принятии ложной нуль-гипотезы (и отвержении верной исследовательской гипотезы о различиях).
Решение | Гипо | теза |
Нуль-гипотеза верпа | Исследовательская гипотеза верна | |
Отвержение нуль-гипотезы | Ошибка 1-го рода | Верное решение |
Принятие нуль-гнгкяезы | Верное решение | Ошибка 2-го рода |
Чем больше число испытуемых и опытов, чем выше статистическая достоверность вывода (принятый уровень значимости), тем меньше вероятность совершения ошибок 1 -го рода. Например, если при к =0,1 слабые различия между средним,', определенные с помощью t-критерия, могут быть значимыми, то прлос= 0,05 исс= 0,001 значимых различий мы можем не получить.
Ошибка 1 -го рода особо значима в уточняющем (конфирматор-ном) эксперименте, а также в тех случаях, когда принятие неверной гипотезы о различиях имеет практическую значимость. Допустим,
222
принятие ложной гипотезы об ишеллектуальных различиях представителей разных социальных страт или этнических групп имее1 чрезвычайно значимые социально-политические следствия.
Ошибка 2-го рода — отвержение верной исследовательской гипотезы и принятие нуль-гипотезы — особенно существенна при проведении пробного (эксплораторного) эксперимента. Отклонение исследовательской гипотезы на начальной стадии может надолго закрыть дорогу исследователям вданной предметной области. Поэтому уровень статистической достоверности при проведении эксплораторного эксперимента на малых выборках стремятся понизить, т.е. выбирают а=0,1 или а = 0,05. Исследователю, разумеется, приятнее получить подтверждение своим собственным мыслям, поэтому субъективная значимость ошибок 2-го рода значительно ниже, чем субъективная значимость ошибок 1 -го рода.
Но для науки как сферы человеческой деятельности важнее получить максимально достоверное знание, а не "засорять" научные журналы невалидными и ненадежными результатами. Поэтому стратегия исследований в любой обласги психологической науки такова: переход от эксплораторного (поискового) эксперимента к кон-фирматорному (уточняющему), от низких уровней достоверности — к высоким, от исследований на малых выборках — к исследованиям набольших.
В конкретных же исследованиях значимость ошибок 1-го и 2-го рода может сильно зависеть от целей, которые преследуются в эксперименте, от предмета изучения и характера решаемой исследовательской задачи и т.д. В обыденной жизни и профессиональной мы часто сталкиваемся с такими ситуациями, когда нам надо оценить сравнительную значимость ошибок 1 -го и 2-го рода. Например, судья или присяжные, определяя виновность или невиновность подсудимого, должны для себя решить, что более значимо: признать невиновного виновным или виновного невиновным. Установка на "гуманность" диктует правило: пусть будут оправданы десять преступников, чем пострадает один невиновный. "Репрессивная" установка предполагает другое правило: пусть пострадаю г десять невиновных, лишь бы один виновный не ушел от наказания.
Принятие или отвержение статистической гипотезы не является единственным условием принятия или не принятия экспериментальной гипотезы. Если статистическая гипотеза отвергнута, то исследователь может это реализовать по-разному. Он может завершить эксперимент и предпринять попытку выдвижения новых гипотез. Экспериментатор может провести новое исследование на расширенной выборке с использованием модифицированного эксперимен-
223
тального плана и т.д. "Отрицательный" результат, как говорят опытные экспериментаторы, тоже результат.
С позиций критического рационализма "отрицательные" выводы, отвергающие экспериментальную гипотезу, — это главный рс-зультатлюбого эксперимента, так как сам эксперимент есть способ выбраковки нежизнеспособных гипотез. Отклонение экспериментальной гипотезы отнюдь не означает, что теорию, следствием которой она являлась, следует сразу отбросить. Возможно, неверно сформулирована теоретическая гипотеза: в прямой вывод из теории может вкрасться ошибка. Не исключено, что теоретическая гипотеза верна, но ее экспериментальная версия некорректно сформулирована. При этом зачастую даже подтверждение экспериментальной гипотезы не свидетельствуете подтверждении теории. Допустим, исходя из концепции фасилитации, мы предполагаем, что эмоциональная поддержка действий испытуемого будет приводить к более успешному решению задач. Но вместо превентивной эмоциональной поддержки любых проявлений интеллектуальной активности мы в эксперименте поощряли испытуемого за хорошую работу по окончании решения задания. Разумеется, эффект будет обнаружен, но никакого отношения к исходной теоретической гипотезе он не имеет.
Рассмотрение различных частных случаев подтверждения или неподтверждения конкретных экспериментальных гипотез — дело увлекательное и вполне доступное любому студенту, который усвоил азы психологического экспериментирования. Предположим, что экспериментальная гипотеза подтверждена или, следуя строгой логике К.Поппера, не опровергнута. Требуется решить проблему обобщения результатов эксперимента: на какие группы испытуемых могут быть распространены выводы, в каких внешних условиях будут воспроизводиться результаты, не будетли влиять на результаты исследования смена экспериментатора?
В отличие от классического естествознания, экспериментальный результат в психологии должен быть инвариантен (неизменен) по отношению не только ко всем объектам данного типа, к пространственно-временным (и некоторым другим) условиям проведения эксперимента, но и к особенностям взаимодействия экспериментатора и испытуемого, а также к содержанию де>, "ельности испытуемого.
1. Обобщение по отношению к объектам. Если мы провели эксперимент на 30 испытуемых — мужчинах в возрасте от 20 до 25 лет, принадлежащих к семьям из среднего класса, обучающихся на 2—3-м курсах университета, то, очевидно, нужно решить следующую проблему: на какую популяцию распространить результаты? Предель-
224
ным обобщением будет oi несение выводов ко всем представителям вида Homo sapiens. Обычно исследователи заканчивают первую экспериментальную часть своей работы предельно широким обобщением. Дальнейшая исследовательская практика сводится не только к уточнению, но и к сужению диапазона применимости найденных закономерностей.
Исследования Скиннера по оперантному обучению на крысах, голубях и др. дали результаты, которые автор распространил на представителей других видов, занимающих верхние ступени эволюционной лестницы, в том числе и на человека. Эксперименты И.П.Павлова по выработке классических условных рефлексов у собак позволили выявить закономерности высшей нервной деятельности, общие для всех высших животных. Феномены Ж.Пиаже воспроизводятся при исследовании групп детей во Франции, США, России, Израиле и т.д.
Ограничителями генерализации выступают внепсихологические характеристики популяции: 1) биологические и 2) социокультурные.
К основным биологическим характеристикам относятся пол, возраст, раса, конституциональные особенности, физическое здоровье. В дифференциально-психологическом исследовании выявляются изменения зависимости между двумя переменными, которые относятся к дополнительным признакам объекта изучения.
Социокультурные особенности являются вторым важнейшим ограничением обобщения результатов. Решается проблема возможности распространения данных на представителей других народов и культур в кросскультурных исследованиях. Аналогичная работа проводится по уточнению влияния на результаты эксперимента таких дополнительных переменных, как уровень образования и уровень доходов испытуемых, классовая принадлежность и т.д.
Бывает, что результаты эксперимента можно применить лишь к той популяции, представители которой вошли в состав экспериментальных групп. Но и в этом случае существует проблема: можно ли данные, полученные на экспериментальной выборке, распространить на всю популяцию? Решение этой проблемы зависит от того, насколько в ходе планирования исследования и формирования экспериментальной выборки соблюдалось требование репрезентативности.
Для проверки выводов, во-первых, проводят дополнительные эксперименты на группах представителей той же популяции, не вошедших в первоначальную выборку. Во-вторых, стремятся максимально увеличить в уточняющих экспериментах численность экспериментальной и контрольных групп.
8 Экспериментальная психология 225
2. Условия исследования. В психологическом эксперименте важны не столько пространственно-временные факторы (в отличие от физического), сколько условия деятельности испытуемого, а тем более — особенности заданий. В какой мере влияют на результат вариации инструкции, материала заданий, действий испытуемого, предусмотренных в ней, вид мотивации, присутствие или отсутствие "обратной связи"? На все эти вопросы нельзя ответить, ограничившись проведением одного эксперимента. Исследователь должен варьировать в последующих экспериментальных сериях дополнительные переменные, относящиеся к характеристикам экспериментального задания, чтобы установить, являются ли результаты инвариантными по отношению к задаче испытуемого.
Классическим примером влияния особенностей задачи, решаемой испытуемым, на результат эксперимента стали психофизические исследования абсолютных порогов чувствительности.
"Слепой опыт" позволяет исключить влияние на результат знания испытуемого о том, когда и какое воздействие он получает.
3. Экспериментатор. Проблеме влияния экспериментатора на результаты исследования было уделено достаточно внимания в этой книге. Следуетлишь напомнить, что психология, в отличие от других научных дисциплин, не может полностью исключить, "вынести за скобки" влияние личностных черт, мотивации, компетентности исследователя в ходе эксперимента.
"Двойной слепой опыт" позволяет контролировать влияние ожиданий экспериментатора на результаты исследования. Однако полный контроль воздействия индивидуальных особенностей экспериментатора предполагает применение факторного плана вида Кх Lx х М, где в качестве дополнительной переменной выступают экспериментаторы, различающиеся по полу, национальной принадлежности, возрасту, индивидуально-психологическим особенностям и т.д.
Инвариантность результатов по отношению к личности экспериментатора особенно часто нарушается в социально-психологических и дифференциально-психологических исследованиях.
Вариация результатов исследования, определяемая влиянием экспериментатора, описана в большинстве практических руководств по проведению психологического эксперимента.
Подведем итог. Исследователь может совершить две ошибки относительно гипотезы: 1) принять неверную экспериментальную гипотезу и 2) отвергнуть верную экспериментальную гипотезу. В экс-плораторном (поисковом) эксперименте опаснее ошибка 2-го рода. В конфирматорном (уточняющем) эксперименте большее значение
226
имеет ошибка 1-го рода. Увеличение объема выборки и статистической достоверности вывода способствует минимизации ошибки 1-го рода.
Исследователя подстерегает опасность неправомерного обобщения результатов исследования. Ограничителями генерализации результатов выступают: 1) особенности выборки; 2) содержание эксперимента (задания испытуемому, воздействия, среда), 3) личность экспериментатора.
Возможны две стратегии проведения дополнительных исследований: 1) ограничение генерализации путем введения дополнительных переменных в план эксперимента; 2) индуктивный путь на основе перепроверки результатов на других рандомизированных экспериментальных выборках.
Процедура эксперимента никогда не может дать абсолютно достоверного знания, так как индукция принципиально неполна. Эксперимент — это лучший способ критики и отбора идей, но не лучший способ порождения нового знания.
7.2. Форма представления результатов исследования
Завершением любой исследовательской работы является представление результатов в той форме, которая принята научным сообществом. Следует различать две основные формы представления результатов: квалификационную и научно-исследовательскую.
Квалификационная работа — курсовая работа, дипломная работа, диссертация и т.д. — служит для того, чтобы студент, аспирант или соискатель, предоставив свой труд на суд экспертов, получил документ, удостоверяющий уровень компетентности. Требования к таким работам, способу их оформления и представления результатов изложены в инструкциях ВАК, положениях, принятых учеными советами, и вдругихстольжесолидныхдокументах. Нас интересует вторая форма — представление результатов научной работы.
Условно виды представления научных результатов можно разделить еще на три подвида: 1) устные изложения; 2) публикации; 3) компьютерные версии. Но все они относятся к тем или иным вариантам представления текстовой, символической и графической информации. Поэтому разговор о способах оформления и представления научных результатов целесообразно начать с характеристики методов описания данных.
8*
227
Наиболее детально этог вопрос рассмотрен в работе В.А.Ганзена "Системные описания в психологии" (1984). Под описанием понимается любая форма представления информации о полученных в исследовании результатах. Различают следующие варианты представления информации: вербальная форма (текст, речь), символическая (знаки, формулы), графическая (схемы, графики), предметно-образная (макеты, вещественные модели, фильмы и др.).
В человеческом сообществе основным способом передачи информации является слово. Поэтому любое научное сообщение — это прежде всего текст, организованный по определенным правилам. Различают два вида текстов: на естественном языке ("природном", обыденном) и научном языке. Любое представление результатов исследования по сути своей является текстом "смешанного" вида, где в естественно-речевую структуру включены "куски", сформулированные настрого понятийном языке. Эти языки нельзя строго разграничить, ибо все время происходит взаимопроникновение языков житейского и научного: научные термины входят в повседневное обращение, а наука черпает из естественного языка слова для обозначения вновь открытых сторон реальности. Например, мы свободно употребляем в повседневной речи слова, изобретенные учеными:
"кислород" (М.Ломоносов), "экстраверсия" (К.Юнг), "условный рефлекс" (И.Павлов), "кварк" (Д.ГеллМан). С другой стороны, в теорию элементарных частиц вошли слова "цвет", "очарованность", "странность" для обозначения состояний кварков. В психологии в качестве научных терминов употребляются такие слова: "память", "мышление", "внимание", "чувство" и т.д. И вместе с тем, в отличие от обыденного языка, научный термин имеет однозначное предметное содержание. А главное — значение научного термина определяется его местом в системе терминов данной науки, теории или модели. В психологии грань между научной и обыденной терминологией весьма тонка, поскольку читатель всегда может привнести значение из обыденного языка в свою интерпретацию психологического научного текста. Это порождает дополнительную трудность для автора-психолога.
Главное требование к научному тексту — последовательность и логичность изложения. Автор должен по возможности не загружать текст избыточной информацией, но может использовать метафоры, примеры и "лирические отступления" для того, чтобы привлечь внимание к особо значимому для понимания сути звену рассуждений. Научный текст, в отличие от литературного текста или повседневной речи, очень клиширован — в нем преобладают устойчивые структуры и обороты. В этом он сходен с "канцеляритом" — бюрократи-
228
ческим языком деловых бумаг. Роль этих штампов чрезвычайно важна — внимание читателя не отвлекается на литературные изыски или неправильности изложения, а сосредоточивается на значимой информации: суждениях, умозаключениях, доказательствах, цифрах, формулах. "Наукообразные" штампы на самом деле играют важную роль "рамок", стандартной установки для нового научного содержания. Конечно, встречаются ученые — великолепные стилисты (какими, например, были Б.М.ТепловиА.Р.Лурия), но этот дар все же часто украшает произведения литераторов и философов (вспомним Ортегу-и-Гассета, А.Бергсона и многих других).
Текст состоит из высказываний. Каждое высказывание имеет определенную логическую форму. Причинная зависимость, например, выражается импликативной формой "если А, то В", хотя, как показал Пиаже, в психологии импликативное объяснение и причинное объяснение отнюдь не тождественны. Существуют основные логические формы высказывания: 1) индуктивное — обобщающее некоторый эмпирический материал; 2) дедуктивное —логический вывод от общего к частному или описание алгоритма; 3) аналогия — "транс-дукция"; 4) толкование или комментарий — "перевод", раскрытие содержания одного текста посредством создания другого.
Следующая форма описания результатов — геометрическая. Геометрические (пространственно-образные) описания являются традиционным способом кодирования научной информации. Поскольку геометрическое описание дополняет и поясняет текст, оно "привязано" к языковому описанию. Геометрическое описание наглядно. Оно позволяет одновременно представить систему отношений между отдельными переменными, исследуемыми в эксперименте. Информационная емкость геометрического описания очень велика.
В психологии используется несколько основных форм графического представления научной информации: опирающиеся на характеристики топологические и метрические. Один из традиционных способов представления информации, использующих топологические характеристики, — это графы. Напомню, что графом является множество точек (вершин), соединенных ребрами (ориентированными или неориентированными отрезками). Различают графы: пла-нарные и пространственные, ориентированные (отрезки-векторы) и неориентированные, связные и несвязные. В психологических исследованиях графы используются очень часто при описании результатов. Многие теоретические модели исследователи представляют в виде графов. Примеры: иерархическая модель интеллекта Д.Векслера или модель интеллекта Ч.Спирмена; они представлены в форме дендритных несимметричных графов. Схема функциональ-
229
ной системы П.К.Анохина, схема психологической функциональной системы деятельности В.Д.Шадрикова, модель концептуальной рефлекторной дуги Е.А.Соколова — примеры ориентированных графов.
Вернемся к описанию результатов. Чаще всего ориентированные графы используются при описании системы причинных зависимостей между независимой, дополнительными и зависимой переменными. Неориентированные графы применяются для описания системы корреляционных связей между измеренными свойствами психики. "Вершинами" обозначаются свойства, а "ребрами" — корреляционные связи. Характеристика связи обычно кодируется разными вариантами изображения ребер графа. Положительные связи изображаются сплошными линиями (или красным цветом), отрицательные связи — пунктиром (или синим цветом). Сила и значимость связи кодируются толщиной линии. Наиболее весомые признаки (с максимальным числом значимых связей с другими) помещаются в центре. Признаки, имеющие меньший "вес", располагаются ближе к периферии.
От системы корреляционных связей можно перейти к отображению "расстояний" между признаками на плоскости. Расстояние вычисляется по известной формуле:
метров и отношения между элементами (либо метрические, либо топологические). Примером является известное описание структуры интеллекта — "куб" Д.Гилфорда. Другой вариант применения пространственного описания — пространство эмоциональных состояний по В.Вундту или же описание типов личности по Г.Айзенку ("кругАйзенка").
В случае если в пространстве признаков определена метрика, то используется более строгое представление данных. Положение точки в пространстве, изображенном на рисунке, соответствует реальным координатам ее в пространстве признаков. Таким способом представляются результаты многомерного шкалирования, факторного анализа, латентно-структурного анализа и некоторых вариантов кластерного анализа.
Каждый фактор отображается осью пространства, а параметр поведения, измеренный нами, — точкой в этом пространстве. В других случаях, в частности при описании результатов дифференциально-психологических исследований, точками изображаются испытуемые, осями — главные факторы (или латентные свойства).
Для первичного представления данных используются другие графические формы: диаграммы, гистограммы и полигоны распределения, а также различные графики.
Первичным способом представления данных является изображение распределения. Для отображения распределения значений измеряемой переменной на выборке используют гистограммы и полигоны распределения. Часто для наглядности распределение показателя в экспериментальной и контрольной группах изображают на одном рисунке.
Гистограмма — это "столбчатая" диаграмма частотного распределения признака на выборке. Используется декартова система координат. При построении гистрограмм на оси абсцисс откладывают значения измеряемой величины, а на оси ординат — частоты или относительные частоты встречаемости данного диапазона величины в выборке. Если на гистрограмме отображены относительные частоты, то площадь всех столбиков равна 1.
В полигоне распределения количество испытуемых, имеющих данную величину признака (или попавших в определенный интервал величины), обозначают точкой с координатами: Х — градация признака, Y— частота (количество людей) конкретной градации или относительная частота (отнесение количества людей с этой градацией признака ко всей выборке). Точки соединяются отрезками прямой. Перед тем, как строить полигон распределения, или гистро-грамму, исследователь должен разбить диапазон измеряемой вели-
231
где
d —расстояние,
г— корреляция.
Расстояния отражают сходства—различия признаков. В этом случае от топологического описания мы переходим к метрическому, поскольку расстояния между вершинами графа (свойствами) становятся пропорциональными величинам корреляций с учетом знака: при г= = —1 расстояние максимально: d = 1, при г = 1 расстояние минимально: d==0.
Ориентированные и неориентированные графы часто применяются при описании результатов личностных и социально-психологических исследований, в частности социометрических: социограм-ма — это ориентированный граф.
Любая граф-схема изоморфна матрице (предположений, корреляций и т.д.). Для удобства восприятия не рекомендуется использовать при описании результатов графы более чем с 10—11 вершинами.
Наряду с графами в психологии применяются и пространственно-графические описания, в которых учитывается структура пара-
230
чины, если признак дан в шкале интервалов или отношений, на равные отрезки. Рекомендуют использовать не менее 5, но не более 10 градаций. В случае использования номинальной или порядковой шкалы такой проблемы не возникает.
Если исследователь хочет нагляднее представить соотношение между различными величинами, например, доли испытуемых с разными качественными особенностями (количество мужчин и женщин в выборке, число давших разные типы ответов в эксперименте и т.д.), то ему выгоднее использовать диаграмму. В секторной круговой диаграмме величина каждого сектора пропорциональна величине встречаемости каждого типа. Величина круговой диаграммы может отображать относительный объем выборки или значимость признака.
Вариантом отображения информации, переходным от графического к аналитическому, являются в первую очередь графики, представляющие функциональную зависимость признаков. Собственно говоря, полигон распределения — это и есть отображение зависимости частоты встречаемости признака от его величины.
Идеальный вариант завершения экспериментального исследования — обнаружение функциональной связи независимой и зависимой переменных, которую можно описать аналитически.
Условно выделим два различных по содержанию типа графиков:
1) отображающие зависимость изменения параметров во времени;
2) отображающие связь независимой и зависимой переменных (или любых двух других переменных). Классическим вариантом изображения первой зависимости является обнаруженная Г.Эббингаузом связь между объемом воспроизведенного материала и временем, прошедшим после заучивания. Аналогичны многочисленные "кривые научения" или "кривые утомления", показывающие изменение эффективности деятельности во времени.
Графики функциональной зависимости двух переменных также не редкость в психологии: законы Фехнера, Стивенса (в психофизике), Йеркса—Додсона (в психологии мотивации), закономерность, описывающая зависимость вероятности воспроизведения элемента от его места в ряду (в когнитивной психологии), и т.д. и т.п.
Существует ряд простых рекомендаций по построению графиков. В частности, Л.В.Куликов дает следующие советы начинающим исследователям:
1. График и текст должны взаимно дополнять друг друга.
2. График должен быть понятен "сам по себе" и включать все необходимые обозначения.
3. На одном графике не разрешается изображать больше четырех кривых.
232
4. Линии на графике должны отражать значимость параметра, важнейшие необходимо обозначать цифрами.
5. Надписи на осях следует располагать внизу и слева.
6. Точки на разных линиях принято обозначать кружками, квадратами и треугольниками.
Если есть необходимость на том же графике представить величину разброса данных, то их следует изображать в виде вертикальных отрезков, чтобы точка, обозначающая среднее, находилась на отрезке (в соответствии с показателем асимметрии).
Видом графиков являются диагностические профили, которые характеризуют среднюю выраженность измеряемых показателей у группы или определенного индивида.
Наиболее важный способ представления результатов научной работы — числовые значения величины: 1) показатели центральной тенденции (среднее, мода, медиана); 2) абсолютные и относительные частоты; 3) показатели разброса (стандартное отклонение, дисперсия, процентильный разброс); 4) значения критериев, использованных при сравнении результатов разных групп; 5) коэффициенты линейной и нелинейной связи переменных и т.д. и т.п. Стандартный вид таблиц для представления первичных результатов: по строкам — испытуемые, по столбцам — значения измеренных параметров. Результаты математической статистической обработки также сводятся в таблицы.
Существующие компьютерные пакеты статистической обработки данных позволяют выбратьлюбую стандартную форму таблиц для представления их в научной публикации.
Итогом обработки данных "точного" эксперимента является аналитическое описание полученных зависимостей между независимыми и зависимыми переменными. Если до недавних пор в психологии для описания результатов использовались преимущественно элементарные функции, то сегодня исследователи работают практически со всем аппаратом современной математики. К числу простейших аналитических выражений, описывающих эмпирически полученные зависимости, относятся, например, психофизические "законы" Г.Фехнера или С.Стивенса. Не меньшую известность получили законы У.Хика и Р.Хаймета, по которым определяется зависимость времени реакции выбора от числа альтернатив:
t=klog(n+ 1) и
t = а + Ь log n,
233
где
t — время реакции выбора,
n — число стимулов,
a, b и k — константы.
Аналитические описания, как правило, итоговое обобщение не одного, а серии исследований, проведенных разными авторами. Поэтому они редко являются завершением отдельной экспериментальной работы.
Конкретный вид функциональной зависимости выступает в качестве содержания гипотезы, которую проверяют в критическом эксперименте.
Итак, представление научной информации должно определяться следующим алгоритмом:
7.3. Требования к оформлению научной статьи
Имеется несколько вариантов текстового представления научных результатов: а) тезисы научного доклада; б) отчет о научно-исследовательской работе; в) письмо в редакцию (краткое сообщение о научных результатах; г) статья в научном журнале либо в сборнике научных работ; д) научная монография.
Основной формой научной публикации является статья в научном журнале. Существуют общепринятые требования, предъявляемые к научной статье. Стандарт подготовки рукописи "Психологического журнала" приводится в Приложении 3.
В США используется стандарт оформления статьи, принятый АРА (Американская психологическая ассоциация). В титуле статьи указываются имя и фамилия автора (авторов) и место его работы. Заго-
234
ловок статьи краткий (не более 15 слов). Он должен кратко информировать читателя о сути исследования. Статью сопровождает изложение содержания (abstract) — не более 100— 175 слов: информация о проблеме исследования, его предмете, об испытуемых, о методе, результатах и главные выводы. Резюме содержания статьи идет в реферативный журнал "Psychological Abstracts". В журналах АРА краткое резюме принято предпосылать статье, во многих других журналах оно помещается в конце статьи.
Введение. В начале введения предлагается постановка проблемы. Затем излагается обзор исследований предшественников. Приводятся основные методы, с помощью которых осуществлялись прежние исследования, а также анализируются противоречия в результатах, полученных до настоящего момента. Автор дает теоретическое обоснование своего исследования. Излагаются гипотеза и способ ее проверки. Приводится список изучаемых и контролируемых переменных (зависимая, независимая, дополнительные и другие внешние переменные), а также дается прогноз исхода исследования.
Метод. Основные сведения о методе помещаются еще во введении. В этом разделе полностью раскрываются все особенности процедуры исследования. Читателю предоставляется информация о плане исследования таким образом, чтобы другой психолог мог его воспроизвести по описанию. Дается характеристика выборки испытуемых, рассказывается о стратегии формирования групп. Дается информация о внешних условиях, времени проведения исследования и т.д. Очень подробно описывается процедура исследования. Автор предоставляет читателю информацию об алгоритме работы экспериментатора (инструкция экспериментатора). Приводится полностью инструкция испытуемому, описывается способ предъявления инструкции. Рассказывается о способах управления независимой переменной, об измерении зависимой переменной и о приемах контроля внешних переменных. Специально оговариваются приемы балансировки, контрбалансировки, стабилизации внешних условий, способы общения между испытуемыми и экспериментатором и т.д.
Методики и аппаратура. При описании методики и аппаратуры следует указать конкретное название модели и ее спецификацию. Обычно уникальная аппаратура описывается детально. Стандартная техника и стандартизированные методики (тесты) в подробном описании не нуждаются. Но при описании используемых тестов необходимо точно указать их название, дату, место и авторов валидиза-ции или ревалидизации, основные психометрические характеристики, а также учреждение — производителя теста. Пример: культурно свободный тест интеллекта Р.Кеттела (GFT-2), авторы адапта-
235
пии — А.Ф.Денисов, Е.Д.Дорофеев, производство — ГП "ИМА-ТОН", Санкт-Петербург, 1994.
Исходя из специфики эксперимента, в описание метода могут включаться и другие моменты.
Результаты. Главный раздел статьи посвящается представлению и анализу результатов. В начале эюго раздела рекомендуется напомнить постановку проблемы и исходную гипотезу. Затем сжато, с соответствующими значениями показателей, а также значениями критериев и уровня достоверности, приводятся основные результаты. Дается представление об общей структуре результатов и их статистической значимости.
Для пояснения и иллюстрации результатов в статье приводятся таблицы и рисунки. В стандарте, принятом АРА, указано, что автор не должен включать таблицы и графики в текст статьи, а должен помещать их в конце текста. Каждая таблица или рисунок представляются на отдельном листе. Нумерация таблиц и рисунков должна соответствовать последовательности ссылок на них в тексте. Поскольку в тексте они не приводятся, в нужном месте дается ссылка на таблицу или график.
Обсуждение результатов. В этой части автор статьи обязан привести выводы из полученных данных, соотнести их с исходной гипотезой и результатами предшественников. Автор должен объяснить исход эксперимента, руководствуясь теоретическими или методическими соображениями. Кроме того, он может выдвину! ь дополнительные гипотезы для объяснения, предложения по совершенствованию или опровержению теории, на которую он опирался, проводя исследование. Обычно приводятся суждения о возможности обобщения результатов исследования, о перспективах дальнейших экспериментальных исследований в этой области, а также отом, как можно использовать полученные результаты на практике.
Ссылки на источники. Список использованной литературы представляется на отдельной странице. Стиль АРА предусматривает, чтобы в тексте при ссылке давалась фамилия автора и дата публикации, например: (Adams, 1970) или Adams (1970). Публикация примечаний не входит в стандарт АРА.
На последних страницах статьи помещаются таблицы, графики и примечания. Реферируемые источники и ссылка, например, "Smith (примечание I)" идут на первом отдельном листе. Каждая таблица или график также представляются на отдельной странице. Надписи в стандарте АРА пишутся над таблицами: сначала следует номер таблицы (Table 1), под ней — название, указывающее нато, связи каких переменных отражают представленные данные. Обычно по столб-
236
цам обозначаются группы испытуемых, а по строкам — условия эксперимента.
Интересующиеся могут подробнее ознакомиться со стандартом АРА. обратившись к любому издаваемому ассоциацией научному журналу.
В стандарте АРА приняты некоторые аббревиатуры для общепринятых названий и буквенные сокращения для основных статистических терминов. Приведем перечень ряда сокращений:
Миннесотский многофакторный личностный опросник — MMPI Коэффициент интеллекта — ю Хронологический возраст _ са Время реакции — RT Сокращения статистических терминов:
М — среднее (оценка математического ожидания);
SD — стандартное отклонение;
Mdn — медиана;
df— число степеней свободы;
п — количество субъектов в группе;
N — общее количество субъектов;
Р — уровень достоверности;
SS — сумма квадратов;
MS — среднее квадратов;
г— коэффициент корреляции Пирсона.
Итак, стандарт АРА предлагает следующую структуру научной публикации:
1. Титульный лист
2. Краткое изложение (abstract)
3. Основной текст: название (над статьей) и введение, метод, результаты, обсуждение
4. Основной реферируемый источник
5. Список литературы (ссылки)
6. Примечания
7. Таблица
8. Название графика
9. График
Можно еще раз привести несколько полезных рекомендаций, касающихся стиля написания работы:
—излагать свои идеи следует упорядочение, разбивая по смыслу изложения на абзацы и параграфы;
— писать следует по возможности просто и кратко;
—нужно избегать двусмысленностей;
—статья пишется для читателя, поэтому автору не мешает прочитать ее перед публикацией самому.
237
В руководстве АРА (1974) приводится еще несколько советов по поводу стиля научной статьи. Рекомендуется при формулировке предложений избегать пассивного залога. Слова "критерий", "феномен" и др. давать во множественном числе: "критериями были...". Автор может представлять себя в первом лице — "Я" — в подходящих случаях и умеренно. В отличие от других научных дисциплин, где не приветствуют употребление местоимения "Я", в психологии признается право автора высказывать мнение от себя лично. Руководство АРА рекомендует отказаться от "сексизма" при написании статей, а именно — исключительного употребления мужского рода для характеристики испытуемых. Например, считается, что слова "индивидуальность", "личность", "человек" ("human being") предпочтительнее, чем обобщенное "man" (по-английски — и человек, и мужчина). Здесь проявляется специфика английского языка, американской культуры. Точнее — успехи движения женщин за равноправие, приобретающего в США анекдотические формы.
Опубликованные результаты входят в информационный поток, который "растекается" по ручейкам и доходит до каждого пользователя. На совести автора — достоверность научных результатов. Огромная сила науки — в ее неподвластности субъективным влияниям, которые обусловлены разной человеческой мотивацией: тщеславием, властолюбием, завистью и т.п. "Позолота сотрется, свиная кожа останется" — "информационный шум" пустых публикаций затихнет, а дутые репутации лопнут. Для исследователя важно не пропустить "сигнал" —действительно ценную работу среди массы второстепенных. Но самая непростительная ошибка — попустительство группам, кланам, кликам, которые стремятся ограничить возможность реализовать интересные мысли, идеи, разработки ученых, не принадлежащих к "неформальным группам". Затоптать истину на время можно. Хорошо, что не навсегда.
Открытое общество создает предпосылки для проявления активности личности, но не гарантирует от попыток навязать научному сообществу вненаучные принципы. Эксперимент — надежное средство критики любой идеи, которая навязывается научному сообществу.
Литература
Гласе Дж., Стенли Дж. Статистические методы в педагогике и
психологии. М.: Прогресс, 1976.
ГанзенВ.А. Системные описания в психологии. Л.: ЛГУ, 1984. Крылов В. Ю. Геометрическое представление данных в психологических исследованиях. М.: Наука,1990.
238
Вопросы
1. Чем отличается ошибка 1 -го рода от ошибки 2-го рода при принятии решения?
2. Каковы ограничения генерализации выводов и результатов экспериментальной работы?
3. Какой должна быть примерная структура научной статьи?
4. Какие требования к оформлению научной публикации предъявляет редакция "Психологического журнала"?
5. Как интерпретируется "отрицательный" результат эксперимента?
ЗАКЛЮЧЕНИЕ
Психолог, который занимается экспериментальной работой, вряд ли почерпнет что-то новое в этой книге. По своему содержанию она мало чем отличается от многочисленных, в первую очередь зарубежных, учебников, посвященных методам психологического исследования. Но для студентов-психологов, а также специалистов других областей она может быть полезной.
Сегодня наука находится в обороне: слишком велик напор адептов околонаучного и псевдонаучного знания, претендующих на истину в последней инстанции. Длительный и кропотливый поиск истины в эксперименте непрестижен, плохо оплачивается, а главное — экспериментальная критика недостоверного знания, фантазий и мифов не прощается.
Психолог-экспериментатор может найти утешение в следовании морали стоиков или же в словах великого Макса Нордау, которые я приведу в завершение этой работы:
"Конечно, тот, кто требует от науки, чтобы она с непоколебимою уверенностью отвечала на все вопросы праздных или беспокойных умов, терпит разочарование, потому что она не хочет и не может удовлетворять этому требованию. Всякого рода метафизика облегчает себе задачу: она сочинит какую-нибудь побасенку и рассказывает ее вполне серьезно. Когда люди ей не верят, сочинители бранятся и угрожают; но они ничего не могут доказать, они не могут заставить людей принимать их фантасмагории за чистую монету. Это их, однако, не смущает: им ничего не стоит прибавлять к словам новые слова, к недоказанным положениям — новые недоказанные положения, воздвигать на одном догмате новые догматы. Серьезный и нормальный ум, жаждущий и алчущий точного знания, не будет обращаться к метафизике: к ней обращаются только те, кого может удовлетворить убаюкивающая сказка старой няни.
Наука не соперничает ни с метафизикою, ни с богословием. Если последние раскрывают тайну мироздания, то это ихдело. Наука же скромно говорит: "Вот — факт, вот — гипотеза, вот — предположение. Я не могу дать больше без обмана". За столом науки есть место для всех, и всякий может присоединить свои наблюдения к наблюдениям других" (М.Нардау. "Вырождение". М., 1995).
240
СПИСОК ЛИТЕРАТУРЫ
Адлер Ю.Л. Предпланирование эксперимента. М., 1978. Аванесов В. С. Тесты в социологическом исследовании М • Наука, 1982.
АйвазянС.А.. БухштаберВ.М., ЕноковИ.С., МешалкинЛ.Д. Прикладная статистика: классификация и снижение размерности. М.: Финансы и статистика, 1989.
Айвазян С.А., ЕноковИ.С., МешалкинЛ.Д. Прикладная статистика: исследование зависимостей. М.: Финансы и статистика 1983.
Айвазян С.А., ЕноковИ.С., МешалкинЛ.Д. Прикладная статистика: основы моделирования и первичная обработка данных. М.:
Финансы и статистика,1983.
АнамаринИ.П., Васильев Н.Н., АмбросовВ.А. Быстрые методы статистической обработки и планирования экспериментов Л • ЛГУ, 1974.
Ананьев Б.Г. О проблемах современного человекознания. М • Наука, 1977.
АнастазиА. Психологическое тестирование. В 2-х т. М., 1982. АртьемьеваЕ.Ю., Мартынов Е.В. Вероятностные методы в психологии. М.: МГУ, 1975. Архангельский С.И., Михеев В.И. Теоретические основы научной
организации учебного процесса в высшей школе. М., 1976. Белановский С.А. Методика и техника фокусированного интервью. М.: Наука, 1993. Биометрия: Учебное пособие/Под ред. М.М.Тихомировой. Л.:
ЛГУ, 1982. БрушлинскийА.В. Субъект: мышление, учение, воображение. М.:
Изд-во "Институт практической психологии", 1996. БунгеМ. Философия физики. М.: Прогресс, 1975. Быков В.В. Методы науки. М., 1972.
Волков И.П. Социометрические методы в социально-психологических исследованиях. Л.: ЛГУ, 1970. ВудвортсГ. Экспериментальная психология. М., 1950. ГайдаВ.К., Захаров В.П. Психологическое тестирование Л -ЛГУ 1982.
241
Гальперин П.Я. Введение в психологию. М.: МГУ, 1976. Ганзен В.А. Системные описания в психологии. Л.: ЛГУ, 1984. Ганзен В.А., БалинВ.Д. Теория и методология психологического
исследования: Практическое руководство. СПб.: СПбГУ, 1991. Гласе Дж., Стенли Дж. Статистические методы в педагогике и
психологии.М.: Прогресс, 1976.
ГодфруаЖ. Что такое психология. В 2-х т. М.: Мир, 1992. Головина Г.М., Крылов В.Ю., Савченко Т.Н. Математические методы в современной психологии: статус, разработка, применение. М.: ИП РАН, 1995. Готтсданкер Р. Основы психологического эксперимента. М.:
МГУ, 1982.
Грабарь М.И., Красня некая К.А. Применение матемагической статистики в педагогических исследованиях. Непараметрические методы. М.: Педагогика, 1977.
ДружининВ. Н. Психологическая диагностика способностей: теоретические основы. Саратов: СГУ, 1990.
Дружинин В. Н. Структура и логика психологического исследования. М.: ИП РАН, 1994.
Дружинин Н.К. Выборочное наблюдение и эксперимент. М., 1977. Дэйвидсон М. Многомерное шкалирование: методы наглядного
представления данных. М.: Финансы и статистика, 1988. ДюкВ.А. Компьютерная психодиагностика. СПб.: Братство, 1994. ЕрофеевА.К. ЭВМ в психодиагностике в высшей школе. М.: МГУ,
1987.
Журавлей Г.Е. Структура эксперимента по вероятностному про-гнозированию//Вероятностное^рогнозирование в деятельности человека. М.: Наука, 1977. Журавлев Г.Е. Системные проблемы развития математической
психологии.М.: Наука, 1983.
Забродин Ю.М. Психологический эксперимент: специфика, проблемы, перспективы развития//История становления и развития экспериментальной психологии в России. М.: Наука, 1990.
ЗаксЛ. Статистическое оценивание. М.: Статистика, 1976. Ильин Е.П. Методические указания к практикуму по психофизиологии (изучение психомоторики).Л.:ЛГПИ, 1981. ИнгекампК. Педагогическая диагностика. М.: Педагогика, 1991. Интерпретация и анализ данных в социологических исследованиях/Под ред. В.Г.Андреенковой, Ю.Н.Толстовой. М.: Наука, 1987.
242
Исторический путь психологии: прошлое, настоящее и будущее/
Под ред. В.А.Кольцовой и Ю.Н.Олейника. М.: ИП РАН, 1992 Клайн П. Справочное руководство по конструированию тестов
Киев,1994. Копнин П.В. Гносеологические и логические основы науки. М.,
1974.
Корнилова Т.В. Общий практикум по психологии. Психологический эксперимент. Ч.IV. М.: МГУ, 1987.
Крылов В.Ю. Геометрическое представление данных в психологических исследованиях. М.: Наука, 1990.
Крылов В.Ю., Моргунов Ю.И. Кибернетические модели в психологии. М.: Наука, 1990. Кулагин Б. Ф. Основы профессиональной психодиагностики. М.
Медицина, 1984. КуликовЛ.В. Введение в психологическое исследование. СПб.,
1994.
КуликовЛ.В. Психологическое исследование. СПб.: Наука, 1994. Кун Т. Структура научных революций. М.: Прогресс, 1975. КэмпбеллД. Модели экспериментов в социальной психологии и
прикладных исследованиях. М.: Прогресс, 1980. ЛакатосИ. Доказательства и опровержения. М.: Прогресс, 1967. Лефевр В.А. Формула человека. Контуры фундаментальной психологии. М.: Прогресс, 1991. Лбов Г.С. Методы обработки разнотипных экспериментальных
данных. Новосибирск: Наука, 1981. ЛебедевА.Н., БоковиковА.Н. Экспериментальная психология в
российской рекламе. M.:Academia, 1995. Лекторский В.А. Субъект, объект, познание. М.: Наука, 1980. ЛогвиненкоА.Д. Измерения в психологии: математические основы. М.: МГУ, 1993.
Ломов Б.Ф. Вопросы общей, педагогической и инженерной психологии. М.: Педагогика, 1991.
Ломов Б.Ф. Методологические и теоретические проблемы психологии. М.: Наука, 1984. Математика в социологии. М.: Мир, 1977. Математические методы в исследованиях индивидуальной и групповой деятельности. М.: ИПАН, 1990.
Математические методы в социальных науках. М.: Прогресс, 1973. Мельников В.М.,Ямпольский Л. Т. Введение в экспериментальную
психологию личности. М.: Просвещение, 1985. Методики диагностики психических состояний и анализа деятельности человека/Под ред. Л.Г.Дикой. М.: ИП РАН, 1994.
243
Методики социально-психологического исследования личности и малых групп/Под ред. А.Л.Журавлева и Е.В.Журавлевой. М.:
ИП РАН, 1995.
Методология и методы социальной психологии/Под ред. Е.В.Шо-роховой.М.: Наука,1977.
Методология исследований по инженерной психологии и психологии труда. 4.1/Под ред. А.А.Крылова. Л.: ЛГУ, 1974.
Методы и средства автоматизации психологических исследований/Под ред. Ю.М.Забродина. М.: Наука, 1982.
Методы психологического исследования проблемы и поиски путей реализации. М.: ИП АН, 1986.
Методы психологической диагностики. Вып.1/Подред. В.Н.Дружинина и Т.В.Галкиной. М.: ИП РАН, 1993.
Методы психологической диагностики. Вып. 2/Под ред. А.Н.Воронина. М.: ИП РАН, 1994.
Методы социальной психологии/Под ред. Е.С.Кузьмина и В.Е.Семенова. Л.: ЛГУ, 1977.
Михеев В.И. Моделирование и методы теории измерений в педагогике. М.: Высшая школа, 1987.
Мостеллер Ф.. Тьюки Дж. Анализ данных и регрессия. Л.: Финансы и статистика,1982.
Налимов В.В. Теория эксперимента. М., 1971.
Общая психодиагностика/Под ред. А.А.Бодалева, В.В.Столина. М.,1987.
Общий практикум по психологии. Психологический экспери-мснт/Подред. М.Б.Михалевской, Т.В.Корниловой. М.: МГУ, 1985.
Осипов Г.В., Андреев Э.П. Методы измерения в социологии. М.:
Наука,1977.
Основы психодиашостики/Под ред. А.Г.Шмелева. Ростов-на-Дону: Феликс, 1996.
Паповян С. С. Математические методы в социальной психологии. М.: Наука,1983.
ПельиД., Эндрюс Ф. Ученые в организациях. М.: Прогресс, 1973.
Петренко В. Ф. Введение в экспериментальную психосемантику:
исследование формы репрезентаций в обыденном сознании. М.,1983.
Пиаже Ж. Избранные психологические труды. М.: МПА, 1994.
Пирьов Г.Д. Классификация методов в психологии//Психодиаг-ностика в социалистических странах. Братислава, 1985.
ПоланиМ. Личностное знание. М.: Прогресс, 1985.
244
ПономаревЯ.А. Методологическое введение в психологию. М.
Наука,1983.
ПономаревЯ.А. Психология творчества. М.: Наука, 1976. ПопперК. Логика и рост научного знания. М.: Прогресс, 1983. Практикум по инженерной психологии/Под ред. А.А.Крылова
В.А.Ганзена.Л.:ЛГУ, 1978. Практикум но инженерной психологии и психологии труда. Л.
ЛГУ, 1983. Практикум по общей психологии/Под ред. А.И.Щербакова. М.
1990. Практикум по общей и экспериментальной психологии/Ред
А.А.Крылов.Л.:ЛГУ,1987. Практикум по психодиагностике. Диф4)еренциальная психомет-
рика/Ред. В.В.Столиц, А.Г.Шмелев. М., 1984. Практикум по психологии/Под ред. А. НЛеонтьева, Ю.Б.Гиппен-
рейтер. М.,1972. Практикум по экспериментальной и прикладной психологии.
Учебное пособие/Ред. А.А.Крылов. Л.: ЛГУ, 1990. Практикум по экспериментальной психологии/Ред. В.Д.Шадри-
сов. Ярославль, 1974. Практические занятия по психологии/Под ред. Д.Я.Богдановой,
И.П.Волкова. М., 1989. Приходько 77. Т. Азбука исследовательского труда. Новосибирск:
Наука,1979.
Психодиагностика: теория и практика. М., 1986. Психодиагностические методы (в комплексном лонгитюдном
исследовании студентов)/Подред. А.А.Бодалева, А.Д.Дворя-
шиной, И.М.Палея. Л.: ЛГУ, 1976. Психологическая диагностика: проблемы и исследования/Под
ред. К.М.Гуревича. М., 1981. Психологические и психофизические особенности студентов/Под
ред. Н.М.Пейсахова. Казань, 1977. Психология и математика/Под ред. Г.Е.Журавлева, Ю.М.Забродина, В.Ю.Крылова, В.Ф.Рубахина. М.: Наука, 1976. Пфанчагль И. Теория измерений. М.: Мир, 1976. Пэнто Р., Гравии. М. Методы социальных наук. М., 1972. Рабочая книга социолога. М.: Наука, 1983. Рабочая книга школьного психолога/Под ред. И.В.Дубровиной.
М.: Просвещение, 1994. Развитие и диагностика способностей/Под ред. В.Н.Дружинина,
В.Д.Шадрикова. М.: Наука, 1991. Роговин М.С. Введение в психологию. М.: Высшая школа, 1969.
245
Роговин М. С. Психологическое исследование. Ярославль: ЯрГУ, 1979.
Роговин М.С., Залевский Г.В. Теоретические основы психологического и патопсихологического исследования. Томск, 1988.
Рубинштейн С.Л. Основы общей психологии. М.: Учпедгиз, 1946.
Рубинштейн С.Л. Принципы и пути развития психологии. М., 1959.
Рузавин Г.И. Методы научного исследования. М.: Мысль, 1974.
Рузавин Г.И. Научная теория: логический и методологический анализ. М.: Мысль, 1978.
Савченко Т.Н. Математические методы в психологии и социологии: программа курса. М.: Российский открытый университет, 1993.
СельеГ. От мечты к открытию. М.: Прогресс, 1987.
Семенов В. Е. Метод изучения документов в социально-психологических исследованиях. Учебное пособие. Л.: ЛГУ, 1983.
Соколова Е. Т. Проективные методы исследования личности. М., 1980.
СолсоР.Л. Когнитивная психология. М.: Тривола, 1996.
СпасенниковВ.В. Конструирование и использование психологических и дидактических тестов. Учебное пособие. Калуга, 1991.
Справочник по прикладной статистике. В 2-х т. М.: Финансы и статистика,1990.
Суппес 77, ЗиппесДж. Основы теории измерений//Психологи-ческие измерения. М.: Мир, 1976.
СуходольскийГ.В. Основы математической статистики для психологов. Л.: Л ГУ, 1972.
ТерехинаА.Ю. Анализ данных методом многомерного шкалирования. М.: Наука,1986.
ТьюкиДж. Анализ результатов наблюдения. Разведочный анализ. М.:Мир, 1981.
Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. М.:
Финансы и статистика,1995.
ФайерабендП. Избранные труды по методологии науки. М.: Прогресс, 1986.
Факторный идискриминантный анализ. М.: Финансы и статистика, 1989.
Франселла Ф., БаннистерД. Новый метод исследования личности. М.: Прогресс, 1987.
Хайтун С.Д. Наукометрия: состояние и перспективы. М.: Наука, 1983.
ХарманГ. Современный факторный анализ. М.: Статистика, 1972.
246
Хикс Ч. Основные принципы планирования эксперимента. М., 1967.
Челышкова М.Б. Разработка педагогических тестов на основе со временных математических моделей. М., 1995.
ШадриковВ.Д. Деятельность и способности. М.: Логос, 1994.
Шмелев Л.Г. Введение в экспериментальную психосемантику: теоретико-методологические основания и психодиагностические возможности. М.: МГУ, 1983.
ШмелевА.Г., ПохилькоВ.И., Козловская-ТелыюваА.Ю. Практикум по экспериментальной психосемантике. (Тезаурус личностных черт.) М.: МГУ, 1988.
Шошин П.Б. Психологические измерения. 4.1. М.: МГУ, 1989.
Экспериментальная психология. Вып. 1-2/Ред. П.Фресс, Ж.Пиаже. М.: Прогресс, 1966.
Экспериментальная психология. T.l/Редактор-составитель С.С.Стивене. М.: Изд-во иностранной литературы, I960.
ЯдовВ.А. Социологическое исследование. М.: Наука, 1987.
ПРИЛОЖЕНИЕ
1. Этические принципы проведения исследования на человеке*
Решение проводить исследования должно основываться на осознанном желании каждого психолога внести ощутимый вклад в психологическую науку и способствовать благополучию Человека. Ответственный психолог обдумывает различные направления, где нужны энергия и возможности человека.
Приняв решение о проведении исследований, психологи должны осуществлять свои замыслы с уважением к людям, принимающим в них участие, и с заботой об их достоинстве и благополучии.
Принципы, о которых говорится ниже, разъясняют исследователю этичное ответственное отношение к участникам экспериментов в ходе проведения исследовательских работ — от первоначального замысла до шагов, необходимых для защиты конфиденциальности данных исследования. Эти Принципы должны рассматриваться в контексте документов, прилагаемых в качестве дополнения к Принципам.
1. При планировании опыта исследователь несет персональную ответственность за составление точной оценки его этической приемлемости, опираясь на Принципы исследований.
Если, опираясь на эту оценку и взвесив научные и человеческие ценности, исследователь предлагает отклониться от Принципов, то он дополнительно берет на себя серьезные обязательства по разработке этических рекомендаций и принятию более строгих мер по защите прав участников исследований.
2. На каждом исследователе всегда лежит ответственность за установление и поддержание приемлемой этики исследования. Исследователь также несет ответственность за этичное обращение коллег, ассистентов, студентов и всех других служащих с испытуемыми.
3. Этика требует, чтобы исследователь информировал испытуемых обо всех сторонах эксперимента, которые могут повлиять на их
* American Phychological Association, 1973. 248
желание принимать в нем участие, а также отвечал на все вопросы о других подробностях исследования.
Невозможность ознакомления с полной картиной эксперимента дополнительно усиливает ответственность исследователя за благополучие и достоинство испытуемых.
4. Честность и открытость — важные черты отношений между исследователем и испытуемым. Если утаивание и обман необходимы по методологии исследования, то исследователь должен объяснить испытуемому причины таких действий для восстановления их взаимоотношений.
5. Этика изыскания требует, чтобы исследователь относился с уважением к праву клиента сократить или прервать свое участие в процессе исследований в любое время.
Обязательство по защите этого права требует особой бдительности, когда исследователь находится в позиции, доминирующей над участником.
Решение по ограничению этого права увеличивает ответственность исследователя за достоинство и благополучие участника.
6. Этически приемлемое исследование начинается с установления четкого и справедливого соглашения между исследователем и участником эксперимента, разъясняющего ответственность сторон. Исследователь обязан чтить все обещания и договоренности, включенные в это соглашение.
7. Этичный исследователь защищает своих клиентов от физического и душевного дискомфорта, вреда и опасности. Если риск таких последствий существует, то исследователь обязан проинформировать об этом испытуемых, достичь согласия до начала работы и принять все возможные меры для минимизации вреда. Процедура исследований может не применяться, если есть вероятность, что она причинит серьезный и продолжительный вред участникам.
8. Этика работы требует, чтобы после сбора данных исследователь обеспечил участникам полное разъяснение сути эксперимента и устранил любые возникающие недоразумения. Если научные или человеческие ценности оправдывают задержку или утаивание информации, то исследователь несет особую ответственность зато, чтобы для его клиентов не было тяжелых последствий.
9. Если процедура исследования может иметь нежелательные последствия для участников, то исследователь несет ответственность за выявление, устранение или корректировку таких результатов (в том числе и долговременных).
10. Информация, полученная в ходе исследования об участниках эксперимента, является конфиденциальной.
249
Если существует вероятность, что другие люди могут получить доступ к этой информации, то этика практики исследований требует, чтобы эта вероятность, а также планы по обеспечению конфиденциальности были объяснены участникам как часть процесса по достижению взаимного информационного согласия.
2. Образец анкеты после проведенного эксперимента*
Вопросы
1. Запишите все, что вы думали об эксперименте во время его проведения.
2. Как вы думали, какова была цель эксперимента?
3. Как вы думали, какова была гипотеза (т.е. что мы искали, пытались изучить и т.д.) и как вы предполагали реагировать?
4. Что вы думали о цели теста на запоминание слов во время его выполнения?
5. Как вы думали, что общего имели слова о пище с целью эксперимента?
6. Что вы думали в процессе выполнения задания о цели классификации по шкалам?
7. Думали ли вы, что экспериментатор мог ожидать, что вы проклассифицируете бессмысленные слоги (звуки, слова) должным образом? Иными словами, былали у экспериментатора гипотеза о том, как среднестатистический человек намеревался выполнить классификацию?
8. Почему вы прошкалировали бессмысленные слоги (звуки, слова) именно так, а не иначе? То есть на чем вы основывались или по каким причинам вы проклассифицировали их до одного или другого конца шкалы?
9. В данном эксперименте с бессмысленными слогами (звуками, словами) мы использовали слова, обозначающие пищу.
Ожидалось, что если вы были голодны, то вы отнесли бы больше слогов (звуков, слов) на положительную сторону из-за их ассоциации с едой. Была ли у вас хотя бы похожая идея о такой цели эксперимента до ознакомления с этой анкетой?
Да _______ Нет _______
Если «да», то насколько вы были в этом уверены?
Из кн.: M.W.Matlin. "Human Experimental Psychology". N.Y., 1979. 250
Догадывался____ Уверен_____
10. В этом эксперименте некоторые люди собирались проклассифицировать слоги (звуки, слова) в согласовании, на их взгляд, с предполагаемой гипотезой экспериментатора.
Другие по разным причинам собирались проклассифицировать слоги на иной основе, чем та, которую мог бы предположить исследователь.
Прошкалируйте вашу собственную степень взаимодействия с гипотезой экспериментатора.
В разрез с гипотезой ___ В соответствии с ней ____
11. Пожалуйста, прокомментируйте вашу реакцию на этот эксперимент, включая ваше отношение кданной анкете.
3. Правила подготовки рукописи для публикации в "Психологическом журнале"*
Журнал публикует оригинальные научные работы, посвященные актуальным проблемам в различных областях психологии и пограничных дисциплин: методологические и теоретические (объемом до 24 машинописных стр.; объем включает список цитированной литературы, рисунки и подписи к ним); экспериментальные и прикладные исследования (до 20 стр.); методические разработки (до 20 стр.);
материалы по истории психологии, обзорно-критические статьи (по заказу редколлегии) —до 28 стр.; краткие сообщения (эксперимент, теория, методология) —до 7 стр. Редакция рассматриваеттакже письма редактору, комментарии к ранее опубликованным материалам и ответы авторов (до 3 стр.), рецензии на книги, обзоры текущей печати, сообщения и отчеты о научных конгрессах, съездах, симпозиумах, а также научную хронику (2-5 стр.).
"ПЖ" печатает ранее неопубликованные материалы. Публикация материалов в виде коротких сообщений не является препятствием для принятия рукописи к печати. Автор должен представить сведения о ранее опубликованных или сданных в печать работах по данной тематике.
Рукопись должна содержать новые факты и\или новые их интерпретации, синтез или критику существующих точек зрения, теорий или данных, обосновывать новые гипотезы, теоретические, методо-
* Предоставлены заместителем главного редактора "ПЖ" И.О. Александровым.
251
логические или методические подходы. Она должна обладать концептуальной строгостью, обоснованностью фактов, подходов и интерпретаций, ясностью и краткостью изложения. Рукопись должна быть логически построена — от постановки проблемы, цели исследования, изложения методических приемов, приведения необходимой аргументации до обоснования вы водов работы. Предпочтительна подробная рубрикация рукописи.
Общие требования к рукописи проиллюстрируем на примере экс-перименгальной статьи, имеющей наиболее дифференцированную структуру. Статья должна содержать краткое Введение в проблему и постановку задачи; достаточно подробное изложение (возможна отсылка к литературе дая более подробного описания) м?т'од//а://в следующем порядке: испытуемые (количество, пол, возраст); особенности испытуемых, отобранных для исследования (например, включенных в экспериментальную и контрольную группы); инструкции испытуемым; описание экспериментальной процедуры; использованная аппаратура и ее существенные характеристики; регистрируемые показатели; обработка и критерии валидности результатов. Необходимы ссылки на источники всех использованных методик. Требуется краткое и точное изложение Результатов, по возможности в количественных терминах, без интерпретации. Количественные данные должны учитывать пределы точности измерения показателей, зависящие от способов регистрации и обработки. Рисунки и таблицы, представляющие экспериментальный материал, не должны содержать ссылок на текст; в тексте должны быть содержательные ссылки на таблицы и рисунки. В Обсужден и и наелся краткая интерпретация результатов, их значение, отношение к известным фактам. Следует приводигь только необходимые ссылки на литературу. Статья завершается Выводаминлн Заключением.
Для короткого сообщения рекомендуется такой же порядок изложения, как и в экспериментальной статье, при этом допускается объединение разделов Результаты и Обсуждение, а также исключение раздела Выводы.
Статья, предлагающая новый методический прием, тест, опрос-пик, прибор и т.п., должна содержать описание его суги; следует приводить тексты тестов и опросников, для приборов — принципиальную схему, описание принципа действия и необходимые технические пояснения. Сообщение должно содержать результаты апробации предлагаемой методики. Для верификации метода рекомендуется приводить результаты, полученные в контрольной группе обследуемых. В случаях если метод предназначен для оказания воздействия на человека, следует приводить результаты медицинской,
252
медико-психологической и т.п. экспертизы. Стагья обязательно должна содержать сопоставление предлагаемой методики (прибора) с существующими аналогами и обсуждение их преимуществ и недостатков.
Все специальные и технические термины, вновь введенные понятия должны быть разъяснены; следует избегать метафорических высказываний, иносказаний, неологизмов и жаргона. Не следует смешивать исходные теоретические положения, полученные в публикуемом исследовании результаты и предлагаемые интерпретации. Для этого, в частности, рекомендуется при изложении методики и результатов исследования использовать форму прошедшего времени, а при обсуждении — настоящего.
Редакция оставляет за собой право на необходимые уточнения и сокращения, а также на рекомендации авторам сократить рукопись до размеров короткого сообщения.
Комментарии к опубликованным работам должны содержать существенную, оригинальную и аргументированную критику. В случае поступления в редакцию нескольких комментариев сходного содержания к публикации принимается комментарий с наиболее ранней датой отправки.
Решающими для принятия (отклонения) рукописи являются рецензии двух экспертов, назначаемых редколлегией "ПЖ". Редакция допускает публикацию комментария рецензента вместе с публикуемой работой, а также направление рукописи для комментария специалистам соответствующей области.
Подготовка рукописи
1. Рукопись должна быть представлена в 2 экземплярах и отпечатана на бумаге стандартного формата (210 х 297 мм), через 2 интервала; поля слева — 35 мм, справа — 10 мм, 28 строк по 58-60 знаков на страницу. Рукопись должна содержать: текст статьи, список литературы, подписи к рисункам (на отдельной странице). К рукописи должны быть приложены: иллюстрации, краткая аннотация (~ 1,3 печ.стр.), описывающая цель, существенные особенности работы и наиболее важные выводы, ключевые слова — основные 3-6 понятий, использованных в работе, должны заключать аннотацию; список ранее опубликованных или сданных в печать работ автора по данной тематике.
2. Таблицы (не более десяти столбцов) должны иметь содержательное заглавие. В примечаниях к таблицам должны быть объяснены все сокращения или обозначения. Для иллюстрации статьи принимается не более 3 рисунков — фотоотпечатки на глянцевой бу-
253
маге (9 • 12 см) или рисунки, выполненные тушью на плотной бумаге. Как рисунки, так и таблицы должны быть пронумерованы последовательно, место их первого упоминания в тексте указывается на полях.
3. Сноски должны иметь сквозную нумерацию по всей статье (1, 2, 3 ...). Цитаты должны быть выверены по первоисточнику, следует указать страницу цитируемого издания.
4. Цитированная литература приводится в пронумерованном библиографическом списке в конце статьи. В тексте, после фамилии или после цитирования, в квадратных скобках указываются порядковый номер источника и через запятую — страница, если она необходима:
[5, с.80]. Список литературы оформляется следующим образом.
Статья в книге: Автор. Название статьи//Название книги/Под ред.А.Б.Иванова. Город, год. С. 7-30.
Статья в журнале: Автор. Название статьи//Журнал (принятое сокращенное название). Год. Том. Номер (выпуск). С. 12-20.
Ссылки на работы, неопубликованные или находящиеся в печати, не допускаются. Авторам нужно представлять новейшую (предыдущего и текущего года) научную литературу по теме, вышедшую в России и за рубежом.
При цитировании следует избегать бессодержательного перечисления авторов, однако существенные, значимые работы должны быть упомянуты. На все работы, включенные в список литературы, должны быть ссылки в тексте статьи.
5. Формулы и символы должны быть вписаны в текст четко, черными чернилами. Греческие буквы подчеркиваются красным; латинские — размечаются курсивом (волнистая линия внизу:^?), а буквы русского алфавита — прямо (квадратная скобка внизу: j*). Во избежание ошибок следует различать прописные (заглавные) и строчные буквы латинского и русского алфавита, имеющие сходное начертание.
6. Для различных видов текстовых (шрифтовых) выделений авторы могут воспользоваться обозначениями (подчеркивается снизу): _____ полужирный, ~~~~~~~ курсив, _ _ _ разрядка.
7. В связи с переводом "Психологического журнала" на английский язык необходимо:
а) вместе с рукописью статьи представлять в редакцию список включенных в библиографию иностранных публикаций на языке оригинала, в том числе и опубликованных в русском переводе; при этом помимо публикации и автора указывать год и место издания, а также издательство;
254
б) тщательно проверять перевод цитат из иностранных источников, правильность и полноту соответствующих библиографических ссылок; желательно прилагать цитату на языке оригинала;
в) при наличии в статье фамилий иностранных ученых, названий иностранных организаций, компаний и т.д., а также иностранных географических названий (кроме общеизвестных) представлять их отдельным списком в оригинальном написании или указывать иностранный источник;
г) давать в приложении к рукописи расшифровку использованных в статье русских сокращений (кроме общеизвестных), в особенности аббревиатур научно-исследовательских и других организаций, названий аппаратуры, тестов, опросников и т.п.
8. В конце статьи нужно указать фамилии, имена и отчества всех авторов, их ученые степени, звания и должности, почтовые адреса (индекс обязателен) и номера телефонов (служебный и домашний). Авторский коллектив указываетлицо, с которым редакция будет вести переговоры и переписку.
9. В случае если статья полностью или частично опубликована или предложена для публикации в другом издании, автор сообщает об этом в редакцию.
В.Н. Дружинин Экспериментальная психология
Редактор Н.В. Андреева Компьютерная верстка Г. Б. Крюков Художественное оформление "Ин-Арт"
ЛР№ 070824 от 21.01.93г.
Подписано в печать 25.02.97 Формат 60х90/16. Печать офсетная Усл. печ. л. 16,0. Тираж 6000 экз. Цена договорная. Заказ № 232
Издательский Дом «ИН<*°А-М» 127247, Москва, Дмитровское ш., 107 Тел.: (095) 485-74-00; 485-71-77 Факс 485-53-18 E-mail: contract @ infram.msk.ru
Отпечатано в типографии издательс1ва "Дом печати" 432601, г. Ульяновск, ул. Гончарова, 14
Дата добавления: 2021-04-15; просмотров: 100; Мы поможем в написании вашей работы! |
Мы поможем в написании ваших работ!