Репрезентативность и виды тестовых норм. Виды стандартных шкал.



Валидность: определение и виды. Основные угрозы валидности эксперимента. Надежность. Виды

Надежности.

Валидность– соответствие конкретного исследования принятым стандартам (безупречному инструменту). Из

лекций Орел: устойчивость результата теста к систематическим искажениям со стороны посторонних психических

свойств. Валидность – свойство интерпретации (правильно или неправильно понимаем).

-Внешняя валидность– соответствие конкретного исследования природной реальности и/или другим

подобным исследованиям. Определяет возможность переноса и/или обобщения результатов на другие объекты и

условия исследования. Зависит от репрезентативности выборки и соответствия контролируемых в исследовании

дополнительных переменных, их вариативности в других условиях. Частной формой внешней валидности является

экологическая валидность, определяющая возможность распространить выводы конкретного исследования на

реальные условия, а не на иные лабораторные условия.

-Экологическая валидность – вид внешней валидности, характеризует соответствие процедуры и условий

лабораторного исследования «естественной» реальности.

-Внутренняя валидность– соответствие конкретного исследования идеальному, оценивает изменение

зависимой переменной, определяется влиянием независимой переменной, а не другими причинами. Внутренняя

валидность зависит от систематического изменения влияния независимой и других переменных от

неэквивалентности и изменения сравниваемых групп в ходе эксперимента.

-Конструктная валидность – характеризует точность реализации теоретической гипотезы в процедуре

эксперимента. Является одним из проявлений внутренней валидности. Определяет область явлений, исследуемых в

эксперимента. В психологической диагностике конструктная валидность характеризует степень измеряемого

свойства в результате тестирования. 2 вида конструктной валидности:

1. конвергентная – есть значимая корреляция между тестами, направленными на измерение концептуально

зависимых связей (есть связь с родственными методиками).

2. дискриминантная – отсутствие значимой корреляции между тестами, например, на измерение независимых

свойств (отсутствие этой связи с методиками, имеющими другое теоретическое основание).

-Операциональная валидность – соответствие операций экспериментатора теоретическому описанию

переменных, контролируемых в исследовании. Варьируемые экспериментатором условия должны соответствовать

независимой переменной. Операциональная валидность является одним из проявлений внутренней валидности.

-Очевидная валидность – тест считается валидным, если у испытуемого складывается впечатление, что он

измеряет то, что должен измерять. Иначе – представление о тесте, сфере его применения, результативности и

прогностической ценности, которое возникает у респондента или другого лица, не располагающего специальными

сведениями о характере использования и целях методики.

-Критериальная валидность – комплекс характеристик, отражающих соответствие диагноза и прогноза

определенному кругу критериев измеряемого явления. 2 вида критериальной валидности:

1.прогностическая - психологический тест часто используется для прогноза поведения. Соответственно, если

прогноз оправдывается с течением времени, это говорит о том, что тест был валидным. Иначе - тест должен

коррелировать с отдаленными по времени внешними критериями: измерение интеллекта в детстве должно

предсказывать будущие профессиональные успехи.

+ Ретроспективная валидность (вроде относится к прогностической) - определяется на основе критерия,

отражающего события или состояние качества в прошлом. Может быть использована для быстрого получения

сведений о предсказательных возможностях методики.

2. текущая - характеристика теста, отражающая его способность различать испытуемых на основании

диагностического признака. В более узком значении– установление соответствия результатов валидизируемого

теста независимому критерию, отражающему состояние исследуемого тестом качества в момент проведения

исследования.

-Содержательная валидность – применяется для тестов достижений: тест должен охватывать всю область

изучаемого поведения. Степень репрезентативности содержания задания теста измеряемой области психических

свойств.

28

-Иллюзорная (ложная) валидность - иллюзия соответствия заключения по результатам тестирования

личностным характеристикам обследуемого. Возникает как следствие использования предельно общих, а поэтому

применимых практически ко всем обследуемым формулировок.

Основные факторы общения, которые могут искажать результаты эксперимента:

􀁸 Ошибки «отношения к наблюдаемому». Связаны с пониманием испытуемым критерия принятия решения

при выборе реакции.

􀁸 Ошибки, связанные с мотивацией испытуемого. Испытуемый может быть мотивирован любопытством,

тщеславием и действовать не в соответствии с целями эксперимента, а в соответствии со своим пониманием целей и

смысла эксперимента.

􀁸 Ошибки личностного влияния, связанные с восприятием испытуемым личности экспериментатора.

Самые известные причины артефактов:

􀁸 Эффект плацебо – основан на механизмах внушения и самовнушения. Когда дают пустышку, а человек

чувствует облегчение и выздоравливает.

􀁸 Эффект Хотторна – выявился при проведении социально-психологических исследований на фабриках

(Мэйо). Работники, привлеченные к эксперименту, расценивали внимание психологов в качестве внимания лично к

ним и вели себя так, как от них ожидали экспериментаторы. Этого эффекта можно избежать, если дать ложную

гипотезу или давать инструкции безучастным тоном.

􀁸 Эффект социальной фасилитации (усиления), также эффект аудитории (Зайонц). Присутствие любого

внешнего наблюдателя, особенно экспериментатора, изменяет поведение человека. Зайонц – во время обучения

присутствия зрителей смущало спортсменов и их результаты снижаются. Если же деятельность освоена, то

результат на публике улучшается.

􀁸 Эффект _____Пигмалиона (Розенталя) – изменение поведения испытуемого в эксперименте под влиянием

неосознанных воздействий экспериментатора, стремящегося подтвердить свою гипотезу. Является следствием

нарушения внутренней валидности. Конкретнее – исследователь заинтересован в подтверждении своей гипотезы и

может неосознанно вносить искажения в эксперимент или интерпретацию данных, добиваясь, чтобы испытуемый

работал под гипотезу, создавая привилегированные условия лишь для экспериментальной группы.

􀁸 Эффект первичности (первого впечатления) – влияние первого впечатления о личности испытуемого на

интерпретацию и оценку экспериментатором его дальнейшего поведения и личностных особенностей.

􀁸 Добровольное или принудительное участие в эксперименте также накладывает свое влияние. Добровольцы

– в основном студенты, пришедшие за компанию, в поддержку друзей-экспериментаторов и очень редко для науки.

Принудительное же участие выливается в сознательное или бессознательное сопротивление всем действиям

экспериментатора, во враждебном и недоверчивом отношении.

􀁸 Испорченный испытуемый – влияние компетентности испытуемого на его результаты в эксперименте.

Знающий схему эксперимента может работать как под гипотезу, так и против нее.

Памятка по методу эксперимента. Угрозы валидности(по лекциям М.В. Котовой)

Угрозы внутренней валидности:

1. Фон (история) – события, которые происходят между первым и вторым измерением

2. Естественное развитие – изменение испытуемых в течение времени.

3. Эффект тестирования – влияние выполнения заданий, на результаты повторного измерения.

4. Инструментальной погрешности, нестабильности измерительного инструмента (сюда же

5. относятся и изменения наблюдателя)

6. Статистической регрессии (когда группы отбираются на основе крайних показателей)

7. Отбора испытуемых – неэквивалентности групп по составу, вызывающей появление

8. систематической ошибки в результатах.

6. Отсева участников в ходе эксперимента.

7. Взаимодействие фактора отбора с естественным развитием и друг. факторами.

Угрозы внешней валидности:

1. Реактивный эффект – уменьшение или увеличение сензитивности, или восприимчивости,

испытуемых к экспериментальному воздействию. Восприимчивости, которая не свойственна

1. генеральной совокупности.

2. Эффект взаимодействия фактора отбора и экспериментального воздействия.

3. Условия организации эксперимента, вызывающие реакцию испытуемых на эксперимент,

которая не позволяет распространить данные об экспериментальном влиянии на лиц, подвергшихся такому же

воздействию в неэкспериментальных условиях.

4. Взаимная интерференция экспериментальных воздействий.

Что такое надежность:

1.Воспроизводимость результатов исследования

2.Точность измерения

3.Устойчивость результатов, получаемых с помощью определенной методики, во времени и по отношению к

различным помехам (побочным переменным).

В узком тестологическом смысле надежность понимается как согласованность результатов тестирования

испытуемых в разные моменты времени, при первичном и вторичном тестировании и с использованием разных по

29

эквивалентности, по содержанию заданий. Надежность характеризует тесты свойств, но не состояний (результаты

тестов состояний могут все время меняться).

--------------------------

Дополнительно(лекции Орел). Общее определение: надежность – это устойчивость тестовых показателей

относительно случайных, шумовых факторов, или относительно объекта измерения.

Надежность в классической теории отражает то, насколько различия в реальных (наблюдаемых) баллах

респондента связаны с истинными индивидуальными различиями:

X0 = Xt + Xe.

Расхождение между действительностью и наблюдаемыми результатами измерений – ошибка измерения

(различают: систематические, случайные, теоретические, инструментальны и др).

Ошибка измерения (ОИ) и надежность: на больших выборках ОИ нивелируется: чем больше выборка, тем

«точнее» результаты; ОИ никак не связна с измеряемым свойством.

--------------------------

(Лекции Орел) Виды надежности:

- параллельные формы теста

- надежность-устойчивость

- надежность-согласованность

Параллельные формы теста – измеряют один конструкт, имеют одинаковую дисперсию ошибок, обладают

одинаковой надежностью. Для любой методики можно создать параллельную форму, которая измеряет тот же

конструкт. Коэффициент корреляции между параллельными формами теста – коэффициент надежности.

Ретестовая надежность (надежность-устойчивость):

􀁸 Измеряет устойчивость результатов теста во времени

􀁸 Интервал для повторного тестирования от 2 до 8 недель

􀁸 Подходит для оценки надежности методик, измеряющих устойчивые психологические черты – но! На одной

и той же выборки, в тех же условиях

3 фактора, ограничивающих применение ретеста:

􀁸 Не все черты устойчивы во времени. Для методик состояния не подходит ретест, для интеллекта – подходит

􀁸 Интервал между тестом и ретестом: слишком длинный – черта может измениться, слишком короткий –

человек может запомнить свои результаты или задания

􀁸 Применение на детях и подростках – развитие может искажать, для каждого возраста интервал подбирается

отдельно

Надежность-согласованность - соответствие результатов внутри одного теста.

Способы измерения:

1. Расщепление теста пополам

2. Коэффициент Альфа Кронбаха – самый популярный способ измерения надежности. Альфа Кронбаха в целом

будет возрастать по мере увеличения взаимных корреляций переменных, и, поэтому, считается маркѐром

внутренней согласованности оценки достоверности результатов тестов. Т.к. максимальное взаимные корреляции

между переменными по всем пунктам присутствуют, если измеряется одно и то же свойство, альфа Кронбаха

косвенно указывает на степень того, насколько все пункты действительно измеряют одинаковое свойство. Однако,

следует заметить, что высокое значение коэффициента указывает на наличие общего основания у набора вопросов,

но не говорит о том, что за ними стоит один единственный фактор. Профессионально разработанные тесты должны

иметь внутреннюю согласованность на уровне не менее 0.90

Корреляционное измерение надежности (из презентации Орел):

• Номинальная шкала – четрырехклеточная корреляция Гилфорда

• Шкала порядка – ранговая корреляция Спирмена

• Шкала интервалов – линейная корреляция Пирсона

Надежность и валидность находятся в следующем неравенстве:

Валидность < или =Надежности, но при этом увеличение надежности не обязательно влечет увеличение

валидности.

ДОПОЛНИТЕЛЬНО для справки:ОБЪЕКТ ПСИХОДИАГНОСТИКИ - это конкретный человек,

являющийся носителем (обладателем) различных индивидуальных ПСИХИЧЕСКИХ СВОЙСТВ. Психические

свойства образуют ПРЕДМЕТ психодиагностики. Важность различения ПРЕДМЕТА и ОБЪЕКТА проявляется,

прежде всего, при обсуждении вопросов, связанных с обеспечением таких ПСИХОМЕТРИЧЕСКИХ СВОЙСТВА

ТЕСТА, как НАДЕЖНОСТЬ и ВАЛИДНОСТЬ. Иногда тест может обладать высокой надежностью - это как раз и

есть устойчивость относительно объекта: при проведении перетестирования практически все испытуемые могут

оставаться на тех же местах на ранговой (порядковой) ДИАГНОСТИЧЕСКОЙ ШКАЛЕ, которые они занимали

после первого тестирования. Но это еще не означает, что тест направлен на измерение желательного для нас

психического свойства, то есть, это еще не означает высокой валидности.

Надежность методик различных типов (из презентации Орел):

0,7 – 0,8 - Личностные тесты

0,8 – 0,9 - Тесты интеллекта

0,9 – 0,95 - Тесты достижений

Дополнительно.Это не относится к надежности теста, но на всякий случай, вдруг пригодится.

30

Надежность экспертных оценок –тип надежности, связанный с поведением диагноста. Подтверждение

надежности экспертных оценок необходимо в:

– наблюдении

– использовании проективных методов

– стандартизованных экспертных опросах (семантический дифференциал, 360 градусов,

социометрия)

Оценка надежности экспертных оценок:

Репрезентативность и виды тестовых норм. Виды стандартных шкал.

Репрезентативность – одна из психометрических характеристик теста. Говорит о возможности использования

тестовых норм, выработанных на выборке стандартизации при разработке теста, для всей генеральной совокупности

испытуемых, для которых данный тест предназначен. Также она значит, что с некоторой статистической

погрешностью можно считать, что представленное в выборке распределение психических свойств соответствует их

реальному распределению. Репрезентативность позволяет классифицировать результаты тестирования - выделять

высокий, средний и низкий уровни выраженности психических свойств. Если тест не репрезентативен, то

предлагаемые им оценки выраженности свойств будут неприменимы за пределами выборки стандартизации.

Для оценки репрезентативности проводится анализ распределения тестовых баллов. Обычно при получении

кривой нормального распределения делается вывод о том, что тестовые обладают репрезентативностью. Для

проверки нормальности распределения используются различные статистические критерии (например, критерий

Колмогорова-Смирнова). Но нормальность - не необходимое условие репрезентативности, репрезентативность

тестовых норм может достигаться и без него. Если распределение тестовых баллов отличается от нормального, то

для проверки репрезентативности необходимо решить вопрос об устойчивости тестовых норм: производится

расщепление выборки пополам и сравнение распределений тестовых баллов в первой и второй половине выборки

(мы делали на психодиагностике). Если различий нет, то распределение тестовых баллов является устойчивым, а

тестовые нормы - репрезентативными.

Психодиагностические нормы позволяют выносить диагностические заключения (относить испытуемого к

определенной диагностической категории), что невозможно сделать просто на основании подсчета сырого тестового

балла по ключам. Нормативные границы разделяют весь диапазон тестовых баллов на интервалы, соответствующие

определенным уровням выраженности измеряемого признака.

Первоначальный суммарный балл, подсчитанный с помощью ключа, но его нельзя диагностически

интерпретировать, это всего лишь «сырой тестовый балл». Применение тестовых норм в психодиагностике

основывается на процедуре стандартизации тестового балла: перевод тестовых баллов из «сырой» шкалы в

«стандартную».

ОПРЕДЕЛЕНИЕ.Тестовые нормы – это такие критические точки на шкале тестовых баллов, которые

отделяют области значений с заданным психодиагностическим выводом.

В психодиагностике следует различать как минимум два различных вида норм: статистические и

социокультурные. Первый вид чаще применяется для оценки стилевых и мотивационных черт. Второй вид - для

оценки способностей и достижений (знаний и умений).

Статистическая норма (основываются на выборке стандартизации) - это средний диапазон значений на шкале

измеряемого свойства. Норма здесь - близость значения свойства к тому уровню, который характеризует

статистически среднего индивида. Значимое отклонение от нормы в этом случае (выход за пределы среднего

диапазона) называется акцентуацией, а данная личностная черта называется «акцентуированной». Чем сильнее

выражено это отклонение, тем более сильной считается акцентуация.

Применение статистических норм:

• Универсальные тесты способностей и черт личности с широкой областью валидности

• Соревновательные тесты достижений (примеры: TOEFL, ЕГЭ)

Виды статистических норм:

31

• Процентильные2 (точки на шкале тестовых баллов, которые отделяют от выборки стандартизации заданный

процент испытуемых): децили, квартили, промилли

• Параметрические нормы - для интервальных шкал - задаются параметрами среднего и стандартного

отклонения

Социокультурная норма - это уровень свойства, который явно или неявно считается в обществе необходимым.

Кроме того следует выделять еще 2 типа норм.

1. «Абсолютные» тестовые нормы (или нормативы) - в роли шкалы для вынесения диагноза выступает сама

шкала сырых баллов; это точки на шкале сырых баллов; регистрируют достижение заданного уровня в тестах

достижений (профессиональных или педагогических)

2. «Критериальные» тестовые нормы (позволяют прогнозировать критериальное поведение). Применение

таких норм можно считать оправданным в двух случаях: 1) когда сама тестовая «сырая» шкала имеет практический

смысл (например, студент, изучающий иностранный язык, должен знать как можно больше слов этого языка, и

сырой показатель лексического теста имеет практический смысл); 2) когда сырой балл по тесту в результате

эмпирических исследований связывается с заданной вероятностью успешности какой-либо практической

деятельности (вероятность успеха «критериальной» деятельности, каковой для упомянутого выше примера может

быть синхронный перевод монолога в течение 30 минут).

ПРИМЕЧАНИЕ: в презентациях Орел указываются только три вида тестовых норм: абсолютные,

статистические и критериальные.

Психодиагностическая шкала представляет собой количественную модель измеряемого диагностического

свойства. Тестовый балл испытуемого соответствует шкальному значению измеряемого психического свойства. Для

сравнения между собой показателей одного и того же испытуемого по разным шкалам используют стандартные

тестовые шкалы (шкала стенов, Т-шкала, IQ).

Важно не путать и не отождествлять шкальное значение измеряемого психического свойства (тестовый балл) и

истинную выраженность свойства. Шкальное значение отражает истинное значение лишь с определенной

точностью, поэтому психодиагностика предполагает обязательный учет различных факторов и погрешностей,

снижающих точность психологического измерения.

Диагностические шкалы подразделяют по типам, предусмотренным в математической теории измерения: шкала

наименований (номинальная шкала), шкала порядка, шкала интервалов (о них позже).

В психодиагностике используются несколько типов стандартных шкал, позволяющих сравнивать между собой

показатели разных тестов (субшкал одного теста) в едином масштабе. Как правило, стандартные шкалы основаны на

модели нормального распределения и описываются двумя параметрами значением среднего и стандартного (или

среднеквадратического) отклонения. Перевод в стандартную шкалу проводится путем процедуры стандартизации.

Под стандартизацией шкалы понимают линейное преобразование масштаба нормальной (или искусственно

нормализованной) шкалы.

Формула стандартизации выглядит так (думаю, запомнить ее будет хорошо, ибо следующие шкалы

рассчитываются по этой формуле, меняются только М и О):

где xi - исходный балл по «сырой» шкале, для которой доказана нормальность распределения;

Х с чертой - среднее арифметическое по «сырому» распределению;

S - «сырое» стандартное отклонение;

М- математическое ожидание по выбранной стандартной шкале;

σ - стандартное отклонение по стандартной шкале.

К основным стандартным шкалам относятся:

1)Т-шкала: М = 50 и σ = 10. Пример использования – тест MMPI и его русскоязычные адаптации;

2)Шкала IQ: М = 100 и σ = 15. Пример использования - IQ Айзенка.

3)Шкала стенов: М = 5,5 и σ = 2. Пример использования – 16-факторный опросник Кетелла. Эта шкала часто

используется именно в профессиональной (индустриальной) тестологии в силу того, что многие тесты и другие

оценочные процедуры сориентированы не столько на точность измерения одного фактора, сколько на широту охвата

различных факторов.

Применение стандартных шкал позволяет использовать более грубые, приближенные способы проверки типа

распределения тестовых баллов. Применение стандартных шкал необходимо для соотнесения результатов по разным

тестам, для построения «диагностических профилей» по батарее тестов и тому подобных целей.

Типы шкал.

1. Шкала наименований – получается путем присвоения «имен» объектам. При этом нужно разделить

множество объектов на непересекающиеся подмножества. Объекты сравниваются друг с другом и определяется их

эквивалентность-неэквивалентность. Эквивалентным объектам присваиваются одинаковые имена, т.е. относятся к

одному классу => типологизация. О шкале наименований можно говорить, когда эмпирические объекты просто

2 Процентиль - процент случаев, лежащих ниже данной точки на шкале показателей. Процентиль дает возможность

сравнивать позиции людей в неодинаковых по объему группах.

32

помечаются числом. Например, майки футболистов – 1 (вратарь) по своей функции отделен от остальных игроков,

но его функция на футбольном поле эквивалентна другим вратарям. Но лучше в номинальной шкале числа не

использовать. Другой пример – шкала со странами – просто перечисление стран, как в СПСС. Здесь понятия

«свойство» нет. Дихотомическая шкала (0;1) относится к наименованиям, за исключением случая, когда свойство

имеет только два уровня выраженности – есть-нет, например, в случае гемофилии и дальтонизма – тогда с данными

работают как со шкалой порядка.

2. Шкала порядка – образуется, если на множестве реализовано отношение порядка (a>b, b>c, a>c).

Существует шкала строго порядка (больше и меньше) и шкала слабого порядка (больше или равно и меньше или

равно). Рубаха-парень Стивенс (не знаю, кто он) высказал мнение, что результаты большинства психологических

измерений в лучшем случае соответствуют лишь шкалам порядка. Ранжирование, оценивание – примеры

порядковых шкал. Тесты личностных черт и способностей – туда же. Шкала порядка позволяет ввести линейную

упорядоченность объектов на некоторой оси признака. Числовые значения порядковой шкалы нельзя складывать,

вычитать, делить и умножать. Вводится понятие свойства и оно – линейное.

3. Шкала интервалов - Первая метрическая шкала. Начиная с нее, имеет смысл говорить об измерениях в

смысле введения меры на множестве объектов. Определяет величину различий между объектами в проявлении

свойства. С помощью шкалы интервалов можно сравнивать два объекта, выясняя, насколько более или менее

выражено определенное свойство у одного объекта, чем у другого. Пример использования шкалы – температура по

Цельсию. Шкала интервалов имеет масштабную единицу, но положение нуля на ней произвольно (ноль градусов по

Цельсию – условное значение, отличное от физического понимания абсолютного нуля). Мы имеем право изменять

масштаб шкалы, умножая каждое из ее значений на константу и производить сдвиг относительно выбранной точки

вправо и влево. Формула – x‘=ax+b. Некоторые исследователи считают, что тесты интеллекта и достижений

измеряют с помощью шкалы интервалов, а другие им говорят, что в тестах есть всегда «нуль» и максимальный балл,

а разница между отдельными значениями неодинакова (не факт, что 100 и 120 так же отличаются, как 80 и 100 по

шкале IQ). И все-таки IQ рассматривается как интервальная шкала.

4. Шкала отношений – здесь можно сказать, во сколько раз один объект больше или меньше другого, т.к.

известно равенство отношений. Отличается от шкалы интервалов тем, что на ней определено положение

«естественного нуля». Пример – шкала температур Кельвина – тут как раз есть абсолютный нуль. В психологии эти

шкалы почти не применяются, одно из исключений – шкалы оценки компетентности, основанные на модели Раша (о

нем в 17ом) – тк можно представить нулевой уровень осведомленности человека в какой-то области (знание

эскимосского языка). Формула - x‘=ax. Значения шкалы можно умножать на константу и применять любые

статистические методы. Области применения шкалы – измерение массы, времени реакции и времени выполнения

теста. Отличие данной шкалы от абсолютной – отсутствие «естественной» масштабной единицы.__

 


Дата добавления: 2018-05-31; просмотров: 3177; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!