Методика повышения объективности результатов эксперимента

Самооценка объективности исследователя при проведении эмпирических экспериментов

Причиной ошибок эксперимента может стать не только неверно подобранная оценочная процедура, но и «когнитивные искажения» - распространённые, подсознательные, ошибки мышления, которые мы все систематически совершаем. Такие ошибки не индивидуальны (они присущи большинству людей) и предсказуемы. Данная методика позволяет отследить самые распространенные когнитивные искажения и минимизировать их влияние на результаты эксперимента.

Ниже приведена предлагаемая методика повышения объективности результатов эксперимента, которая помогает учитывать максимальное количество известных когнитивных искажений, влияющих на результат эксперимента, на всех этапах жизненного цикла эмпирического исследования.

Жизненный цикл эмпирического исследования приведён на рисунке 1.

Постановка цели исследования

→

Выбор методов исследования

→

Выбор инструментальной базы (приборов)

→

Проведение исследования

→

Выбор методов обработки результатов исследования

→

Выбор методов верификации результатов исследования

Рисунок 1 – Жизненный цикл эмпирического исследования

Вход
Этап 1. Планирование эксперимента. Постановка цели эксперимента. Выбор факторов и отклика.
Этап 2. Применение опросника №1 и корректировка плана эксперимента.
Этап 3. Проработка вопросов организации эксперимента (например, выбор приборов, персонала).
Этап 4. Проведение эксперимента с применением опросника №2.
Этап 5. Обработка результата эксперимента с применением стандартных методик.
Этап 6. Применение опросника №3 и статистическая обработка результата опроса.
Этап 6. Нахождение коэффициента объективности и оценка объективности эмпирического исследования.
Выход - ну, например, коэффициент объективности.

Этап 1. Планирование эксперимента. Постановка цели эксперимента. Выбор факторов и отклика.

???

Этап 2. Применение опросника №1 и корректировка плана эксперимента.

Таблица 2– Фрагмент чек-листа, посвященный искажениям связанными с беспокойством за успех при организации эксперимента:

Просим Вас прочитать 2 утверждения, и отметить на шкале, какое из них и насколько отражает Вашу деятельность во время проведения текущего эксперимента.
Искажения, связанные с беспокойством за успех при организации эксперимента							Пример
Детальное планирование данного эксперимента началось в условиях отсутствия в достаточном объёме исходных данных и наличия сильно влияющих на результат неопределённых или случайных факторов Планирование эксперимента началось при недостаточном объеме исходных данных	5	4	3	2	1	Планирование эксперимента началось лишь после детального изучения всех возможных переменных и факторов, способных повлиять на результат Планирование эксперимента началось после детального изучения всех возможных переменных и факторов, способных повлиять на результат	Экспериментатор недостаточно хорошо исследовал литературные источники (отчёты) по исследуемой проблеме, не провёл опрос экспертов и специалистов, имеющих отношение к объекту исследования. Не были проведены предварительные однофакторные и отсеивающие эксперименты
Я допускал выполнение работы со скоростью большей, чем необходимо или даже допустимо Я торопился во время выполнения работы	5	4	3	2	1	Работа велась размеренно, в соответствии с изначально разработанным графиком Работа велась размеренно, в соответствии с изначально разработанным графиком
Я не изучал влияние не релевантных стимулов на изучаемую зависимую переменную.Я не изучал влияние не учитываемых в картине эксперимента стимулов на результат эксперимента (шумов, помех, внешних факторов)	5	4	3	2	1	Изучал возможную степень влияния не релевантных стимулов на зависимую переменную, чтобы быть уверенным в том, какое влияние на неё оказывает изменение независимой переменной. Я изучал влияние не учитываемых в картине эксперимента стимулов чтобы быть уверенным в том они не оказывают значимого влияния на результаты эксперимента.	Например, при исследовании влияния на поведение животных различных участков головного мозга сам факт перенесения операции по удалению соответствующего участка может изменить поведение подопытного животного)
Не учитывал изменение объекта исследования во времени Не учитывал то что с течением времени объект эксперимента может меняться	5	4	3	2	1	Учитывал изменение объекта исследования во времени Учитывал то что течением времени с объектом исследования могут произойти значимые изменения.	Например, при исследовании электрохимических процессов, при пропускании электрического тока через раствор последний нагревается
Допускал влияние одного из условий эксперимента на следующие за ним	5	4	3	2	1	Не допускал влияния одного из условий эксперимента на следующие за ним	Вот тут не понятно о чём идёт речь L
Не заострял внимание на эквивалентности групп изучаемых объектов Не заострял внимание на равнозначности групп изучаемых объектов	5	4	3	2	1	Стремился не допустить неэквивалентность группы объектов по составу, вызывающую систематическую ошибку Стремился не допустить неравнозначности групп объектов по объему, составу или качествам.	Вот тут не понятно о чём идёт речь L
Недооценил время выполнения задач, стоимость и длительность реализации исследования недооценил время выполнения задач, стоимость и длительность реализации исследования	5	4	3	2	1	При планировании были корректно посчитаны ключевые точки, временные и материальные ресурсы. При планировании были корректно посчитаны ключевые точки, временные и материальные ресурсы.	Например, закон Мерфи: всякая работа требует больше времени, чем вы думаете
Разрабатывал теоретическую гипотезу на основании правил, принятых для конкретной специальности или процессии	5	4	3	2	1	Разрабатывал теоретическую гипотезу на основании более общей, междисциплинарной точки зрения.
Проверял гипотезы исключительно путем прямого тестирования, не использовал косвенные методы проверки.	5	4	3	2	1	Дополнительно использовал косвенные методы проверки гипотезы	Вот тут не понятно о чём идёт речь L Тогда нужен пример с косвенными методами проверки гипотезы.
Допускал «предпочтение нулевого риска». переоценил возможности контроля и предпочел более контролируемую, но потенциально вредоносную ситуацию Делая выбор, предпочитал более контролируемые, но потенциально более опасные варианты.	5	4	3	2	1	Понимаю, что снижение одного не самого большого риска до нуля иногда дает иллюзию избавления от рисков.	Например, по социологической статистике большинство людей предпочли бы уменьшить вероятность террористических актов до нуля вместо снижения аварийности на дорогах, даже если бы второй эффект давал больше сохранённых жизней.
Оценивал способы решения задач по окончательным результатам «Победителей не судят»	5	4	3	2	1	Оценивал качество решений по обстоятельствам того момента, когда они были приняты.	Вот тут не понятно о чём идёт речь L

Таблица ??? – Шкала оценки объективности эмпирического исследования на этапе его планирования

Набранное количество баллов	Степень объективности	Действия
Столько-то баллов	низкая	Пересмотр цели эксперимента, факторов, параметра оптимизации,….
Столько-то баллов	средняя	Выбор когнитивных искажений с наихудшими показателями объективности и корректировка плана эксперимента с целью улучшения данных показателей
Столько-то баллов	высокая	Переход к следующему этапу

Этап 3. Проработка вопросов организации эксперимента (например, выбор приборов, персонала).

???

Этап 4. Проведение эксперимента с применением опросника №2.

Таблица 3– Фрагмент чек-листа, посвященный искажениям, связанным с «Гало-эффектом»

Искажения, связанные с «Гало-эффектом» - результат воздействия общего впечатления о чем-либо на восприятие его частных особенностей. Оказывает влияние на оценку вероятностей и формирование стереотипов.							Пример
Если я считаю, что одна зафиксированная ситуация гарантирует содержание другой то в отчете об исследовании я сообщаю только о последней.	5	4	3	2	1	Я полностью и подробно описываю результаты эксперимента.
При оценки роли и веса факторов я предпочитаю обращаться к статистике	5	4	3	2	1	При оценке роли и веса факторов я предпочитаю обращаться к интуиции
Доказательством, подтверждающим какую-либо точку зрения, может являться установленный или общепринятый факт.	5	4	3	2	1	Я не склонен считать общепринятые факты достаточным и значимым доказательствами в рамках эксперимента. Авторитетные ученые так же могу ошибаться.	Пример как ошибаются авторитетные учёные?
При анализе результатов я предавал большее значение изначальным событиям чем последующим	5	4	3	2	1	Я не считаю, что отдельные случайные события испытывают влияние предыдущих случайных событий, если их связь не доказана статистически.	Хм, непонятно о каких событиях идёт речь L
Когда по одной группе («выжившим») есть много данных, а по другой («погибшим») — практически нет, я склонен искать общие черты среди «выживших» и упускаю из вида, что не менее важная информация скрывается среди «погибших».	5	4	3	2	1	Я не склонен недооценивать не доступные прямому наблюдения данные из группы «погибших».	Например, пробоины на вернувшихся самолётах показывают места, в которых они могут получить повреждения и выжить. А. получившие повреждения в других местах не смогли вернуться на базу.
Я склонен оценивать частоту или возможность события по легкости, с которой примеры или случаи приходят на ум», т. е. легче вспоминаются	5	4	3	2	1	Я не склонен оценивает частоту или возможность события по легкости, с которой примеры или случаи приходят на ум».
При анализе и интерпретации результатов экспериментальных исследований я склонен воспринимать события, которые уже произошли, или факты, которые уже были установлены, как очевидные и предсказуемые, несмотря на отсутствие достаточной первоначальной информации для их предсказания При анализе результатов я склонен воспринимать уже произошедшие события как очевидные	5	4	3	2	1	Я стараюсь избегать эффекта «я знал», стремлюсь рассматривать возможные альтернативные объяснения события и открыт к различным точкам зрения
Обладая информацией о частоте некоторого события и специфической информацией об этом событии, я имею склонность игнорировать первое и фокусироваться на втором	5	4	3	2	1	Зная частоту специфики события я фокусируюсь на специфике события.	Например, Джон носит готическую одежду. Какова вероятность, что он христианин, и какова вероятность, что он сатанист? Если людям задать этот вопрос, они, скорее всего, недооценят вероятность того, что он христианин, и переоценят вероятность того, что он сатанист. Они проигнорируют, что базовый процент христианства (в мире исповедуют около 2 млрд людей) значительно больше базового процента сатанизма (оценивается в несколько тысяч).я не клонен фокусироваться только на специфике события
Я стремился выбрать метод решение задачи, для которого вероятность благоприятного исхода известна, по сравнению с методом, вероятность благоприятного исхода которого была мне не известна	5	4	3	2	1	Я использовал различные методы решения задачи в том числе те, в результате которых вероятность благоприятного исхода была мне не неизвестна
Преуменьшал значение одного из параметров в сравнении с только что обнаруженным контрастным параметром.	5	4	3	2	1	Учитывал влияние эффекта контраста при анализе параметров объекта.
Допускал перенос характеристики частных случаев на обширные совокупности	5	4	3	2	1	Косвенными методами проверял наличие в других совокупностях, выделенных на частном случае характеристик.	Экспериментатор пренебрёг рекомендациями относительно минимально значимого объема выборки, например, на основании положительного результата тестирования небольшого количества компонентов электронных компонентов из партии принял решение о пригодности всей партии

Таблица ??? – Шкала оценки объективности эмпирического исследования на этапе его проведения

Набранное количество баллов	Степень объективности	Действия
Столько-то баллов	низкая	Возможно, потребуется провести повторные эксперименты, выполненные другим исследованием и с применением других измерительных приборов, экспериментаторов, методов измерения… увеличить количество рассматриваемых факторов… выбрать средства измерения с повышенной точностью и помехозащищенностью… Рандомизация… дополнительные точки для проверки гипотезы о виде математической модели… Увеличение объема рассматриваемой выборки…
Столько-то баллов	средняя	Возможно, потребуется увеличить количество опытов, контрольных точек, выбрать более сложную математическую модель…. Повторить эксперимент с другим экспериментатором…
Столько-то баллов	высокая	Переход к следующему этапу

Этап 5. Обработка результата эксперимента с применением стандартных методик.

Выполняется статистическая обработка результатов эксперимента с выявлением и устранением грубых и систематических ошибок.

Этап 6. Применение опросника №3 и статистическая обработка результата опроса.

Таблица 4– Фрагмент чек-листа, посвященный искажениям, связанными с эффектом Розенталя

Искажения, связанные с эффектом Розенталя - Ожидания экспериментатора на подсознательном уровне определяют характер полученных им данных							Пример
Я допускал деформацию шкалы и сближение результатов до среднего значения Я усреднял значения результатов	5	4	3	2	1	Я не избегал крайних оценок, не занижал слишком высокие результаты и не завышал слишком низкие
Я придавал особое значение ряду параметров в экспериментальной серии.	5	4	3	2	1	Я искусственно не занижал и не завышал значение определенного параметра по экспериментальной серии
Я искал только те данные которые подтверждают или опровергают гипотезу гипотезу	5	4	3	2	1	При сборе и анализе данных стремился быть максимально не предвзятым опираясь на корреляции, полученные при помощи математического аппарата	Например, при обработке результатов измерений не была проведена процедура статистической проверки «аномальных» данных, они были отброшены как «грубая» ошибка измерения
Оценивал логическую силу аргумента в зависимости от веры в истинность и ложность заключения. В зависимости от веры в истинность аргумента я оценивал логическую силу аргумента	5	4	3	2	1	При оценке логической силы аргумента опирался на дополнительное мнение не осведомленного о гипотезе эксперта.
При проведении серии экспериментов получив «хорошие» и «плохие» данные в первых сериях эксперимента я стремился первые «улучшить» а вторые «ухудшить» в последующих сериях	5	4	3	2	1	Стремился минимизировать свое влияние на условия эксперимента после получения данных по первым сериям.

Таблица 5– Фрагмент чек-листа, посвященный искажениям, связанными с «ошибкой меткого стрелка»

Искажения, связанные с «Ошибкой меткого стрелка»							Пример
Для анализа использовал только сходные данные и игнорировал отличающиеся.	5	4	3	2	1	Анализировал не только группирующиеся данные, но и «выбросы»	Например, можно стрелять по амбару, а уже потом, в месте, где появилось самое большое количество пробоин, мишень. И похвалить себя за меткость.
Проверял правильность модели прогноза на основании одних и тех же экспериментальных данных	5	4	3	2	1	При проверке статистических гипотез и создании метода проверки использовал разные выборки экспериментальных данных.	Экспериментатор решил сэкономить на опытах и не разбивать выборку на экспериментальную и тестовую

Таблица ??? – Шкала оценки объективности эмпирического исследования на этапе построения модели исследуемого процесса/явления

Набранное количество баллов	Степень объективности	Действия
Столько-то баллов	низкая	Перестройте эксперимент так, чтобы одни и те же данные не использовались для построения модели и проверки её прогностических свойств… обратите внимание на «аномалии» в данных, попробуйте найти причину их появления
Столько-то баллов	средняя	Возможно, исследуемый процесс/явление является более сложным, чем вы думали, и следует для их описания использовать более сложные модели.
Столько-то баллов	высокая	Поздравляем, ваше эмпирическое исследование достаточно объективно…

Этап 6. Нахождение коэффициента объективности и оценка объективности эмпирического исследования.
Выход - ну, например, коэффициент объективности.

Конец методики

А здесь должен быть кейс

Результаты

Была выявлена проблема, связанная с отсутствием постоянной практики учета субъективности экспериментатора при проведении точных эмпирических исследований в рамках точных наук. На данный момент нами разработан чек-лист, позволяющий снизить субъективность эмпирических исследований за счёт минимизации когнитивных искажений. Разработанный инструмент может применяться для оценки экспериментатором самого себя. Перспективным направлением работы является стандартизация и дальнейшее развитие диагностических возможностей разработанного опросника.

Обсуждение

Заключение

таким образом для улучшения точности исследований и повышения их объективности необходимо применять и прорабатывать методики проверки этой самой объективности наличия проведенного эксперимента

Цель данной работы заключалась в разработке Методики повышения объективности эмпирических исследований

Работа по конструированию диагностической методики (личностного опросника для экспериментатора) проводилась в 3 этапа.

На первом этапе была разработана теоретическая модель влияния когнитивных искажений на объективность эмпирических исследований. Так же были подобраны методики исследования эффективности личностных опросников.

На втором этапе был разработан личностный опросник, диагностирующий объективность исследователя при проведении эмпирических исследований.

На третьем этапе при помощи разработанного опросника было проведено эмпирическое исследование и статистический анализ полученных данных, по результатам которого сделаны выводы об эффективности полученного опросника. Эффективность разработанного опросника подтвердилась на применимом уровне значимости, но как во всяком исследовании, в нашей работе имеется ряд ограничений. Среди них, например, небольшая для подобного исследования выборка, обусловленная тем, что пилотажное исследование проводилось в условиях сжатых сроков на производственных предприятиях. Поэтому в рамках будущих исследований необходима дальнейшая доработка некоторых вопросов в шкалах и разработка стандартных норм на большей по количеству выборке. Эта работа будет проводиться в ближайшее время при применении данного опросника на практике на предприятиях, занимающихся производством и разработкой сложной технической продукции, имеющих испытательные цеха или экспериментальные лаборатории. Опросник имеет перспективы развития.

По итогам проведенной работы можно сделать вывод, что данный опросникспособен на практике облегчить работу любому исследователю, поставившему перед собой задачу собрать максимально объективный и свободный от когнитивных искажений эмпирический материал.

Список литературы

Лучше взять побольше литературы иностранной, из Scopus

Федюкин В.К. Квалиметрия. Измерение качества промышленной продукции. Учебное пособие. – Москва: КНОРУС, 2017. – 230с.

С.Н. ТИЦ "Человеческий фактор"

Наследов А.Д. Математические методы психологического исследования. Анализ и интерпретация данных. Учебное пособие. – СПб: Речь, 2004. – 392с.

Копец Л. В. Классические эксперименты в психологии — К., 2010

Кукла А. Ментальные ловушки: Глупости, которые делают разумные люди, чтобы испортить себе жизнь / Андре Кукла; Пер. с англ. — 2-е изд. — М.: Альпина Бизнес Букс, 2008. — 146 с.

Хяков – экспериментальная психология

ГОСТ Р ИСО 5725-2-2002 Точность (правильность и прецизионность) методов и результатов измерений. Настоящий стандарт представляет собой полный аутентичный текст международного стандарта ИСО 5725-2:1994* "Точность (правильность и прецизионность) методов и результатов измерений. Часть 2. Основной метод определения повторяемости и воспроизводимости стандартного метода измерений"

И вообще все про опросники написал господин Клайн ( Клайн П. Справочное руководство по конструированию тестов. Киев: 1994. 186 с.) еще в 94 году. Нужная информация в п3 - "3. Особенности создания опросников", стр10.

Артемьева Е.Ю. Психология и математические модели субъективного мира // Вестник Московского университета. Серия 14. Психология. 1990. № 3. С.4-15.

Большой психологический словарь. Под редакцией Б.Г. Мещеряковой, В.Г. Зинченко. М.: Прайм Еврознак, 2007. 672с.

Гуревич К.М. Психологическая диагностика и проблема индивидуальных различий. // Психологический журнал. т.19. 1998.№3.

Дружинин В.Н. Экспериментальная психология: Учебник для вузов. 2-е изд., доп. СПб.: Питер, 2003. – 319 с.

Занковский А.Н. Организационная психология.Учебное пособие для вузов по специальности «Организационная психология» М.: Флинта: МПСИ, 2000. 648 с.

Клайн П. Справочное руководство по конструированию тестов. Киев: 1994. 186 с.

Худяков А.И., Зароченцев К.Д. Обобщенный образ как предмет психофизики. СПб.: 2000. 220 с.

Худяков А.И. Экспериментальная психология. СПб.: Питер, 2008. 320 с.

Батуев А.С. Высшая нервная деятельность. СПб.: Питер, 2005. 324 с.

КОНЕЦ СТАТЬИ

НЕВКЛЮЧЁННОЕ

В 1796 г произошло интересное событие, вскрывшее, на сколько не надежными могут быть «объективные», точные измерения. Директор Гринвичской лаборатории Масклайн уволил ассистента Киннбурка, который определял время прохождения звезды чуть ли не на секунду позже него. Он счел его работу небрежной и безответственной. Через некоторое время знаменитый немецкий астроном Бессель, заинтересовавшись конфликтом Масклайна с его сотрудником, снял с последнего обвинение в недобросовестности. Он пришёл к выводу, что нет двух астрономов, в наблюдениях которых не было бы непроизвольных различий. И эту составляющую очень сложно контролировать так как она связанна с особенностями нервной системы и индивидуальными различиями разных людей. Этот эпизод дал старт исследованиям влияния человеческого фактора на объективность научных исследований.

Как измерять новый метод? С помощью его же самого?

Рассмотрим набор инструментов, которые видится целесообразными использовать для решения такой задачи как разработка опросника самооценки экспериментатора с целью повышения объективности эксперимента.

Коротко, схема измерения при помощи опросника самооценки выглядит так:

S ® P ® R ® M,

S - множество стимулов (внешние независимые переменные), R - множество реакций (множество внешних зависимых переменных), M - математическая модель, P - множество «внутренних переменных», «та самая пресловутая черная кошка, которую уже сто лет психологи ловят в почти абсолютной темноте, понимая, что ее в комнате может и не быть» [Батуев, с. 119].

Воздействуя стимульным набором на человека, мы надеемся, что при этом активизируется именно та область, которую мы хотим изучить - это проблема валидности. Регистрируя изменения внешних реакций, мы можем сопоставить им числа или другие формальные конструкты и исследовать это множество. По структуре этого множества мы судим об изучаемом явлении.

Д. Гилфорд вводит три пространства:

- пространство стимулов;

- пространство откликов;

- пространство оценок.

S - стимулы; R - отклики; J - оценки; S и J - реальные пространства,
R - гипотетическое.

При построении модели процесса измерения, прежде всего, делаются предположения о характере распределения случайных величин во всех трех пространствах [Батуев, с. 119].

В процессе психодиагностического обследования стимул S отражается на внутреннюю переменную X = f(S). Эта внутренняя переменная определяет вид реакций тестируемого на задания теста

Большинство стандартизированных психодиагностических методик основаны на модели нормального распределения. Любую случайную величину x, распределенную по нормальному закону, можно линейным преобразованием привести к центрированному, нормированному виду z = (x-m)/d.

Кроме этого основного предположения в основе классической теории тестов лежат следующие допущения:

Пусть Xvil - величина полученная при измерении тестируемого v в тесте i при l-том подходе; Tvi - «истинная величина», соответствующая испытуемому v в тесте i; fvil – ошибка при l-том измерении:

Xvil = Tvi + fvil.

Предполагается.

1. Величина полученная в результате тестирования состоит из истинной величины и ошибки. При повторениях измерения fvi1, fvi2,...fvil являются реализациями случайной величины Fvi. Истинная величина Tvi постоянна. При этом величина Xvi при многократных повторениях измерения также случайная: Xvi = Tvi + Fvi.

2. Математическое ожидание ошибки при многократных измерениях равно 0. Е(Fvi) = 0. Следовательно, E(Xvi) = Tvi – «истинное значение» равное математическому ожиданию тестовой величины. E – оператор, вычисляющий математическое ожидание.

3. D(Xvi) = D(Fvi) – общая дисперсия равна дисперсии ошибки, так как Tvi предполагается постоянной. D – оператор, определяющий дисперсию.

4. E(F) = 0, r(F,T) = 0, r(T1,T2) = 0, r(F1,F2) = 0, r – коэффициент корреляции.

То есть ошибка и истинная величина независимы и все ошибки измерений полностью случайны.

Е(Х) = Е(Т), D(X) = D(T)+D(F).

Эти предположения аналогичны постулатам метрологии, которые лежат в основе теории ошибок. Аналогом «эталона» сравнения служит так называемая «статистическая норма», принятие которой основано на предположении о нормальном распределении.

пока есть только диаграмма ишикавы(надо переработать), и чек лист

нужно определить мат аппарат

Опросник самооценки может быть охарактеризован как эффективный если он удовлетворяет определенным требованиям.

Основные требования следующие:

- использование шкал интервалов;

- надежность;

- валидность;

- дискриминативность;

- стандартизация [Клайн, с.22].

Эти факторы отличают настоящий диагностический инструмент от пародий на опросники самооценки, которые часто публикуемых в популярных журналах. Процедура стандартизации, нормирования, валидизации, проверки на надежности и дискриминативность являются основными методами эмпирического исследования эффективности диагностического инструментария. При проведении пилотажного исследования считается достаточным проведение валидизации, проверки на дискриминативность и стандартизация методики.

Рассмотрим все критерии эффективности диагностического инструментария подробнее.

1. Существуют шкалы нескольких уровней, иерархически упорядоченные по сложности. В идеале разработчик психологических тестов должен стремиться использовать шкалы отношений. В случае, когда это невозможно - шкалы интервалов. Особенно если предполагается, что результаты будут подвергаться статистическому анализу. Поскольку изучение валидности тестов практически неизбежно влечет за собой такой анализ (а также потому, что количественные показатели измерений в психологических тестах предоставляют им преимущества по сравнению с другими видами испытаний), вывод очевиден: ничего менее точного, чем шкалы интервалов, использовать нельзя.

2. Относительно опросников самооценки термин «надежность» имеет два значения:

- тест называется надежным, если он является внутренне согласованным;

- тест также называется надежным, если он дает одни и те же показатели для каждого тестируемого (при условии, что испытуемый не изменился) при повторном тестировании. Надежность при повторном тестировании по прошествии времени называется ретестовой надежностью [Клайн, с.23].

На результаты тестирования оказывают влияние как состояние тестируемых (например, биоритмы, усталость, стресс и так далее), так и даже незначительные изменения в условиях проведения тестирования (шумы, освещенность, погода и так далее. Таким образом, перед тем, как использовать методику необходимо убедиться в её надежности.

Существует целый ряд методов определения надежности теста. Рассмотрим несколько из них.

1. Тест-ретест метод. Этот метод предполагает двойное предъявление одного и того же теста одинаковой выборке тестируемых и последующую корреляцию двух распределений. Чем ближе к +1,00 значение полученной корреляции, тем более стабильны показатели теста и больше его надежность. Разумеется, очень важно, чтобы в руководстве по использованию теста был указан временной интервал между двумя предъявлениями, так как чем больше времени между предъявлениями, тем обычно ниже надежность теста. Однако из-за эффектов практики и запоминания, которые при повторном предъявлении могут оказывать влияние на результаты тестирования, данный метод проверки надежности теста не рекомендуется для некоторых видов тестов (например, тесты на скорость восприятия, память, моторную координацию и так далее).

2. В методе эквивалентных форм используется тот же подход, что и в методе тест-ретест. Однако, здесь во второй раз предъявляется не та же, а эквивалентная форма теста, то есть, сходная по всем содержательным характеристикам, но различная по форме и количеству вопросов/заданий. Главное достоинство этого метода - устранение проблем, связанных с эффектами запоминания и научения. В то же время недостатком выступает необходимость разработки эквивалентной формы, требующая дополнительных расходов.

3. Так называемый метод «двух половинок» связан не столько с временной стабильностью теста, сколько с определением его внутренней консистентности. Для определения надежности с помощью этого метода результаты тестирования искусственно разделяются на два распределения: одно образуется четными вопросами/ заданиями теста, другое нечетными. Затем, определив, в какой мере данные обоих распределений коррелируют между собой, подставляют полученный коэффициент корреляции в формулу Спирмена-Брауна. Этот метод, пожалуй, наиболее популярен благодаря своей экономичности, как с точки зрения времени, так и затрат.

Надежность - это важная характеристика теста, однако следует помнить, что надежность сама по себе ценности не представляет. Ее ценность состоит в том, что часто она необходима для достижения валидности. Однако, может случиться так, что тест будет почти совершенно надежным, но почти полностью не валидным [Клайн, с.181]. Указания на величину корреляции в руководстве по использованию теста должны сопровождаться информацией о примененном методе определения надежности [Занковский, с.614].

3. Валидность

В широком смысле валидность свидетельствует о степени соответствия/идентичности измеряемой тестом характеристики самой характеристике. Например, если индивид имеет высокие показатели по интеллектуальному тесту, то этот тест будет считаться валидным только в том случае, если его результаты не противоречат другим проявлениям развитого интеллекта (высоким показателям в учебе, выработке оптимальных решений в трудовой деятельности и так далее). Если же такой корреляции не будет, а обладатель высокого IQ будет удивлять окружающих своей глупостью, станет очевидно, что тест лишен валидности и, по всей видимости, измеряет вовсе не интеллект, а что-то иное [Занковский, с.614 - 615].

По определению Дружинина, тест валиден (и, кстати, надежен), если на его результаты влияет, лишь измеряемое свойство. Тест невалиден (и ненадежен), если результаты тестирования определяются влиянием нерелевантных переменных [Дружинин, с. 614].

В действительности, существует много различных способов доказательств валидности тестов, и каждый из них соответствует разным аспектам этого значения [/Клайн, с. 26].

1. Очевидная (внешняя) валидность – соответствие конкретного исследования природной реальности и, или другим подобным исследованиям. Определяются возможности переноса и обобщения результатов на другие объекты и условия исследования. Тест считается, очевидно валидным, если у респондента складывается впечатление, что он измеряет то, что должен измерять [Дружинин, с. 106].

2. Содержательная валидность – является составляющей внешней валидности. Включает систематический анализ содержания теста на предмет его адекватности измеряемым навыкам, знаниям и способностям, необходимым в конкретной ситуации. Определяется такая валидность, на основании суждений экспертов (например, руководства) о соответствии содержания теста содержанию конкретной профессиональной деятельности. Так, например, экспертам, может быть, независимо предложено оценить тестовые вопросы или задания на предмет их важности (бесполезности) для достижения конкретной поставленной цели.

3. Экспериментальная валидность (внутренняя) – по определению Корниловой - способность сделать верные выводы на основе результатов методики. То есть результаты методики должны служить основанием достоверного вывода. Дружинин определяет экспериментальную валидность как меру влияния независимой переменной на зависимую, по отношению к другим факторам., определяющую достоверность экспериментальных результатов [Дружинин, с.106].

В случае, если не существует подобных тестов, для валидизации можно использовать внешний критерий - экспертные оценки. Здесь, однако, тоже существуют проблемы. Валидность рейтингов может оказаться сомнительной. Ведь, если есть возможность применения рейтингов, то вряд ли нужен тест. Конкурентная валидность также полезна для установления того, что не измеряет тест. Тест не должен иметь корреляции с другими тестами, измеряющими совершенно иные показатели [Клайн, с. 26].Для установления прогностической валидности изучаются корреляции теста с некоторым критерием, характеризующим измеряемое свойство, но в более позднее время. Основная сложность такой валидизации состоит в выборе значимого критерия [Клайн, с. 27].

4. Конструктная (концептуальная) валидность выражает адекватность метода интерпретации экспериментальных данных теории. По мнению Кэмпбелла, конструктная валидность характеризует правильность обозначения (интерпретации) причины и экспериментального эффекта с помощью абстрактных терминов из обыденного языка или формальной теории. Внутренняя валидность определяется достоверностью интерпретации экспериментального эффекта как связи изучаемой причины и следствия, а конструктная валидность - правильностью употребления терминов той или иной теории при интерпретации данных эксперимента [Дружинин, с. 125]. Для доказательства конструктной валидности привлекается демонстрация психологических характеристик переменных, измеряемых методикой. При этом затрагиваются другие, ранее обсуждавшиеся типы валидности.

Процедура определения конструктной валидности следующая:

перечислить точно гипотезы, касающией переменных, с которыми данный тест должен корелирвать (конкурентная валидность);

перечислить точно гипотезы, касающиеся переменных, с которыми тест не должен корелировать;

указать группы, которые должны давать низкие и высокие показатели по данному тесту;

сформулировать гипотезу о месте данного теста в факторном пространстве [Клайн, с. 212].

Из написанного выше становится понятно, что не может быть какого-либо единственного показателя, демонстрирующего валидность теста. Для полной ее проверки следует учитывать множество получаемых показателей. Стоит также заметить, что валидность теста может фактически гарантироваться логически обоснованными методами конструирования тестов.

4. Дискриминативность

Дискриминативность является еще одним параметром, внутренне присущим диагностической методике. Методика должна хорошо «различать» респондентов с разными уровнями выраженности свойства [Дружинин, с. 106].

Достижение удовлетворительного распределения показателей является одной из целей разработчика методики. Какова ценность психологического теста, по которому все испытуемые показали одинаковые результаты?

Стандартизация

Под стандартизацией подразумевается единообразие предъявления и обработки теста. Если необходимо сравнить результаты тестирования нескольких респондентов, то, разумеется, необходимо предусмотреть, чтобы условия тестирования были идентичными для всех. С целью достижения единообразия создатели тестов указывают в руководствах точные процедуры тестирования, касающиеся временных ограничений, устных инструкций, ответов респондентов на специфические вопросы, форм и бланков, необходимых для прохождения теста, физических условий (например, сидя за столом, условий освещения и так далее), а также процедуры обработки результатов [Занковский, с. 612].

Тестовые нормы, полученные в ходе стандартизации, представляют собой систему шкал с характеристиками распределения тестового балла для различных выборок. Они не являются «внутренним» свойством теста, а лишь облегчают его практическое применение [Дружинин, с. 106].

Чтобы интерпретировать эти данные, их надо сравнить с результатами, показанными группой других респондентов. Такое сравнение становится возможным при наличии тестовых норм. Фактически нормы - это распределение тестовых результатов, полученных на большой выборке лиц, представляющих собой репрезентативную выборку. Распределение такой референтной группы служит системой отсчета для сравнения результатов, показанных респондентами. Совпадают ли результаты респондента со средними показателями группы или они значительно выше (ниже) средней величины? Занковский [Занковский, с. 612] описывает следующую закономерность: респондент, чьи результаты на 2 стандартных отклонения превышает среднее, имеет лучшие показатели, чем 97,8% референтной группы.

Существует ряд проблем, возникающих при создании опросника самооценки. Если их не разрешить при разработке вопросов, то неизбежно снижение валидности опросника.

1. Установканасогласие (response set of acquiescence). Это тенденция респондента соглашаться с утверждениями или отвечать на вопросы «да» независимо от их содержания. Чаще всего проявляется, когда утверждения (вопросы) неоднозначны и неопределенны [Клайн, с. 91]. Устраняется про помощи разработки сбалансированных шкал (с примерно равным количеством заданий имеющих ключевые ответы «да» или «нет»), разработки понятных и недвусмысленных вопросов. А также при помощи специальных методик, разработанных для определения, была ли установка на согласие фактом, влияющим на ответы респондента [Клайн, с. 102-105].

2. Установка на социально одобряемые ответы - тенденция респондентов отвечать на вопросы теста так, чтобы выглядеть «социально положительными», если возможен «социально желательный» ответ, то весьма вероятно, что испытуемые будут его давать [Клайн, с. 91]. Устраняется при помощи разработки заданий с вынужденным выбором, избегания явно социально желательных – не желательных ответов, измерения социально желательных и не желательных черт, использования шкалы лжи, валидизации теста [Клайн, с. 106-109].

3. Установка на неопределенные и средние ответы. Если в опроснике представлена средняя категория ответов, отражающая нерешительность или неуверенность в ответе (например, «не уверен», «не знаю», или «затрудняюсь ответить»), то многие респонденты склонны к ней прибегать, как к безопасному компромиссу. Это приводит к снижению валидности заданий, поскольку большинство методов анализа вопросов основывается на крайних значениях показателей [Клайн, с. 91]. Чаще всего это происходит, когда оба крайних значений в равной степени безразличны для респондентов. Средством борьбы с этой установкой является повышения значимости вопросов методики [Клайн, с. 111].

4. Установка на «крайние» (расположенные по краям шкалы) ответы. Эта установка может проявляться при использовании многоэлементной рейтинговой шкалы. Некоторые респонденты вне зависимости от содержания вопросов предпочитают выбирать крайние ответы [Клайн, с. 91].

5. Очевидная валидность – при разработке тестов личности обусловлена необходимостью уверенности в том, что ответы на вопросы могут рассматриваться как правдивые [Клайн, с. 92].

6. Необходимость создания выборки из генеральной совокупности вопросов. Иногда, даже опытные разработчики вопросов бывают удивлены тем, что вопросы нагружены не теми факторами, для выявления которых были созданы. А также тем, что вопросы вообще не нагружены ни одним из факторов. Эта проблема, с точки зрения классической теории тестов состоит в трудности определения конкретной выборочной совокупности [Клайн, с. 92].

Поэтому изначально необходимо сконструировать вдвое больше заданий, чем необходимо для окончательного опросника. При этом личностный опросник для взрослых должен занимать не более 30 минут. В идеале опросники должны быть настолько краткими, насколько это возможно в соответствии с критериями надежности и валидности. Это значит, что в выборочной совокупности должно быть, по крайней мере, 50 заданий [Клайн, с. 183].

7. Выборка из генеральной совокупности испытуемых. Часто личностные тесты разрабатываются универсальными. То есть, применимыми к любым респондентам, за исключением респондентов с патологией. В этом случае, в идеале, необходимы выборки из общей популяции (то есть всего населения), в которой встречаются все возможные показатели. Такие выборки получить непросто, так как они должны быть очень большими по объему [Клайн, с. 92].

8. Проблемы в установке адекватного критерия валидности. Как уже указывалось выше, в описании конкурентной валидности, рейтинги - не самый адекватный инструмент. Аналогично, если уже существуют тесты, измеряющие те же показатели - под сомнение ставится необходимость нового теста. Таким образом, разработчики часто вынуждены ограничиваться исследованиями конструктной валидности основанными на мультивариативном анализе разработанного теста по сравнению с другими переменными, а также исследованиями специальных групп, имеющих по предположению контрольные показатели по рассматриваемой переменной [50, с. 93].

Нет необходимости говорить о том, что для личностных опросников важна корректная формулировка вопросов. Далее приведем формы вопросов, используемых в наиболее эффективных опросниках.

Вопросы с ответом типа «да - нет» - легко формулировать, понятны респондентам, ответы на них даются быстро.

Вопросы с ответом типа «да - затрудняюсь ответить - нет». Трудность с такими вопросами заключается в том, что эта «средняя» категория очень привлекательна для респондентов и редко бывает информативной.

Альтернативые задания с ответами типа «правда - ложь». Утверждения от первого лица, которые необходимо отметить как верные или не верные.

Задания с ответами типа «нравится – не нравится». Используются в проективных опросниках, но не обязательно.

Задания с рейтинговыми шкалами. Им часто отдается предпочтение потому, что в них преодолеваются трудности, связанные с корелирующими дихотомическими заданиями, а также, потому что респондентам они кажутся наиболее разумными. Хотя при использовании этой шкалы может проявиться установка на крайние ответы.

Трихотомические задания. В действительности это трихотомический вариант формы вопроса типа «да - нет». Например «обычно – иногда - никогда». Это более гибкий вариант, чем дихотомические и альтернативные вопросы.

Трихотомические задания с выбором. Позволяют вложить в краткую фору задания практически любую мысль. В них используются три завершающих предложения фразы, одну из которых респондент должен выбрать.

Задания с вынужденным выбором. Респондент принуждается к выбору одного из, обычно, двух утверждений, которое ему наиболее близко [Клайн, с. 93-96].

При формулировании заданий, также имеет смысл следовать некоторым правилам.

1. Устранять возможность проникновения испытуемых в суть того, что изучается при помощи данных заданий. Это делается не ради того, чтобы ввести их в заблуждение, а потому, что если испытуемые догадаются, что некоторое задание предназначено для измерения черты X, то ответы будут отражать их точку зрения по выраженности у себя этой черты, а не реальное положение дел. Представления же некоторых испытуемых о своей личности могут быть значительно искаженными. В связи с этим, идеальным было бы оценивать испытуемого по чертам, о которых он не знает, задавая ему вопросы о том, что он знает хорошо.
2. Формулируйте понятные, недвусмысленные вопросы. Это важно для того, чтобы уменьшить погрешность, возникающую из-за неверного понимания вопросов. Высокая надежность зависит, в известной степени, от этого качества теста.
3. Задания должны отражать конкретные, а не общие аспекты изучаемой области поведения. Так, задание вида: «Нравится ли вам спорт? » — является слишком общим: термин «спорт» — неопределенный, как и термин «нравится» Необходимо задать более конкретный вопрос: «Вы играете регулярно в какую-либо спортивную игру?» или «Вы регулярно следите за игрой вашей любимой спортивной команды?» На эти вопросы, ответы на которые вряд ли будут фальсифицировать или относительно которых реальное поведение вряд ли изменится, испытуемые будут отвечать одинаково, когда бы вы их ни тестировали.
4. В каждом задании следует задавать только один вопрос или делать только одно утверждение. Рассмотрим пример: «Думаю, следует заставить черных и представителей других рас эмигрировать». Если это задание предназначено для измерения расизма, то оно будет плохим. Есть расисты (такие, как южно-африканские), которые проводят резкие различия между черными и людьми других рас. Другие считают всех, кто не являются
англо-саксами, не относящимися к людям. Следовательно, некоторые расисты могут положительно ответить на этот вопрос, тогда как другие - нет (только черных следует принуждать к эмиграции). Более злостные расисты могут быть готовы оставить черных и представителей других рас, но видеть их исключительно в качестве рабов. А, например, немцы, проживающие в Англии, опять-таки ответят «нет», исходя из своей интерпретации понятия «другие расы» Следовало бы дать утверждение более точно: «Думаю, следует заставить негров эмигрировать».
5. Избегайте, насколько это возможно, слов, определяющих частоту действий. Они обычно настолько субъективны, что вносят большую неопределенность. Это положение прояснят примеры. Например, вопрос «Часто ли вам снятся сны?» Здесь все зависит от значения слова «часто». Некоторые испытуемые могут испытывать такое чувство, что видеть сон раз в месяц — это часто, и ответят на вопрос утвердительно. Другие могут возразить, что один сон за ночь — это не часто, потому что исследования показали, что людям снятся три-четыре сна за ночь, и ответят «нет». Улучшенный вопрос будет звучать: «Снятся ли вам сны дважды в неделю или чаще?»
6. Насколько возможно, избегайте терминов, выражающих чувства. Вместо этого, попытайтесь представить задание в контексте поведения. Если задание может быть сформулировано так, чтобы неопределенные слова о чувствах могли быть заменены на описание поведения, это должно быть сделано. Когда это невозможно, конечно же, стоит попытаться составить задания, в которых описываются чувства. Их пригодность или непригодность будет выявлена на этапе анализа заданий.
7. При помощи инструкций обеспечьте, чтобы испытуемые давали первые, приходящие на ум ответы. Не позволяйте испытуемым долго размышлять над значением заданий. Эффективное задание теста, которое действительно имеет отношение к поведению испытуемого, должно вызвать немедленную и точную реакцию. В противном случае, вероятно, что задание не выявляет тот аспект поведения, который имеет существенное отношение к измерению личностных качеств [Артемьева, с. 96-99].

Дата добавления: 2019-09-08; просмотров: 157; Мы поможем в написании вашей работы!

Поделиться с друзьями:

⇐ Предыдущая 123 Следующая ⇒

Мы поможем в написании ваших работ!