Метод сопоставления функций успеха



 

       Сущность данного метода [28] заключается в следующем каждому узловому (якорному) заданию j с характеристиками  и  оцененными по первому варианту теста соответствует функция успеха одной переменной :

 

       ,     j=1, 2, 3, ………t.

 

       Сумма таких функций для всех узловых заданий является оценкой математического ожидания первичного балла произвольного участника с уровнем подготовленности при решении t узловых заданий:

 

       ,

аналогично для варианта имеем:

 

             и          .

 

       Преобразование функций успеха заданий на шкалу первого задания зависит от коэффициентов и  линейного преобразования:     

, , .

 

,

 

.

 

Если двухпараметрическая модель Раша полностью адекватна экспериментально полученным данным тестирования и оценки параметров всех заданий безошибочны, то для каждого  существует пара чисел и , для которой функции        и    

 

совпадают для любого полученного значения . На практике указанные условия не выполняются и параметры и находят из условия минимума расстояния между функциями  и по стандартной квадратичной метрике, т.е. из условия минимума интеграла вида:

 

                              ,  

 

где - функция распределения в изучаемой выборке. На практике процесс сводится к минимизации функции вида:

 

                                     ,

 

где  - случайная выборка из нормального закона распределения с нулевым математическим ожиданием и реально полученной дисперсией D отклонения от нуля оценок параметра в варианте с номером . Таким образом: , i=1, 2, …..,H ≥ .

       Данная методика легко реализуется на практике, однако функции:

 

     и    

 

вычисляются приближенно, т.к. ее аргументы  и  могут быть вычислены только приближенно с определенными среднеквадратичными ошибками. Поэтому вместо функции:

 

 

следует минимизировать взвешенную сумму квадратов уклонений:

 

       ,          

где - вес , т.е. величина обратно пропорциональная соответствующей дисперсии. Дисперсию значения можно оценить по формуле:

 

       ,

 

       т.к. и     , то:

 

       , аналогично:

 

       /

 

       Дисперсия и вес разности :

 

       ,          ,

 

где С – произвольная постоянная.

       Поскольку выражения для весов включают в себя искомые параметры  и , то задачу необходимо решать итерационными методами. Для этого, необходимо сначала положить все веса  =1 для всех элементов  из нормальной выборки и найти начальные приближения для  и , путем минимизации функции:

 

       .

 

Затем, используя найденные значения  и  надо вычислить веса:  и найти новые значения  и  путем минимизации функции:

 

        .

 

Процесс продолжают до тех пор, пока не будет достигнута достаточная сходимость результатов, что достигается, как правило, уже после второй итерации.

 

 

Анализ качества диагностических материалов

 

       Одним из ключевых моментов диагностики знаний является необходимость не только оценивать уровень знаний испытуемых, но и анализировать качество диагностических материалов, что необходимо для адекватной оценки знаний.

Понятие качества диагностических материалов включает в себя оценку их надежности и валидности [25,26,35-37], являющихся одними из важнейших характеристик педагогических измерений. Надежность теста – это характеристика методики, отражающая точность измерения и устойчивость результатов к воздействию посторонних случайных факторов. При этом необходимо, чтобы сами испытуемые не изменяли свой уровень подготовки перед повторным тестированием (по тому же самому тесту). С одной стороны такая постановка вопроса является единственно верной, но с другой стороны желательно, чтобы испытуемый получал знания и в процессе тестирования (обучение на собственных ошибках) и анализируя свои результаты. Надежность теста связана с понятием стандартной ошибки, чем выше надежность, тем меньше стандартная ошибка измерений. Существует несколько различных понятий надежности диагностического теста и соответственно методов ее определения [16,36,38,39]:

  • надежность параллельных форм;
  • ретестовая надежность;
  • надежность расщепленных частей теста.

Надежность параллельных форм – характеристика, получаемая с помощью параллельных форм (вариантов) теста, проведенных на одной и той же выборке испытуемых. Корреляция результатов обоих тестов является показателем надежности. В реальной ситуации доказать параллельность двух форм (вариантов) теста или провести повторное тестирование с соблюдением одинаковых условий не представляется возможным.

Ретестовую надежность определяют при повторном использовании того же самого теста спустя некоторый промежуток времени. Однако, любой испытуемый, проходя тестирование, всегда получает дополнительные знания, анализируя свои результаты. Поэтому, ретестовая надежность так же не может считаться абсолютно объективным показателем.

Надежность расщепленных частей теста исследуется путем анализа устойчивости результатов отдельных совокупностей тестовых заданий при однократном тестировании. По-сути, данный способ является некоторой модификацией способа исследования надежности параллельных форм, однако он более технологичен и поэтому получил более широкое распространение.

Согласно классической теории тестов наблюдаемый тестовый балл X можно представить в виде суммы двух компонент [2]: истинного Т и Е – связанного с угадыванием, неправильным пониманием смысла задания и т.д.

 

Х=Т+Е

 

Дисперсия наблюдаемых тестовых баллов   состоит из дисперсии истинной компоненты и дисперсии ошибочной компоненты :

 

 

Коэффициент надежности теста К определяется следующим соотношением:

 

Если данное отношение близко к 0, то интерпретация результатов является ненадежной, если коэффициент близок к 1, то он является надежным. Следует отметить, что коэффициент надежности характеризует не только сам тест, но является и критерием оценки выборки испытуемых.

 

 

Оценка надежности нормативно-ориентированного теста

 

       Для вычисления надежности нормативно-ориентированного теста используется коэффициент корреляции Пирсона между результатами двух параллельных тестов [40], что можно продемонстрировать, используя данные представленные в таблице 2.

 

Таблица 2.

№ студента      i Индивидуальный балл по тесту X Индивидуальный балл по тесту Y     X2   Y2
    1       X1        Y1  X1 Y1 X12 Y12
    2       X2        Y2  X2 Y2 X22 Y22
  …..      …..        …. …. …. ….
   N       Xn        Yn  Xn Yn Xn2 Yn2
   ∑      ∑Xi       ∑Yi ∑ XiYi ∑ Xi2 ∑ Yi2

 

           

                  

 

       При оценке надежности теста по двум половинам расщепленного теста используется формула Спирмена-Брауна [40]:

 

                   ,

 

где К - надежность всего теста, а - надежность, вычисленная по двум половинам теста, причем вычисляется как коэффициент корреляции Пирсона. При этом необходимо подсчитывать баллы испытуемых отдельно для четных и для нечетных заданий теста (см. табл. 3).

 

Таблица 3.

№ студента      i Индивидуальный балл по нечетным заданиям теста Индивидуальный балл по четным заданиям теста     X2   Y2
    1       X1        Y1  X1 Y1 X12 Y12
    2       X2        Y2  X2 Y2 X22 Y22
  …..      …..        …. …. …. ….
   N       Xn       Yn  Xn Yn Xn2 Yn2
   ∑      ∑Xi       ∑Yi ∑ XiYi ∑ Xi2 ∑ Yi2

 

       Однако наибольшее распространение на практике получило применение для расчета надежности теста так называемой формулы KR-20:

 

,

 

где К- коэффициент надежности, m- число заданий в тесте, - доля правильных ответов на j задание, - доля неправильных ответов на j задание. Дисперсия  индивидуальных баллов N студентов вычисляется по формуле:

 

.

 

       Если величина коэффициента надежности К составляет от 0,90 до 0,99, то тест имеет отличную оценку надежности, если от 0,80 до 0,89 то хорошую, от 0,70 до 0,79 – удовлетворительную и менее 0,69- неудовлетворительную надежность. По формуле KR20 оценивается надежность таких тестов как SAT (K=0.91) и TOEFL (К=0,93). По данным [41] для текущего контроля знаний необходимо, чтобы тест имел надежность не менее 0,80, а для итоговой аттестации более 0,90.

 

Оценка надежности критериально-ориентированного теста

           

       Многие авторы [42,36,38,43,44] указывают, что традиционные способы оценки надежности не подходят для критериально – ориентированных тестов, т.е. тестов ориентированных на определенную область содержания. В большинстве случаев именно такие тесты и используются для текущей и итоговой аттестации студентов. Если процесс обучения является достаточно эффективным, то дисперсия тестовых баллов будет невелика и распределение наблюдаемых баллов будет гомогенным. Поэтому, корреляционная оценка надежности теста будет низкой [40], но с другой стороны высокий гомогенный тестовый балл может быть показателем качества обучения и его можно использовать для характеристики работы обучающей системы. Однако здесь необходимо быть достаточно осторожным и надежность теста ориентированного на область содержания следует определить как постоянство результатов тестирования для испытуемых, которым предлагается два набора заданий, выбранных из одного и того же банка, соответствующего одному и тому же содержанию. Задания так же могут быть заданы путем случайного выбора из банка, соответствующего одному и тому же содержанию. Последний способ является более технологичным и предпочтительным.

       При проведении тестов ориентированных на определенную область содержания уровень удовлетворительной подготовки определяется 70%-90% правильных ответов. В этом случае надежность определяется как постоянство результатов. Ответ на этот вопрос можно получить при использовании параллельных форм теста, проводимого одновременно или через некоторое время.

       По результатам тестирования составляется так называемая таблица сопряжения “2х2” (см. таблицу 4).

                                  

 

 

                                                                                         Таблица 4.

 

ТЕСТ

X

ПАРАЛЛЕЛЬНАЯ ФОРМА ТЕСТА X

  “НЕЗАЧЕТ” “ЗАЧЕТ”
“НЕЗАЧЕТ”      a   b
“ЗАЧЕТ”        c   d

 

Величины a,b,c,d-это доли испытуемых, получивших соответствующую аттестацию по результатам обеих форм теста. При данном подходе постоянство результатов тестирования отражает в основном свойства выборки испытуемых, а не высокое качество теста. Поэтому трудность теста должна соответствовать уровню подготовки тестируемых [2]. Для вычисления коэффициента корреляции  можно использовать следующую формулу [45]:

 

                  

 

       Если две параллельные формы теста эквивалентны по уровню трудности, а уровень подготовки студентов описывается нормальным распределением баллов в параллельных формах теста, то можно рассчитать надежность теста по так называемому тетрахорическому коэффициенту корреляции [45]:

 

                  

 

Этот коэффициент независим от среднего уровня способностей испытуемых, но зависит от уровня индивидуальных способностей и будет выше для более разнородно подготовленной группы тестируемых. Если распределение баллов в параллельных тестах не соответствует нормальному, то тетрахорический коэффициент корреляции дает завышенную оценку и не может быть применим.

       Для оценки надежности критериально – ориентированных тестов может быть применена более упрощенная методика [39]. По данным таблицы 4 оценивают вероятность (Р) принятия согласованного решения отнесения испытуемых к определенной группе (получившей зачет по результатам двух тестов и получивших незачет по результатам обоих тестов):

 

P=a+d

 

Вероятность Р позволяет только приближенно оценить надежность теста. Для более точной оценки необходимо учитывать вероятность случайного принятия согласованного решения [39] (Pc):

 

 

И вычислить надежность на основе так называемого каппа коэффициента (Кǽ):

 

 

Данный коэффициент может принимать значения от -1 до +1. Объективной оценкой надежности критериально – ориентированного теста может служить близость коэффициентов рассчитанных по разным методикам.

 

Стандартная ошибка тестовых измерений

 

       Оценка надежности теста двойной интерпретации (и нормативно и критериально – ориентированного) позволяет дать оценку стандартной ошибки индивидуального балла студента, которая может быть рассчитана по следующей формуле [40]:

 

,

 

где - стандартная ошибка индивидуального балла студента, К – надежность теста, - стандартное отклонение индивидуальных баллов в тесте

 

 

       В качестве примера можно рассмотреть тест TOEFL [46]. По данным разработчика этого теста компании ETS надежность, вычисленная по формуле KR20 составляет 0,91, = 45, тогда = 15. Если испытуемый например, набрал 500 баллов в данном тесте, то с доверительной вероятностью 0,68 его истинный балл лежит в пределах 500±15. При доверительной вероятности 0,95 его истинный балл будет находиться в пределах 500±30.

Для увеличения надежности тестов можно использовать способы, рекомендованные в работах В.С.Аванесова, М.Б.Челышковой и других исследователей. Сущность этих способов заключается в следующем:

Необходимо провести анализ каждого тестового задания на соответствие его формы и содержания основам тестовой теории.

Необходимо по возможности стремится к большому числу заданий в тесте, так как это способствует повышению качества теста и его надежности.

Желательно удалить из теста задания, плохо различающие подготовленных и неподготовленных учащихся, плохо сформулированные и вводящие в заблуждение тестируемых.

Предпочтительнее использовать в тесте задания в закрытой форме, что существенно уменьшает влияние случайного угадывания.

 

Оценка валидности диагностических тестов

 

       Напомним, что под валидностью теста подразумевается его способность измерять именно те характеристики для измерения которых он был разработан. На практике различают несколько видов валидности:

-содержательную валидность;

-критериальную валидность;

-конструктную валидность.

       Содержательной валидностью должны обладать все диагностические материалы, применяемые для контроля знаний. Тест обладает содержательной валидностью, если в нем адекватно отображены все основные аспекты исследуемой области содержания. Оценка содержательной валидности осуществляется на основе анализа конгруэнтности и технологических качеств теста. Иногда для оценки содержательной валидности используют метод “дублирования” [43]. Сущность метода заключается в том, что двум группам разработчиков тестов выдаются одинаковые планы области содержания и целей тестирования, одинаковые спецификации тестовых заданий и т.д. Проверка эквивалентности тестов и их содержательной валидности осуществляется путем сравнения результатов тестирования на одной и той же выборке испытуемых. Близость полученных результатов свидетельствует о хорошей содержательной валидности.

       Критериальная валидность – это степень соответствия между результатами тестирования и внешними критериями [47]. Примером критериальной валидности может, например, служить корреляция результатов вступительных экзаменов с успехами студентов на первом курсе, т.е. результаты вступительного тестирования являются валидными, если коэффициент их корреляции с успехами студентов высок. Критериальная валидность [47] подразделяется на:

       -конкурентную (текущую) валидность;

       -прогностическую валидность.

Текущая валидность оценивается по корреляции результатов данного теста с результатами других тестов или других внешних критериев.

Прогностическая валидность теста определяется как корреляция между результатами тестирования и некоторым внешним критерием, например будущими успехами испытуемых в профессиональной деятельности.

Конструктная валидность включает в себя все вышеперечисленные виды валидностей. Однако для ее определения необходимо наиболее точно описать конструкт (переменную), для измерения которой предназначен тест. Для этого необходимо:

-перечислить гипотезы, касающиеся данной переменной, с которыми должен коррелировать данный тест;

 -перечислить гипотезы, касающиеся данной переменной, с которыми не должен коррелировать данный тест;

-выявить группы испытуемых, которые должны показывать низкие (или высокие) результаты при тестировании.

Оценка валидности теста является более сложной задачей, чем оценка надежности, поскольку основывается не только на работе с опытными данными, но и теоретическими концепциями построения тестов. При оценке валидности необходимо учитывать две основные характеристики. Первая – конгруэнтность тестового задания элементу содержания (оценка того, в какой степени тестовое задание измеряет элемент или аспект содержания, включенный в спецификацию). Вторая - технологическое качество теста, в том числе и его форма.

Конгруэнтность тестовых заданий. Для оценки данного параметра используется следующая процедура:

1)эксперты по содержанию данной дисциплины присваивают каждому тестовому заданию рейтинг, учитывающий степень соответствия (например, от 1-неудовлетворительная конгруэнтность до 5 - отличная),

2)проводится статистический анализ рейтингов и на его основе выдается заключение о конгруэнтности теста.

Другой метод оценки конгруэнтности тестовых заданий элементам содержания заключается в том, что экспертам выдается два списка – один с заданиями, второй с элементами содержания и целями тестирования. Задачей эксперта является установления соответствия задания элементу содержания из списка. Затем составляется таблица соответствия "задание-элемент содержания" и на основе исследования распределения на независимость данных в этой таблице оценивается степень конгруэнтности.

Оценка технологического качества тестовых заданий производится на основании экспертного заключения специалистов и в процессе непосредственного использования данных тестовых заданий.

 

 

Адаптивное тестирование

 

Процедура адаптивного тестирования предполагает анализ ответов на последовательность тестовых заданий определенной трудности. Следует отметить, что адаптивное тестирование возможно, если заранее определена трудность тестовых заданий, что предполагает их предварительную апробацию и обработку результатов с использованием методов дисперсионного анализа и теории тестирования для определения надежности, валидности, дифференцирующей способности и трудности. Кроме того, адаптивное тестирование можно проводить в случае, когда искусственно задан некоторый уровень сложности тестового задания Р, равный числу операций, которые надо осуществить для его правильного выполнения. Например, Р может быть равен числу формул необходимых для решения задачи, предлагаемой испытуемому системой тестирования.

В случае тестового контроля можно поступать следующим образом. Если ответ правильный, то предполагается, что уровень подготовки студента выше сложности предъявленной задачи, и он способен решать задачи заданной трудности, в противном случае — неспособен. В данном случае можно использовать следующий подход. Если тестируемый успешно решил данное задание, то у него появляется желание решить более трудное задание. Если нет — то им будет сделана еще одна попытка решения задания той же трудности. Если оно также не решено, то предъявляется задача пониженной трудности. Если сразу не решено менее трудное задание, то предлагается задача еще меньшей трудности. Аналогично происходит процесс повышения трудности заданий. В результате, если исключить этап обучения при решении задач, то испытуемый выберет для себя определенный уровень трудности, вокруг которого и будет размываться трудность заданий.

Таким образом, функция «уровня знаний» является преобразованием функции «трудности» задачи через «способность решения задач» определенной «трудности». В этом случае термины «уровень знаний», «способность решения задач» и «трудность» носят нечеткий характер. Поэтому для формализации этих понятий целесообразно использование аппарата нечетких множеств. Кроме того, в указанной постановке заметна разница между «сложностью» и «способностью решения задач».

Непосредственно с адаптивным тестированием связано понятие адаптивного обучения, которое позволяет обеспечить представление учебного материала на оптимальном 50% уровне сложности, поскольку легкие задания не обладают развивающим потенциалом, а очень сложные снижают мотивацию к обучению. Адаптивное тестирование направлено на адаптацию процесса обучения к индивидуальным особенностям в условиях коллективного обучения. Контроль в первую очередь направлен на оценку состояния обученности и необходим для соответствующей коррекции учебного процесса.

Исходный тест по предложенному модулю может быть предназначен для предварительного тестирования групп учащихся с целью приближенного определения уровня обученности группы по соответствующему модулю курса. Целесообразность адаптивного контроля определяется оптимизацией процесса тестирования, так как нет необходимости давать легкие задания знающему студенту и сложные задания не достаточно хорошо подготовленному. Использование заданий, соответствующих уровню подготовки позволяет уменьшить время тестирования и повысить точность измерения уровня знаний.

В настоящее время выделяют три варианта адаптивного контроля:

-пирамидальное тестирование;

-flexi level-тестирование;

-stradaptive тестирование.

При пирамидальном тестировании на первом шаге всем испытуемым выдаются задания одинакового среднего уровня трудности, а затем в зависимости от ответов либо более трудное, либо более простое путем деления шкалы заданий пополам. Например [48,49], если банк заданий состоит из 21 упорядоченного по трудности задания, то тестирование начинается с 11 задания, а затем выдается либо шестое, либо шестнадцатое и т.д.

При flexi level-тестировании контроль начинается с любого уровня трудности заданий, а при stradaptive тестировании каждое последующее задание отличается от предыдущего на один шаг по трудности.

В статистической обработке ответов при адаптивном тестировании применяют IRT теорию, которая использует для моделирования вероятностей правильных ответов логистическую кривую. Проводя сравнительный анализ логистического и нормального распределений можно показать, что логистическое распределение очень хорошо апроксимируется нормальным. В свою очередь нормальный закон является предельным случаем биномиального распределения. Этот факт можно формально интерпретировать так, что «уровень знаний» является долей решенных задач, так как число решенных из общего числа задач при заданной вероятности решения подчинено биномиальному распределению.

Другая математическая модель адаптивного контроля знаний исходит из определения уровня обученности учащихся в зависимости от трудности заданий. Теоретической основой в данном случае является теория Item Response Theory (IRT) в сочетании с дидактическим принципом индивидуализации обучения. Целям дифференциации обучаемых служит построение индивидуальных кривых испытуемых по двухпараметрической модели A.Bimbaum.

 

 

Психологическое тестирование

 

Назначение психодиагностики и классификация ее методов

 

Психологическая диагностика позволяет распознать и измерить индивидуально-психологические особенности человека (свойств его личности и интеллекта), например способностей к тому или иному виду обучения [50]. Результаты психодиагностических измерений могут показывать не только наличие определенных свойств, но и степень их выраженности, уровень развития. В основе психодиагностики лежит дифференциальная психометрия. Целью которой является разработка требований к измерительным психодиагностическим методам анализ и интерпретация получаемых данных. Для этого можно использовать два подхода:

1) измерение индивидуально-психологических особенностей, требующее соотнесения с нормой (номотетический метод) [25];

2) распознавание индивидуально-психологических особенностей и их описание (идеографический метод) [25].

Эти подходы отличаются по следующим основаниям (см. таблицу 5):

пониманием объекта измерения;

направленностью измерения;

характером методов измерения.

Таблица 5

          Основание Номотетический подход Идеографический подход
Понимание объекта измерения Понимание личности как набора свойств Понимание личности как целостной системы
  Направленность измерения Выявление и измерение общих для всех людей свойств личности Распознавание индивидуальных особенностей личности
  Методы измерения Стандартизованные методы измерения, требующие сопоставления с нормой Проективные методики и идеографические техники

Психодиагностические методы классифицируются по различным критериям и показателям, на выявление которых они направлены [51,52]:

  • по используемому материалу (вербальные, невербальные, манипуляционные, тесты "бумаги и карандаша" и т.д.);
  • по количеству получаемых показателей (простые и комплексные);
  • тесты с "правильным" решением и тесты с возможностью различных ответов;
  • по психической активности испытуемых:
  • интроспективные (сообщение испытуемого о личном опыте, отношениях): анкеты, беседа;
  • экстроспективные (наблюдение и оценка разнообразных проявлений);
  • проективные (испытуемый проецирует неосознаваемые свойства личности (внутренние конфликты, скрытые влечения и др.) на малоструктурированные, многозначные стимулы);
  • исполнительные (испытуемый осуществляет какое-либо действие (перцепционное, мыслительное, моторное), количественный уровень и качественные особенности которого являются показателем интеллектуальных и личностных черт).
  • по качеству: стандартизованные, не стандартизованные;

по назначению:

  • общедиагностические (тесты личности по типу опросников Р.Кеттелла или Г.Айзенка, тесты общего интеллекта);
  • тесты профессиональной пригодности;
  • тесты специальных способностей (технических, музыкальных, тесты для пилотов и т.д.);
  • тесты достижений;
  • по материалу, которым оперирует испытуемый:
  • бланковые;
  • предметные (кубики Кооса, "сложение фигур" из набора Векслера);
  • аппаратурные (устройства для изучения особенностей внимания и т.д.);
  • по количеству обследуемых: индивидуальные и групповые;
  • по форме ответа: устные и письменные;
  • по ведущей ориентации: тесты на скорость, тесты мощности, смешанные тесты. В тестах мощности, задачи трудны и время их решения не ограничено (исследователя интересует как успешность, так и способ решения задачи);
  • по степени однородности задач: гомогенные и гетерогенные (отличаются тем, что в гомогенных задачи схожи друг с другом и применяются для измерения вполне определенных личностных и интеллектуальных свойств; в гетерогенных тестах задачи разнообразны и применяются для оценки разнообразных характеристик интеллекта);
  • по комплексности: изолированные тесты и тестовые наборы (батареи);
  • по характеру ответов на задачи: тесты с предписанными ответами, тесты со свободными ответами;
  • по области охвата психического: тесты личности и интеллектуальные тесты.

 

Основные требования к психологическим тестам

 

Требования, предъявляемые к психологическим тестам, могут быть сформулированы, исходя из определения психологического теста: "Тест – стандартизованное, ограниченное во времени испытание, предназначенное для установления количественных и качественных психологических различий" [26]. Тест это один из методов измерения в психодиагностике, который должен характеризоваться высокой степенью объективности, надежности и валидности.

Объективность психологического теста означает, что первичные показатели, полученные после обработки данных выполнения респондентом тестовых заданий, их оценка и интерпретация не зависят от поведения и субъективных суждений экспериментатора. Разработка заданий, процедура проведения, обработка результатов теста должна осуществляться согласно определенным стандартным правилам:

  • правило единообразия процедуры проведения теста для получения сравнимых с нормой результатов;
  • правило единообразия оценки выполнения теста;
  • правило определения нормы выполнения теста для сопоставления с ними показателей, полученных в результате обработки данных тестирования.

Эти правила называют этапами стандартизации психологического теста.

Первый этап: создание единообразной процедуры тестирования, в которую входит:

условия тестирования (например, объем кратковременной памяти лучше измерять с помощью субтеста повторения цифровых рядов в тесте Векслера, когда нет внешних раздражителей, таких как посторонние звуки, голоса и т.д.);

Содержание инструкции и особенности ее предъявления (например, в тесте "10 слов" каждое слово должно предъявляться через определенный интервал времени в секундах);

Наличие стандартного материала для тестирования;

Временные ограничения выполнения данного теста;

Стандартный бланк для выполнения данного теста (использование стандартного бланка облегчает процедуру обработки);

Учет влияния ситуационных переменных на процесс и результат тестирования (под ситуационными переменными подразумевается состояние испытуемого (усталость, перенапряжение и т.д.), нестандартные условия тестирования (плохое освещение, отсутствие вентиляции и др.), прерывание тестирования;

Учет влияния поведения диагноста на процесс и результат тестирования (например, одобрительно поощряющее поведение экспериментатора во время тестирования может восприниматься респондентом как подсказка "правильного ответа" и др.);

Учет влияния опыта респондента в тестировании (респондент, который уже не в первый раз проходит процедуру тестирования, преодолел чувство неизвестности и выработал определенное отношение к тестовой ситуации).

Второй этап: создание единообразной оценки выполнения теста: стандартной интерпретации полученных результатов и предварительной стандартной обработки. Этот этап предполагает сравнение полученных показателей с нормой выполнения этого теста для данного возраста (например, в тестах интеллекта), пола и т.д.

Третий этап: определение норм выполнения теста [26].

Нормы разрабатываются для различных возрастов, профессий, полов и др. Вот некоторые из существующих видов норм (см. таблицу 6):

 

Таблица 6.

Школьные нормы Разрабатываются на основе тестов школьных достижений или тестов школьных способностей. Они устанавливаются для каждой школьной ступени и действуют на всей территории страны.
Профессиональные нормы Устанавливаются на основе тестов для разных профессиональных групп (например, механиков разного профиля, машинисток и др.).
Локальные нормы Устанавливаются и применяются для узких категорий людей, отличающихся наличием общего признака, например, возраста, пола, географического района, социального и экономического статуса и т.д. (например, для теста Векслера на интеллект, нормы ограничены возрастными рамками)
Национальные нормы Разрабатываются для представителей данной народности, нации, страны в целом. Необходимость таких норм определяется конкретной культурой, моральными требованиями и традициями каждой нации.

 

Наличие нормативных данных (норм) в стандартизованных методах психодиагностики является их существенной характеристикой.

Нормы необходимы при интерпретации тестовых результатов (первичных показателей) в качестве эталона, с которым сравниваются результаты тестирования. Например, в тестах интеллекта получаемый первичный показатель IQ соотносится с нормативным IQ (43, 44, 45 баллов в тесте Равена). Если полученный IQ респондента выше нормативного, равен 60 баллам (в тесте Равена), можно говорить об уровне развития интеллекта этого респондента как высоком. Если полученный IQ ниже, то низком; если полученный IQ равен 43, 44 или 45 баллам, то среднем.

 

 

Определение норм для теста

 

На этапе создания теста формируется некоторая группа испытуемых, на которой проводится данный тест. Средний результат выполнения этого теста в данной группе принято считать нормой. Средний результат – это не единственное число, а диапазон значений (см. рис. 4: например зона средних значений – 43, 44, 45 баллов для теста Равена). Существуют определенные правила формирования такой группы испытуемых, или выборки стандартизации:

выборка стандартизации должна состоять из респондентов, на которых в ориентирован данный тест, то есть если создаваемый тест ориентирован на детей (например, тест Амтхауэра), то и стандартизация должна происходить на детях определенного возраста;

выборка стандартизации должна быть репрезентативной, то есть представлять собой уменьшенную модель популяции по таким параметрам, как возраст, пол, профессия, географическое распределение и т.д. (под популяцией понимается, например, группы школьников, руководителей, подростков и т.д.).

Распределение результатов, полученных при тестировании испытуемых выборки стандартизации, можно изобразить с помощью графика – кривой нормального распределения. Этот график показывает, какие значения первичных показателей входят в зону средних значений (в зону нормы), а какие выше и ниже нормы. Например, на рис.5 изображена кривая нормального распределения для теста "Прогрессивные матрицы Равена".

 

 

Рис. 5. Кривая распределения баллов для теста “Прогрессивные матрицы Равена”.

 

Нормы к данному тесту могут быть выражены не в виде первичных баллов, а в виде децилей, процентилей, стандартных IQ [26] и т.д. Перевод значений первичных показателей (баллов) в стандартные (производные) делается для того, чтобы результаты, полученные по разным тестам, можно было сравнивать между собой. Производные показатели получаются путем математической обработки первичных показателей. Первичные показатели по разным тестам нельзя сравнивать между собой по причине того, что тесты имеют различное внутреннее строение. Например IQ, полученный с помощью теста Векслера, нельзя сравнивать с IQ, полученным с помощью теста Амтхауэра. Так как эти тесты исследуют разные особенности интеллекта, и IQ как суммарный показатель по субтестам складывается из показателей разных по строению и содержанию субтестов. Согласно А. Анастази: "Любая норма, в чем бы она ни выражалась, ограничивается конкретной совокупностью людей, для которых она вырабатывалась... Применительно к психологическим тестам они (нормы) никоим образом не абсолютны, не универсальны и не постоянны. Они просто выражают выполнение теста испытуемыми из выборки стандартизации"

 

 

Валидность

 

Все методы психологической диагностики, начиная со стандартизованных и заканчивая нестандартизованными, направлены на измерение свойств личности и особенностей интеллекта.

Каждый метод предназначен для измерения какого-либо свойства, что и определяет содержание этого метода. Сведения о степени, в которой тест действительно измеряет то, для чего он предназначен, входят в понятие валидности [26]. Например, методика "Кольца Ландольта" предназначена для измерения таких свойств внимания, как концентрация, переключаемость. В психологии существуют определения понятий концентрации внимания и его переключаемости. Считается, что выводы, сформулированные на основании результатов тестирования с помощью "Колец Ландольта", вполне отражают содержание определений этих свойств внимания. Значит, эта методика действительно измеряет то, для чего она предназначена.

Помимо общего значения в понятие валидности входят многие другие сведения. Существуют разные типы и виды валидности, в которых отражены эти сведения:

Практическая валидность характеризует тест не столько со стороны его психологического содержания, сколько с точки зрения его ценности в отношении достижения определенной практической цели (прогнозирования, диагностики). Выделяют подтипы практической валидности: прогностическая и совпадающая. Тест с хорошей прогностической валидностью позволяет сделать прогноз, насколько успешно испытуемый будет выполнять впоследствии определенную деятельность. Тест с хорошей совпадающей валидностью позволяет ответить на вопрос: "Какова вероятность того, что индивид Х обладает свойством У в настоящий момент времени?"

Валидность по объему отражает степень, в какой объем теста выборочно репрезентирует тот класс ситуаций или учебного материала, относительно которого должны быть сделаны выводы. Валидность по объему показывает, в каком объеме, в какой мере психическое свойство отражено в методике.

Оценочная валидность выражает степень корреляции (соответствия) между показателями, полученными испытуемыми по данному методу, и оценками измерительного свойства со стороны экспертов. Например, при валидизации (проверке теста на валидность) тестов оценки умственных способностей школьников в качестве экспертов обычно выступают учителя.

Внешняя валидность означает, что впечатление, которое создается у неспециалистов при знакомстве со стимульным материалом и сугубо внешней стороной тестирования, соответствует заявленному содержанию метода.

Эффективная методика может быть создана, если она прошла все этапы валидизации, то есть когда приняты меры для придания ей как содержательной валидности (см. общее значение понятия валидности выше), так и практической.

 

 

Надежность

 

О высокой надежности метода говорят в том случае, когда метод точно измеряет то свойство, для измерения которого он предназначен [26]. В качестве критериев точности можно отметить следующие:

При повторном применении метода к тем же самым испытуемым в одних и тех же условиях через определенный интервал времени результаты обоих тестирований не должны существенно различаться между собой.

Действия случайных посторонних факторов не оказывают существенного влияния на результаты тестирования. В качестве посторонних факторов можно назвать следующие: эмоциональное состояние и утомление, если они не входят в круг исследуемых характеристик, температура, освещенность помещения и др. Такие посторонние случайные факторы еще называют факторами нестабильности измерительной процедуры.

При повторном применении метода к тем же самым испытуемым через определенный интервал времени в измененных условиях результаты обоих тестирований существенно не различаются между собой. Под измененными имеется в виду следующие условия: другой экспериментатор, состояние респондента и др.

Существуют различные методы оценки надежности:

Ретестовый метод – повторное тестирование выборки испытуемых одним и тем же тестом через определенный интервал времени при одних и тех же условиях. Временной интервал зависит от возраста (например, у маленьких детей изменения могут произойти в течение одного месяца), а также событий, происходящих с испытуемым в жизни.

 

ТЕСТ  ИНТЕРВАЛ  РЕТЕСТ

 

За индекс надежности принимается коэффициент корреляции между результатами двух тестирований. Полученная высокая корреляция может быть результатом тренированности испытуемого на заданиях подобного типа; низкая корреляция может быть результатом происшедших изменений с испытуемым, а также может свидетельствовать о ненадежности теста.

Надежность взаимозаменяемых форм – повторное тестирование выборки испытуемых параллельной формой теста через минимальный интервал времени при одних и тех же условиях.

 

ТЕСТ А  ИНТЕРВАЛ  ТЕСТ А'

 

За индекс надежности принимается коэффициент корреляции между результатами тестирования двумя параллельными формами теста. Высокий коэффициент корреляции и большой интервал между двумя испытаниями свидетельствуют о высокой надежности теста.

Возможный обман со стороны испытуемого, его искушенность, события, происшедшие в интервале между тестированиями, не должны оказывать особого влияния (как в ретестовом методе) на степень надежности теста. Если фактор тренировки снижен при тестировании параллельными формами, то имеет место эффект переноса принципа заданий. Эффект переноса следует учитывать при построении параллельных форм.

 

Требования к построению параллельных форм:

  • параллельные формы должны быть независимо построенными тестами, но отвечать одним и тем же требованиям;
  • должны содержать одинаковое количество заданий со сходной степенью трудности;
  • эквивалентность параллельных форм необходимо проверять ретестовым методом.

Метод расщепления состоит в том, что тест разбивают на две сопоставимые части. Респондент выполняет задания этих двух частей в течение одного сеанса с получением двух результатов (например, тест Равена содержит две части: четные и нечетные задания).

За индекс надежности принимается коэффициент корреляции между результатами тестирования двумя этими частями. Он называется коэффициентом внутренней согласованности теста.

Валидность и надежность. Тест может быть надежен, но не валиден. Это означает, что он измеряет какое-то свойство очень точно, но какое именно – остается под вопросом. В такой ситуации необходима более точная валидизация теста, как содержательная, так и практическая.

 

 

Психологические тесты, имеющие связь с диагностикой знаний

 

Тесты интеллекта

 

Тесты интеллекта, или тесты общих способностей, предназначены для измерения уровня интеллектуального развития человека [52].

Полученные с помощью этих тестов результаты выражаются количественно в виде коэффициента интеллекта (IQ).

Под интеллектом как объектом измерения в психодиагностике понимается структура познавательных свойств человека, возникающая на основе наследственно закрепленных задатков, формирующаяся во взаимодействии с ними.

Тесты интеллекта состоят из нескольких субтестов, направленных на измерение интеллектуальных функций (логического мышления, смысловой и ассоциативной памяти, др.) [26]. Например, в Гамбургской версии теста Векслера для исследования интеллекта у детей (версия 1983 года), его результаты представляются в виде 11-балльных значений, по одному значению на каждый субтест (11 субтестов). Количественная информация по тесту представляется в виде профиля результатов, по каждому субтесту, выраженных в балльных значениях. Мерой оценки теста в целом является сумма этих значений или среднее значение данных всех субтестов. Как правило, ограничиваются тем, что представляют результаты субтестов в виде баллов. Векслер предложил общий результат представить в виде количественного показателя интеллектуального развития IQ:

 

 

Применение математико-статистического аппарата для анализа интеллектуальных тестов позволяет ввести количественный показатель IQ на основе шкалы Векслера стандартных IQ.

При интерпретации общего результата нельзя целиком полагаться на соответствующий общий показатель IQ. Существенную информацию дает интерпретация профиля результатов по субтестам.

Следует отметить тот факт, что область средних значений шкалы IQ не дает представления о том, в каких субтестах результаты выше среднего, а в каких – ниже. Так, например, показатель IQ в 100 баллов может быть получен и в случае однородного профиля достижений (когда по всем субтестам результаты выше среднего значения), и в случае, когда по одним субтестам могут быть получены результаты выше среднего, а по другим – ниже среднего.

IQ или любой другой показатель следует всегда приводить вместе с названием теста, в котором они получены. Тестовые показатели нельзя интерпретировать в отрыве от конкретного теста. Согласно А. Анастази: "IQ не является постоянной величиной и изменяется под воздействием окружающей среды. IQ является отражением как предшествующих, так и последующих достижений в обучении. Интеллект не есть единая и однообразная способность, он складывается из нескольких функций и обозначает комплекс способностей, необходимых для выживания и достижения успехов в определенной культуре".

Двухфакторная и многофакторная теории интеллекта. [26] В исследованиях Ч.Спирмана (автора двухфакторной теории интеллекта) было установлено, что между любыми тестами интеллекта существуют положительные корреляции. Ч.Спирман считал, что эти положительные корреляции обусловлены тем, что всякая интеллектуальная деятельность содержит единый общий фактор. Этот фактор он назвал генеральным, или фактором "G". Он полагал также существование других факторов, свойственных только одному виду деятельности (S-факторы).

В исследованиях Л. Терстоуна (автора многофакторной теории) было установлено, что корреляции между тестами не могут быть объяснены наличием в них только одного фактора ("G"). Им было выделено 12 факторов, которые он назвал "первичные умственные способности", существующие помимо генерального.

Именно Л. Терстоун доказывал, что нет оснований для использования коэффициента интеллекта. Интеллект, считал он, необходимо представлять в виде профиля оценок по первичным факторам, в чем и состоит суть многофакторной теории интеллекта.

 

 

Тесты способностей

 

Способностями называют индивидуально-психологические особенности человека, которые способствуют его успеху в какой-либо деятельности. Способности проявляются и формируются в результате определенной деятельности. Можно выделить общие и частные способности, которые делятся на элементарные и сложные [26] (см. таблицу 7).

 

Таблица 7.

             СПОСОБНОСТИ      ЭЛЕМЕНТАРНЫЕ            СЛОЖНЫЕ
    ОБЩИЕ присущие всем людям основные способности форм психического отражения: ощущать воспринимать запоминать переживать мыслить в большей или меньшей степени присущие всем людям способности к общечеловеческим видам деятельности: игре учению труду общению
                       ЧАСТНЫЕ способности присущие не всем людям: музыкальный слух точный глазомер настойчивость смысловая память способности присущие не всем людям: профессиональные специфические особенные

 

Критерием наличия способностей можно считать уровень успешности в какой-либо деятельности по сравнению с другими, например, меньшая затрата сил или быстрота. Если уровень успешности в какой-либо деятельности одинаков у двух людей, то более способным к этой деятельности можно считать того, кто обладает большей оригинальностью приемов или своеобразием способов действий.

Способность характеризуется успешностью в приобретении знаний, умений и навыков и их переносе с одного класса задач на другой. Она не есть одно единственное качество, а составляет целостный комплекс качеств. Например, изобразительную способность составляют хорошая зрительная память, острота зрительного восприятия и т.д.

При тестировании способностей выделяют тесты специальных способностей, тесты общих способностей (тесты интеллекта) и комплексные батареи способностей.

Тесты специальных способностей направлены на измерение предрасположенности к определенным видам деятельности. Они используются при решении задач в области профотбора и профориентации.

Специальные способности принято квалифицировать по двум основаниям:

по видам психических функций (моторные, сенсорные),

по видам деятельности (технические и профессионализированные, то есть соответствующие той или иной профессии: артистические, художественные). В соответствии с этими группами разрабатываются методы диагностики.

Комплексные батареи способностей направлены на измерение относительно независимых способностей. Они используются при решении задач в области образования и профориентации, особенно при консультировании по вопросам выбора специализации или профессии.

 

 

Тесты достижений

 

Тесты достижений, в отличие от тестов способностей дают конечную оценку по завершении обучения [26].

Выделяют две группы тестов достижений: широко ориентированные тесты достижений и тесты достижений по конкретным учебным предметам.

Широко ориентированные тесты достижений ориентированы на оценку навыков по основным целям обучения (например, тесты на понимание научных принципов).

Тесты достижений по конкретным предметам (например, достижения в чтении и математике) ориентированы на оценку усвоения элементов учебных программ, конкретных тем, уровня владения навыками (например, счетными).

Такие тесты выполняют несколько функций:

  • выступают как средство оценки знаний,
  • выявляют недостатки обучения,
  • подсказывают направление последующего обучения,
  • обеспечивают мотивацию учащегося,
  • помогают приспособить обучение к потребностям индивида,
  • дают информацию об уровне знаний, усвоенных учащимися.

 

 


Дата добавления: 2019-01-14; просмотров: 265; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!