Оценка различающей способности тестовых заданий с помощью точечно-бисериального коэффициента



 

       Очень часто для оценки различающей способности заданий используют так называемый точечно-бисериальный коэффициент корреляции , который выражает связь между результатами ответов на данное задание с индивидуальными баллами выборки испытуемых [2,6]:

 

       ,

 

где - среднее значение индивидуальных баллов испытуемых, правильно ответивших на j – задание, - среднее значение индивидуальных баллов всей выборки испытуемых, - стандартное отклонение индивидуальных баллов всей выборки испытуемых,  и соответственно доли участников выполнивших и не выполнивших j- задание.

       Точечно-бисериальная корреляция является значимой, если:

 

       .

 

При практических вычислениях считается приемлемым, если коэффициент точечно-бисериальной корреляции имеет значение больше или равное 0,3 [16].

       Для исследования показателей качества тестовых заданий необходима достаточно большая выборка испытуемых, порядка 200-300 человек. В реальных условиях эта задача бывает трудно реализуемой, что существенно осложняет работу по разработке качественных заданий.

 

Шкалы оценок в диагностическом тестировании

 

       С математической точки зрения, процесс измерения уровня подготовленности должен являться отображением реальных состояний системы на некоторое множество действительных чисел, называемых шкалой. Причем, между ее элементами должен наблюдаться содержательный смысл, позволяющий проводить разумное объяснение результатов.

       Порядковые шкалы применяются для сравнения результатов между собой по типу: лучше – хуже. Примером такой шкалы может служить лингвистическая оценка знаний: неудовлетворительно (2)-удовлетворительно (3)-хорошо (4)-отлично (5). При таком типе оценивания бессмысленно говорить о том, что знания на “3” отличаются от знаний на “2” так же как знания на “5” и “4” (т.е. “3”-“2”≠”5”-“4”). Преимуществом данной шкалы является традиционность ее использования, а существенным недостатком субъективизм измерения. Один и тот же студент может получить у разных преподавателей за одни и те же знания существенно различные оценки. Арифметические операции с оценками типа: “неудовлетворительно - удовлетворительно-хорошо-отлично” являются не корректными и имеют размытые качественные экспертные значения.  

       Метрические или интервальные шкалы имеют метрики и являются шкалами более высокого уровня. В данном случае содержательный смысл имеет не только сравнение элементов (меньше, больше, равно), но и разность, трактуемая, как “расстояние” между двумя элементами. Однако отсутствие начала отсчета делает эту шкалу непригодной для абсолютных измерений.

       Метрические или интервальные шкалы, в которых определено начало отсчета, называются нормированными. Такая шкала является наиболее привлекательной, и ее построение позволяет преодолеть зависимость оценок от используемого теста и выборки испытуемых.

       Номинальные шкалы основаны на использовании качественных переменных, не поддающихся количественному измерению (например, пол испытуемых и т.д.). При использовании таких шкал имеет смысл только равенство или неравенство элементов между собой, а разность между ними не имеет никакого смысла.

       Использование любой из рассмотренных шкал подразумевает использование определенных математических методов. Например, для переменных, измеряемых метрической шкалой, где возможны количественные оценки, можно использовать регрессионный или корреляционный анализ.

 

 

Шкала первичных баллов

 

       В отличие от шкал измерения физических величин (длина, масса, время и т.д.) первичные баллы, полученные при диагностике знаний не имеют для интерпретации решающего значения, поскольку тестирование, как правило, ориентируется на получение либо критериально-ориентированных, либо нормативно-ориентированных результатов 2,6,17]. Необработанные (первичные) баллы показывают количество правильно выполненных заданий без учета коррекции на случайное угадывание в закрытых формах тестовых заданий. Для коррекции первичных баллов используют следующую формулу [18]:

 

       ,

где - результат i-испытуемого, - количество правильных ответов i- испытуемого, - количество неправильных ответов i- испытуемого, k- число ответов в задании с выбором ответа (закрытая форма). Данная формула используется в тесте SAT (Scholastic Aptitude Test). Однако результаты показывают, что при очень большой длине теста обработка данных с использованием формулы коррекции баллов и без ее использования приводит к практически одинаковым результатам.

       Шкала первичных баллов является порядковой шкалой и позволяет ранжировать испытуемых только по отношению к выполнению данного теста. Первичный балл при необходимости может быть переведен в 100 – бальную или процентную шкалу следующим образом: , где N – число заданий в тесте. Аналогичным образом можно охарактеризовать трудность каждого задания теста: , где М- число участников испытания, - первичный балл j – задания. Подход, использующий шкалу первичных баллов, не позволяет оценивать данного участника в зависимости от результатов других участников и уровня трудности решенных заданий. Например, если два участника решили по 5 заданий из 20, то их первичный балл будет равен 5, но один из участников решил более трудные задания и, следовательно, его балл должен быть выше.

 


Дата добавления: 2019-01-14; просмотров: 438; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!