Методы определения надежности тестовых результатов.



Определение качества теста чаще всего сводится к определению меры надежности и валидности результатов.

Как и объективным, качественным можно назвать только тот метод измерения, который обоснован научно и способен дать требуемые результаты. В западной литературе традиционно рассматривается два основных критерия качества: валидность и надежность.

Понятие " Валидность " означает меру пригодности тестовых результатов для определенной цели.

Валидность зависит от качества заданий, их числа, от степени полноты и глубины охвата содержания учебной дисциплины (по темам) в заданиях теста. Кроме того, от баланса и распределения заданий по трудности, от метода отбора заданий в тест из общего банка заданий, от интерпретации тестовых результатов, от организации сбора данных, от подбора выборочной совокупности испытуемых и другого.

Надежность тестовых результатов часто выражается мерой корреляции между двумя параллельными вариантами теста. Если тестовые баллы одного варианта обозначить символом X, а второго варианта - символом X, то надежность теста определяется коэффициентом корреляции между Х и X'.

Раньше писали о надежности теста, как о критерии его качества. При этом предполагалось, что мера надежности является устойчивой характеристикой теста. Однако это не так. На надежность сильно влияет степень гомогенности групп испытуемых, уровень их подготовленности, распределение баллов, максимальные и минимальные значения тестовых баллов, а также другие факторы, связанные не столько с тестом, сколько с условиями его проведения. Вот почему в последние годы стали чаще писать о надежности измерения, имея в виду тест как результат тестирования в определенных условиях, а не общую характеристику теста как некоего всеобщего метода.

Изменения значения дисперсий заданий и общей дисперсии теста приводят к изменению надежности теста, что видно из структуры формулы Kuder - Richardson 20 (сокращенно KR - 20), названной так по фамилии авторов и номеру формулы, предложенной в их статье.

(2.13)

где r - коэффициент надежности теста;

k - число заданий в тесте;

åpjqj, - сумма дисперсий заданий теста;

Sх2 - общая дисперсия баллов испытуемых по всему тесту.

Подстановка данных табл. 2.2 дала бы следующий результат:

Но этого делать не следует, потому что, к сожалению, эта формула часто применяется без учета теоретических ограничений на ее применимость. Она уместна только в редких случаях равенства дисперсий большинства заданий теста. Такого равенства практически не бывает, да и не должно быть при небольшом числе заданий гомогенного теста, использующих оценки 1 и 0. Фактически это означало бы подбор заданий одного уровня трудности.

Напомним, что гомогенный тест измеряет знания по одной учебной дисциплине, одной теме, по одной части какой - либо изучаемой науки.

Если предположение о гомогенности заданий теста находит подтверждение, то надежность теста теоретически более обоснованно считать по другой формуле тех же авторов, по KR-8.

(2.14)

Практическое применение этой формулы для оценки надежности измерения знаний показано на примере вычислений по данным табл. 2.2.

В первой части этой формулы sy2 представляет значение дисперсии тестовых баллов. В нашем примере она рассчитывалась по формуле 2.7 и равна 5, 167.

åpjqj- это сумма дисперсий всех заданий табл. 2.2. Она равна 1,915.

Вторая часть этой формулы, взятая в квадратные скобки, состоит из квадрата отношения, представленного в первой части и отношения, в котором определению подлежит только år2xy * pjqjзначения квадратов коэффициентов корреляции каждого задания с суммой баллов; индекс j означает номера заданий с первого по десятого. Значение суммы представлено в последней ячейке вспомогательной таблицы 2.6, приводимой ниже.

Таблица 2.6. Вспомогательная.

№№                     å
rjy 0.132 0.488 0.305 0.494 0.494 0.706 0.651 0.534 0.757 0.293  
r2jy 0.017 0.238 0.093 0.244 0.244 0.498 0.424 0.285 0.565 0.086  
pjqj 0.071 0.130 0.213 0.248 0.248 0.248 0.236 0.213 0.178 0.130 1.915
r2jy pjqj 0.001 0.031 0.020 0.060 0.060 0.123 0.100 0.061 0.100 0.011 0.567

Подставляя имеющиеся значения в формулу 2.14 для определения надежности теста, получаем:

Полученные значения надежности и стандартного отклонения тестовых баллов используется далее для расчета так называемой стандартной ошибки измерения (sе). Это название неточное, потому что фактически sе- это вовсе не ошибка, а стандартная статистическая мера вариации ошибочных компонентов измерения, определяемая по формуле 2.15:

(2.15)

где sy - стандартное отклонение тестовых баллов испытуемых;

rxx'- коэффициент надежности измерения.

Подстановка в эту формулу полученных данных по формулам 2.7 и 2.14 дает:

Полученное значение sе используется далее для построения так называемого доверительного интервала, в пределах которого находится, вероятнее всего, истинное значение тестового балла испытуемого.

Для построения такого интервала вначале выбирается один из трех уровней риска допустить ошибку в своем выводе. Чаще других используется 5-ти процентный уровень, которому и соответствует табличное значение t- распределения Стьюдента, равное больше или меньше двух, в зависимости от числа испытуемых. Для удобства оно обычно принимается примерно равным 2. После этого доверительный интервал определяется из выражения

Дельта i = Yi + tse (2.16)

Подставляя тестовый балл любого испытуемого, можно найти интервал, в пределах которого находится истинное значение тестового балла.

Например, для первого испытуемого Дельта i = 9 + (2) (1,230) = 9 + 2,460.

С риском ошибиться в пяти случаях из ста подобных выборок, можно сказать, что истинный балл испытуемого, получившего в данном небольшом примере тестовых результатов 9 баллов, может варьировать, скорее всего, от 6,540 до 11,460. Это довольно большой интервал, неприемлемый в профессиональной работе; это значение объясняется малым числом испытуемых и малым числом заданий: именно от них зависит надежность тестовых результатов, и следовательно, значение стандартной ошибки измерения.

Для того чтобы убедиться в этом, достаточно внимательно проанализировать структуру формулы 2.15. По мере роста коэффициента надежности значение стандартной ошибки измерения начинает падать пропорционально корню квадратному из разности 1- rxx'.

Уменьшение sе и соответственно, доверительного интервала является одним из самых верных показателей качества измерения знаний, проведенного посредством теста. При сравнении двух тестов, подготовленных для измерения одного и того же, преимущество отдается тесту с меньшей стандартной ошибкой измерения.

Можно также сказать, что качественный тест образует шкалу, которая может быть определена как средство для измерения свойства объектов. Шкала представляет собой числовую систему, в которой отношения между различными объектами выражены свойствами числового ряда. Роль элементарной единицы измерения выполняют контрольные задания, подобранные для определения уровня знаний. Объектом измерения является носитель знаний. Наиболее корректное средство измерения- тест. Получаемые при измерении числа позволяют глубже проникнуть в суть изучаемых явлений, что особенно важно для научно обоснованной постановки тестового контроля.

Если в формуле Sx2 = St2 + Se2 произвести перестановку St2 = Sx2 - Se2, разделить затем справа и слева на Sx2, то получим выражение для определения надежности тестовых результатов по формуле Rulon, где отношение St2 / Sx2 слева - данное выше определение надежности теста, а отношение справа равно 1 - Se2 / Sx2. После обозначения отношения слева символом rxx' формула Rulon приобретает классический, для тестовой литературы, вид:

rxx' = 1- Se2 / Sx2 (2.17)

В зависимости от того, каким способом будет определяться Se2 будет зависеть и величина надежности тестовых результатов.

Помимо отмеченных, в практике тестирования чаще других используются такие методы определения надежности тестов, как:

  • повторное тестирование испытуемых, в одинаковых условиях, одним и тем же тестом, с последующим коррелированием результатов. Получаемое значение коэффициента корреляции указывает на надежность измерения в смысле устойчивости результатов испытуемых (test-retest reliability).
  • использование параллельных тестов, с последующим коррелированием результатов. Получаемое при этом значение интерпретируется в смысле воспроизводимости, близости или параллельности тестовых результатов (test reproducibility).

Эффективным можно назвать тест, который лучше, чем другие тесты, измеряет знания испытуемых интересующего уровня подготовленности, с меньшим числом заданий, качественнее, быстрее, дешевле, и все это- по возможности, в комплексе.

С понятием "эффективность" сопряжено и близкое к нему по содержанию понятие "оптимальность". Последнее трактуется как наилучшее из возможных вариантов, с точки зрения удовлетворения нескольким критериям, взятым поочередно или вместе.

Эффективный тест не может состоять из неэффективных заданий. В таком случае естественно поставить вопрос о признаках, которые отличают эффективное задание от неэффективного. С точки зрения содержания, эффективное задание проверяет важный элемент содержания учебной дисциплины, который нередко называют ключевым для требуемой структуры знаний испытуемых. В тест соответственно включаются только такие задания, которые эксперты признают в качестве ключевых элементов изучаемой учебной дисциплины.

В определении эффективности теста обращается внимание на два ключевых элемента- это число заданий теста и уровень подготовленности испытуемых.

Если из какого-либо теста с большим числом заданий сделать оптимальный выбор меньшего числа, то может образоваться система, не уступающая заметно по своим свойствам тесту со сравнительно большим числом заданий. Тест с меньшим числом заданий в таком случае можно называть сравнительно более эффективным.

Помимо этого, эффективность теста можно оценить с точки зрения соответствия уровня его трудности уровню подготовленности тестируемых в данный момент испытуемых. Эту оценку в литературе нередко относят к валидности, имея в виду идею валидности теста, так сказать, по уровню.

Легко понять практическую бесполезность того, чтобы давать слабым испытуемым трудные задания; большинство испытуемых, вероятнее всего, не сумеют правильно на них ответить. Так же обстоит дело и с легким тестом: его бесполезно (неэффективно) давать знающим испытуемым, потому что и здесь высока вероятность, но теперь уже правильных ответов, и потому практически все испытуемые получат по тесту одинаково высокий балл. И в том, и в другом случае испытуемые не будут различаться между собой.

Измерение, таким образом, не состоится по причине несоответствия уровня трудности теста уровню подготовленности. Из этих соображений легко вывести, что самый эффективный тест- это тест, точно соответствующий по трудности заданий уровню подготовленности испытуемых.

Эффективность тестов может зависеть и от формы. Нарушение тестовой формы всегда приводит к худшему выражению содержания и к худшему пониманию смысла задания испытуемыми.

Эффективность теста зависит также и от принципа подбора заданий. Если подбирать задания для измерения на всем диапазоне изменения трудности, то снижается точность измерения на отдельном участке. И наоборот, если стремится точно измерить знания испытуемых, например, среднего уровня подготовленности, то это потребует иметь больше заданий именно данного уровня трудности.

Поэтому тест не может быть эффективным вообще, на всем диапазоне подготовленности испытуемых. Он может быть более эффективен на одном уровне знаний и менее - на другом. Именно этот смысл вкладывается в понятие дифференциальной эффективности теста.

Соответствие уровня трудности теста уровню подготовленности испытуемых можно попытаться оценить показателем количества информации, получаемой в процессе измерения. Впервые этот показатель в практику тестирования ввел А. Birnbaum.


Дата добавления: 2015-12-21; просмотров: 39; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!