Основные положения теории тестов.
Иногда вариацию тестовых результатов полезно называть наблюдаемой переменной величиной. Это связано с тем, что в теории тестов центральное место занимает концепция латентной, непосредственно не наблюдаемой переменной величины. В соответствии с этой концепцией, посредством наблюдаемой переменной величины можно получить только приближенные значения ненаблюдаемых истинных баллов испытуемых.
Понятие точности измерения вытекает из философского постулата о неизбежной погрешности измерения: измеряемое значение (X) не равно истинному (Т). Следовательно, любой тестовый балл можно представить как сумму истинного и ошибочного компонентов измерения.
Первое основное положение классической теории тестов лучше выразить символически:
Х= Т+ Е, (2.10)
где Е - символизирует некоторую ошибку (или точнее, ошибки измерения, проистекающие по различным причинам). Знак суммирования указывает на так называемый аддитивный способ связи T и Е.
Ошибка измерения Е имеет два истолкования- физическое и статистическое.
При физическом истолковании измерение тем точнее, чем меньше ошибок измерения.
Статистическое истолкование ошибки измерений знаний дополняет физическое идеей соотношения объема выборочной совокупности ответов с потенциальной генеральной совокупностью всех заданий теста, необходимых для точного тестирования по данной учебной дисциплине; чем точнее выборочная оценка, тем надежнее считаются тестовые результаты.
|
|
Погрешность может оказаться случайной или систематической. Последнюю можно учесть, в случае необходимости, в виде поправок, и потому для теории тестов они не представляют интереса.
Другое дело- случайные ошибки, вызванные состоянием испытуемого, случайное изменение некоторых условий проведения теста, различиями в наборах тех или иных заданий, предлагаемых различным испытуемым и многое другое. Взятые вместе, они рассматриваются как случайная ошибка измерения, хотя слово "ошибка" при этом надо трактовать не в привычном смысле допущенной (а потому и легко устранимой) оплошности, а в смысле неизбежной погрешности, определяемой неконтролируемыми факторами.
Здравый смысл подсказывает, что судить о знаниях всего проверяемого материала по ответу испытуемого на одно лишь задание довольно опрометчиво, хотя в каждой учебной дисциплине есть вопросы, правильные ответы на которые говорят о многом. Тем не менее, обоснованные выводы можно делать только по результатам применения достаточного числа заданий. Это происходит из-за того, что дисперсия истинных компонентов измерения возрастает как квадрат от числа k, показывающего - во сколько раз возросло число эквивалентных заданий теста, в то время как дисперсия ошибочных компонентов измерения меняется линейно от k.
|
|
Второе основное положение классической теории надежности - истинные компоненты (t) не коррелируют с ошибочными (е) компонентами измерения (rte = 0).
Если обнаружится, что высоким значениям тестовых баллов соответствуют и более высокие значения ошибок, с определенным знаком, то ясно, что такие ошибки нельзя считать случайными.
Например, отмеченное выше требование некоррелируемости в теории позволяет представить тестовый балл любого испытуемого в виде суммы истинного и ошибочного компонентов измерения
Yi= Ti + Ei, (2.11),
где Yi означает тестовый балл испытуемого i;
Ti - неизвестный истинный тестовый балл испытуемого i, подлежащий определению;
Е; - ошибочная часть тестового балла, включающая в себя все возможные источники случайных ошибок измерения (ei, е2,... eк).
Третье основное положение теории - ошибочные компоненты одного параллельного варианта не коррелируют с такими же компонентами другого, параллельного варианта теста (rte = 0).
Параллельный тест, имея внешне отличающееся содержание, должен, концептуально, измерять то же самое, что и исходный тест, с той же точностью.
|
|
Параллельными называются варианты, которые имеют сходное предметное содержание в пределах укрупненной учебной единицы, равные средние арифметические, равные дисперсии и равные интеркорреляции.
Хорошим примером параллельного теста является фрагмент зарубежного теста по арифметике, выполняемый в течение очень короткого времени, определяемым в зависимости от уровня подготовленности тестируемой группы.
Тест построен по интересному принципу: при расчете коэффициента надежности теста нечетные номера заданий образуют первую половину теста, четные - вторую половину. Содержание каждой пары заданий, начиная с первой, измеряет общий аспект арифметических знаний. Например:
1. | 5+2= | 25. | 0,83+0.12= |
2. | 4+5= | 26. | 0,47+ 0.35 = |
3. | 4-2 = | 27. | 0,22- 0.13= |
4. | 9-6= | 28. | 0,87- 0.43 = |
5. | 3х2= | 29. | 0,22 х 0.10= |
6. | 2х4= | 30. | 0,15 х 0.20= |
7. | 9 | 3= | 31. | 0,21 | 0.10= |
8. | 6 | 2= | 32. | 0,48 | 0,24= |
... | ...... | ... | ...... |
23. | 48 | 12= | 47. | 4/12 | 2/3= |
24. | 4/12 | 2/3= | 48. | 8/32 | 4/16= |
Каждый из компонентов выражения (2.11) варьирует на множестве испытуемых. Соответственно, из двух компонентов- истинного и ошибочного, состоит и дисперсия наблюдаемых тестовых баллов:
Sx2 = St2 + Se2 (2.12)
Теоретически надежность отражает идею точности измерения знаний заданиями теста, представляющими только часть из генеральной совокупности всех возможных заданий. В этом смысле понятие надежности измерения вытекает из философского постулата о неизбежной погрешности измерения: измеряемое значение (X) не равно истинному (Т).
|
|
Если выражение (2.12) разделить на Sх2, то слева получим единицу, а справа два интересных отношения. Первое из них St2 / Sх2 является теоретически и статистически точным определением надежности проведенного измерения, что полезно выразить словами: надежность тестовых результатов равна отношению дисперсии истинных компонентов измерения к дисперсии эмпирически полученных тестовых баллов.
Второе отношение Se2 / Sх2 определяется, напротив, как ненадежность тестовых результатов, и выражается как отношение дисперсии ошибочных компонентов измерения к дисперсии тестовых баллов.
В практическом смысле надежность часто понимается, как мера одинаковости, повторяемости или связанности двух измерений одного и того же качества, одним и тем же тестом, или его параллельными вариантами. Поэтому надежность часто выражается мерой корреляции между двумя параллельными вариантами теста.
Если тестовые баллы одного варианта обозначить символом X, а второго варианта - символом X', то надежность теста (rxx') определяется коэффициентом корреляции между X и X'.
Дата добавления: 2015-12-21; просмотров: 105; Мы поможем в написании вашей работы! |
Мы поможем в написании ваших работ!