Надёжность (релиабильность, воспроизводимость) тестов
Надёжность является одним из основных свойств тестов. Надежность теста - степень совпадения результатов при повторном тестировании одних и тех же людей в одинаковых условиях. По сути надёжность характеризует помехоустойчивость теста и позволяет судить о том, насколько внушают доверие полученные результаты.
В широком смысле надёжность инструмента показывает в какой степени индивидуальные различия в тестовых показателях могут быть отнесены за счёт «истинных» различий, а в какой могут быть приписаны другим факторам.
Основное различие теории надежности тестов от теории ошибок измерения состоит в том, что в теории ошибок измеряемая величина считается неизменной, а в теории надежности тестов предполагается, что она меняется от измерения к измерению.
Вариацию результатов при повторном тестировании называют внутрииндивидуальной, или внутри групповой, либо внутриклассовой.
Причины вариативности результатов при повторном тестировании:
· Изменение состояния исследуемых, нестабильность изучаемого свойства (утомление, врабатывание, научение, изменение мотивации, концентрации внимания и т.п.).
· Неконтролируемые изменения внешних условий и аппаратуры (температура, ветер, влажность, напряжение в электросети, присутствие посторонних лиц и т.п.), т.е. все то, что объединяется термином “случайная ошибка измерения”.
· Изменение состояния человека, проводящего или оценивающего тест, элементы субъективности (или замена одного экспериментатора или судьи другим).
|
|
· Несовершенство теста
Причины вариативности тестирования можно выразить следующей формулой:
(хt – зарегистрированный результат; хист – истинное значение результата (условно соответствует среднему значению результата при бесконечно большом числе изменений; е1- систематические и случайные ошибки, е2 – различия в процедуре тестирования при повторных измерениях, е3 – внутренняя нестабильность функциональных систем организма).
Составляющие надежности тестов
· Стабильностьтеста - воспроизводимость результатов тестирования при его повторении (тест-ретест) через определенное время в одинаковых условиях. Стабильность зависит от вида теста, контингента испытуемых, временнóго интервала.
· Согласованность теста (объективность) - независимость результатов тестирования от личных качеств лица, проводящего тест. Особое значение согласованность имеет в квалиметрии. Согласованность теста предполагает его стандартизацию.
· Эквивалентностьсовпадение результатов при выполнении однотипных тестов, оценивающих один и тот же параметр, свойство, функцию и т.д.Применение эквивалентных тестов повышает надёжность оценки. Например, силовую выносливость можно оценить по числу подтягиваний на перекладине, отжиманий в упоре лежа, количеству подъемов штанги и т. д. Комплекс, составленный из эквивалентных тестов, является гомогенным, а из неэквивалентных – гетерогенным.
|
|
Методы определения надёжности
Согласованность между измерениями показателей можно выразить в виде коэффициента корреляции (r), выражающего степень взаимосвязи между двумя или более множествами показателей.
Существуют различные виды корреляционного анализа, которые детально описываются в учебниках по статистике. Остановимся лишь на интерпретации значений r. Коэффициент корреляции характеризует не только силу взаимосвязи между показателями, но и направление. Значения коэффициента корреляции могут варьировать от плюс 1 до минус 1. Плюс означает положительную корреляцию между измерениями, т.е., при увеличении значений одного множества возрастают значения и другого. Минус говорит об отрицательно корреляции, т.е. увеличению значений в одном множестве соответствует уменьшение в другом. При этом, чем ближе значение r приближается к единице (со знаком плюс или минус), тем сильнее корреляция. Нулевая корреляция указывает на полное отсутствие связи.
|
|
Надёжность теста можно оценить методом дисперсионного анализа и выразить в виде коэффициента надёжности и стандартной ошибки измерения (стандартной ошибки показателя). Второй показатель более удобен для интерпретации индивидуальных показателей.
Таблица 1. Интерпретация надежности тестов
Надежность | r |
Отличная | 0,95 и более |
Хорошая | 0,90 – 0,94 |
Средняя | 0,80 – 0,89 |
Приемлемая | 0,70 – 0,79 |
Низкая | 0,60 – 0,69 |
Типы надёжности
·Ретестовая надёжность (test-retest reliability). Заключается в повторном обследовании участников (через небольшой интервал времени) с помощью того же инструмента и методики. О стабильности признака судят по величине внутриклассового коэффициента корреляции (ВКК) между результатами первого и повторного обследования.
· Внутриэкспертная надёжность (inter-rater reliability) –определяет стабильность результатов, полученных при измерении 2 или более раз одним экспериментатором в одной и той же группе с использованием одной и той же методики и теста. Оценивается по величине ВКК.
· Межэкспертная надёжность (inter-rater reliability) - определяет стабильность результатов, полученных при обследовании одной и той же группы 2-мя или более экспериментаторами. Трактуется как и результаты внутриэкспертного тестирования.
|
|
Способы повышения надежности тестов:
· стандартизация тестирования;
· увеличение числа попыток;
· увеличение числа экспертов;
· увеличение числа эквивалентных тестов;
· лучшая мотивация испытуемых;
· выбор технических средств, обеспечивающих заданную точность измерений в процессе тестирования.
При определении надежности тестов необходимо учитывать возможность такого явления, как тренд - систематическое повышение или понижение результатов тестирования от попытки к попытке. Причинами тренда являются, с одной стороны, адаптация (привыкание), а, с другой – утомление.
Дата добавления: 2018-04-05; просмотров: 2663; Мы поможем в написании вашей работы! |
Мы поможем в написании ваших работ!