Надёжность (релиабильность, воспроизводимость) тестов




Надёжность является одним из основных свойств тестов. Надежность теста - степень совпадения результатов при повторном тестировании одних и тех же людей в одинаковых условиях. По сути надёжность характеризует помехоустойчивость теста и позволяет судить о том, насколько внушают доверие полученные результаты.

В широком смысле надёжность инструмента показывает в какой степени индивидуальные различия в тестовых показателях могут быть отнесены за счёт «истинных» различий, а в какой могут быть приписаны другим факторам.

Основное различие теории надежности тестов от теории ошибок измерения состоит в том, что в теории ошибок измеряемая величина считается неизменной, а в теории надежности тестов предполагается, что она меняется от измерения к измерению.

Вариацию результатов при повторном тестировании называют внутрииндивидуальной, или внутри групповой, либо внутриклассовой.

Причины вариативности результатов при повторном тестировании:

· Изменение состояния исследуемых, нестабильность изучаемого свойства (утомление, врабатывание, научение, изменение мотивации, концентрации внимания и т.п.).

· Неконтролируемые изменения внешних условий и аппаратуры (температура, ветер, влажность, напряжение в электросети, присутствие посторонних лиц и т.п.), т.е. все то, что объединяется термином “случайная ошибка измерения”.

· Изменение состояния человека, проводящего или оценивающего тест, элементы субъективности (или замена одного экспериментатора или судьи другим).

· Несовершенство теста

Причины вариативности тестирования можно выразить следующей формулой:

t – зарегистрированный результат; хист – истинное значение результата (условно соответствует среднему значению результата при бесконечно большом числе изменений; е1- систематические и случайные ошибки,   е2 – различия в процедуре тестирования при повторных измерениях, е3 – внутренняя нестабильность функциональных систем организма).

 

Составляющие надежности тестов

· Стабильностьтеста - воспроизводимость результатов тестирования при его повторении (тест-ретест) через определенное время в одинаковых условиях. Стабильность зависит от вида теста, контингента испытуемых, временнóго интервала.

· Согласованность теста (объективность) - независимость результатов тестирования от личных качеств лица, проводящего тест. Особое значение согласованность имеет в квалиметрии. Согласованность теста предполагает его стандартизацию.  

· Эквивалентностьсовпадение результатов при выполнении однотипных тестов, оценивающих один и тот же параметр, свойство, функцию и т.д.Применение эквивалентных тестов повышает надёжность оценки. Например, силовую выносливость можно оценить по числу подтягиваний на перекладине, отжиманий в упоре лежа, количеству подъемов штанги и т. д. Комплекс, составленный из эквивалентных тестов, является гомогенным, а из неэквивалентных – гетерогенным.

 

Методы определения надёжности

           Согласованность между измерениями показателей можно выразить в виде коэффициента корреляции (r), выражающего степень взаимосвязи между двумя или более множествами показателей.

Существуют различные виды корреляционного анализа, которые детально описываются в учебниках по статистике. Остановимся лишь на интерпретации значений r. Коэффициент корреляции характеризует не только силу взаимосвязи между показателями, но и направление. Значения коэффициента корреляции могут варьировать от плюс 1 до минус 1. Плюс означает положительную корреляцию между измерениями, т.е., при увеличении значений одного множества возрастают значения и другого. Минус говорит об отрицательно корреляции, т.е. увеличению значений в одном множестве соответствует уменьшение в другом. При этом, чем ближе значение r приближается к единице (со знаком плюс или минус), тем сильнее корреляция. Нулевая корреляция указывает на полное отсутствие связи.

       Надёжность теста можно оценить методом дисперсионного анализа и выразить в виде коэффициента надёжности и стандартной ошибки измерения (стандартной ошибки показателя). Второй показатель более удобен для интерпретации индивидуальных показателей.

Таблица 1. Интерпретация надежности тестов

 

Надежность r
Отличная 0,95 и более
Хорошая 0,90 – 0,94
Средняя 0,80 – 0,89
Приемлемая 0,70 – 0,79
Низкая 0,60 – 0,69

 

Типы надёжности

·Ретестовая надёжность (test-retest reliability). Заключается в повторном обследовании участников (через небольшой интервал времени) с помощью того же инструмента и методики. О стабильности признака судят по величине внутриклассового коэффициента корреляции (ВКК) между результатами первого и повторного обследования.

· Внутриэкспертная надёжность (inter-rater reliability) –определяет стабильность результатов, полученных при измерении 2 или более раз одним экспериментатором в одной и той же группе с использованием одной и той же методики и теста. Оценивается по величине ВКК. 

· Межэкспертная надёжность (inter-rater reliability) - определяет стабильность результатов, полученных при обследовании одной и той же группы 2-мя или более экспериментаторами. Трактуется как и результаты внутриэкспертного тестирования.

Способы повышения надежности тестов:

· стандартизация тестирования;

· увеличение числа попыток;

· увеличение числа экспертов;

· увеличение числа эквивалентных тестов;

· лучшая мотивация испытуемых;

· выбор технических средств, обеспечивающих заданную точность измерений в процессе тестирования.

 

При определении надежности тестов необходимо учитывать возможность такого явления, как тренд - систематическое повышение или понижение результатов тестирования от попытки к попытке. Причинами тренда являются, с одной стороны, адаптация (привыкание), а, с другой – утомление.

 

 


Дата добавления: 2018-04-05; просмотров: 2663; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!