Психология: Основные направления - Надежность теста. Виды и способы определения надежности. Ошибка измерения.
[Психология:Основные направления ]

Под надежностью понимается согласованность, стабильность результатов теста:, получаемых при повторном его применении к тем же испытуемым в различные моменты времени, с использованием разных наборов эквивалентных заданий или при изменении других условий обследования.

На устойчивость результатов теста влияют:

-        состояние и настроение обследуемых,

-        мотивация испытуемых к тестированию;

-        эргономические факторы (освещенность, температура в помещении, вибрации, шумы и пр.);

-        характеристика деятельности (монотонность-динамичность, помехи и др.);

-        степень обучаемости (или натренированности) испытуемых

-        и др.

Надежность результатов тестирования зависит также от:

а) изменчивости инструмента психологического измерения

б) факторов стабильности самой процедуры измерения.

 

В целях повышения надежности и снижения дисперсии ошибки необходимо придерживаться единых условий тестирования. На понятии «надежность» основывается вычисление ошибки измерения, которая служит для указания вероятных пределов колебаний измеряемой величины, возникающих под действием посторонних случайных факторов, (надежность обратно пропорциональна ошибке измерения). Надежность показывает, в какой степени индивидуальные различия окажутся истинными, а в какой могут быть, приписаны случайным ошибкам. Методика признается надежной при коэффициенте Надежности = +0,75 - +0,85, N≥ 0,8. 

  Поскольку все типы надежности отражают степень последовательности или согласованности двух независимо полученных серий показателей, то в качестве их меры может выступать коэффициент корреляции между показателями по этим двум сериям.

Ретестовая надежность. Самый естественный способ определить надежность результатов теста - использовать тот же тест второй раз. В этом случае коэффициент надежности просто равен корреляции между результатами, полученными на одних и тех же испытуемых в каждом из двух случаев проведения теста. Ретестовая надежность показывает, в какой степени результаты теста можно распространить на различные случаи его применения. Чем выше надежность, тем менее чувствительны результаты к обычным изменениям состояния испытуемого и обстановки тестирования.

Приводя в руководстве к тесту его ретестовую надежность, всегда следует указывать, в каком интервале времени она измерена. Желательно также давать некоторые сведения о событиях, происшедших за это время с испытуемыми в учебе или работе (консультировался ли кто-либо с психологом или прошел курс психотерапии и т.д.).

Многие из тестов интеллекта для дошкольников достаточно стабильны в дошкольный период, но совершенно бесполезны для предсказания, каков будет IQ старшем возрасте или во взрослом состоянии.

 В целом   для   любого   типа   испытуемых   интервал   между   двумя последовательными применениями теста обычно не должен превышать 6 месяцев.

Трудности. Если промежуток времени между начальным и повторным тестированием достаточно мал, обследуемые - могут припомнить многие из ответов. Следовательно, результаты двух предъявлений теста не будут независимыми, и корреляция между ними окажется обманчиво высокой. Проведение теста второй раз может также привести к изменению его природы. В первую очередь это относится к задачам, при решении которых нужно проявить изобретательность. Испытуемый, однажды ухватив принцип решения, в дальнейшем может воспроизводить правильный ответ, минуя промежуточные ступени. Только тесты, на которые повторное применение не оказывает заметного влияния, пригодны для их исследования по методу ретеста. К этой категории принадлежит ряд моторных тестов  и тестов сенсорного различения. Для большинства психологических тестов этот метод неприменим.

Надежность взаимозаменяемых форм.  Такой коэффициент надежности измеряет как временную стабильность теста, так и согласованность ответов по двум выборкам заданий (или тестовым формам), т.е. этот коэффициент объединяет два типа надежности.

Важно, чтобы параллельные формы были бы независимо построенными тестами, отвечающими одним и тем же требованиям. Такие тесты должны содержать одинаковое число заданий, представленных в одной и той же форме и с однотипным содержанием. Диапазон и уровни трудности заданий также должны быть  одинаковыми.  Инструкции,  временные рамки,  поясняющие примеры, формат бланков и другие аспекты тестирования также необходимо проверить на сопоставимость. Проблемы - как и ретестовая.

Метод расщепления. Меру надежности можно определить и на основании однократного применения единственной формы теста, пользуясь для этого процедурой расщепления. При таком способе каждый испытуемый получает два результата благодаря разбиению теста на две сопоставимые части. Очевидно, что надежность, найденная методом расщепления, является мерой согласованности выборок содержания. Временная стабильность показателей в ней не представлена, поскольку применяется только один сеанс тестирования. Этот  тип   коэффициента   надежности   иногда   называют   коэффициентом внутренней  согласованности, ибо  для  его  определения  требуется  лишь единственное применение одной формы теста.

Определение коэффициента надежности вычисляется по формулам расчетов коэффициентов корреляций (в зависимости от шкалы, в которой измерены данные ) между частями теста. Для определения общей надежности теста полученные коэффициенты корреляции вводятся в формулу Спирмена – Брауна:

Rxx = 2R / 1 + R,  где

R – корреляция «половин» теста.

Адекватная основным целям тестирования процедура разбивает результаты по четным и нечетным заданиям теста. Если задания теста расположены в порядке возрастания трудности, то такое разбиение обеспечивает достаточную эквивалентность показателей обеих половин.

Если части теста являются отдельными дихотомическими заданиями, например вопросами, на которые может быть 2 ответа (да или нет), или заданиями с оценкой результата как правильного, так и неправильного, используется формула:

Rxx = (K / K – 1)(1 –Σ (pi qi)/ ð x 2), где

pi – доля 1-го варианта ответа на i-й вопрос

qi – доля 2-го варианта ответа на i-й вопрос

При прочих равных условиях, чем больше заданий содержит тест, тем выше его надежность.

Метод Кьюдера-Ричардсона использует согласованность ответов по всем заданиям теста. На согласованность этого рода влияют два источника дисперсии ошибки: (1) выборка содержания на надежность взаимозаменяемых форм и расщепления и (2) неоднородность исследуемой области поведения. Чем однороднее эта область, тем выше согласованность результата. Увеличение числа заданий теста не повлияет, однако, на его временную стабильность, а лишь увеличит согласованность выборок содержания.

Надежность по этому методу рассчитывается по следующей формуле:

Rxx = (K / K – 1) * (1 – Σ (ðx i  2 )/ð x 2), где

К – количество равных частей теста,

dx i  2 – дисперсия i-й части теста

dx 2  - дисперсия целого теста

Надежность субъективных оценок. Некоторые типы тестов, особенно тесты творческих способностей и проективные личностные тесты, сильно зависят от оценки подсчитывающего показатели теста. Если результаты теста определяются на основе суждений экспериментатора, то в руководстве к тесту необходимо также привести и коэффициент надежности подсчета. Надежность субъективных оценок повышают проведением экспертных оценок, когда несколько экспертов (а не один) выставляют оценки по одной и той же системе баллов.

 

Коэффициенты надежности психологических измерений представляют собой величину дисперсии показателей, которая вычисляется путем возведения коэффициента корреляции в квадрат.  Интерпретируется он следующим образом. Например, коэффициент корреляции между параллельными формами теста равен 0,75. Коэффициент надежности рассчитывается так: 0,752 = 0,56. Это означает, что 56% дисперсии исследуемых тестовых данных зависят от истинной дисперсии признаков (данных параллельного теста), а 44% - от ошибок или случайных переменных.

 

Надежность теста можно выразить посредством расчета стандартной ошибки измерений – SEM. Она рассчитывается по формуле: Физический смысл SEM заключается в определении дисперсии показателей конкретного теста вокруг «истинного показателя», которая характеризуется плотностью нормального распределения данных. Если, например, 68% всех случаев нормального распределения психологических данных попадает в интервал Мх ± dх , то примерно 2 шанса против одного (68:32), что ошибка измерений будет «колебаться» в пределах ± 1 SEM. При увеличении плотности распределения данных, например – Мх ± 3 SEM, увеличивается и вероятность предсказания (99,7:0,3).