Валидность теста указывает, что тест измеряет и насколько хорошо он это делает (Анастази). Валидность - это законность. Вескость, обоснованность того, что для измерения качества, черты мы выбираем данный психодиагностический инструмент.
В. - степень, в которой тест действительно измеряет то, для чего он предназначен.
Название теста не может служить показателем того, что тест измеряет, оно служит только для опознания теста, т.к. слишком широко и расплывчато. Надежность > либо = В. Тест может очень хорошо измерять, но при этом не обязательно то, что требуется, то, что действительно обуславливает получаемые различия, т.к. в реальной деятельности свойства, качества оказываются переплетены и взаимосвязаны. Никогда нельзя четко выделить это свойство. В = 0,4 -0,6. При определении В. должно быть указано конкретное предназначение теста. ПР: тест валиден по отношению к академической успеваемости.
Различают 2 типа валидности – внешнюю и внутреннюю. Внешняя валидность есть мера возможности распространения результатов тестирования на генеральную совокупность. Внешняя валидизация осуществляется путем расчета репрезентативности экспериментальной выборки при отработке теста и перекрестной валидизации, то есть определения валидности теста на выборке, отличающейся от той, на которой отрабатывался стимульный материал и задания к тесту.
Репрезентативность выборки – это представленность экспериментальной выборки, которая отражает основные свойства генеральной совокупности. Репрезентативность определяется путем сопоставления качественных и количественных характеристик экспериментальной выборки с характеристиками исследуемой популяции с целью определения их однородности.
К качественным характеристикам могут быть отнесены социально-демографические, видовые, интеллектуальные (образовательные), профессиональные и другие характеристики популяции (группы), которые являются предметом исследования или существенно влияют на него.
Количественная характеристика экспериментальной группы – это минимальная ее численность, сохраняющая свойства генеральной совокупности. Теорема Чебышева: «С вероятностью сколь угодно близкой к единице можно утверждать, что при достаточно большом числе независимых наблюдений выборочная средняя будет сколь угодно мало отличаться от генеральной средней». Следствие 1 из Т.Чебышева «… что с вероятностью сколь угодно близкой к единице, выборочная доля будет как угодно мало отличаться от генеральной доли, если объем выборки достаточно велик».
Внутренняя валидность – это мер соответствия тестовых оценок уровню развития измеряемого свойства. Она состоит по крайней мере из 5 элементов:
Содержательная - степень репрезентативности заданий теста по отношению к измеряемым свойствам и особенностям. Необходимо отражение в содержании теста ключевых сторон изучаемого психологического феномена. Если область поведения или особенность сложна, то необходимо представить в заданиях теста все важнейшие составные элементы исследуемого явления. ПР: в тесте на вербальный интеллект несколько субтестов для проверки разнородных по своему операциональному составу навыков письма и чтения.
Конструктная Валидность. Введена в 1954 г. С ее помощью оказалось возможным подчеркнуть роль психологической теории разработки тестов и необходимость формулировать гипотезы, подлежащие подтверждению или опровержению в процессе В-ции. Особенно это важно при оценке тестов, предназначенных для научных изысканий. Констр.В. вбирает в себя содержательную и критериальную, показывает насколько результаты теста могут рассматриваться в качестве меры теоретического конструкта или свойства.. ПР: интеллект, фрустрация. Констр. В. направлена на широкие, устойчивые описания типов поведения и то, каким образом изучаемое поведение может быть измерено.
При изучении констр. В. рассматривают конкретные методы, с помощью которых осуществляется В-ция. Методы:
1.Возрастные изменения - главный критерий при В-ции тестов интеллекта и способностей. В основе метода - положение, что для детского возраста характерно постепенное интеллектуальное , духовное и физическое развитие, результаты валидного теста также должны соответственно возрастать. В хороших тестах интеллекта результаты испытуемых должны приближенно распределятся в нормальную кривую по всем возрастам, но значение медианы - сдвигаться вправо. Должно прослеживаться два пика 1- 13лет, 2-19лет. Все это учтено в интеллектуальном тесте Векслера. Этот метод не применим к функциям, не обнаруживающим четких и постоянных возрастных изменений.
2. Корреляция с другими аналогичными ему уже существующими тестами. Рассматривается как признак того, что новый тест измеряет примерно ту же сферу поведения, что и одноименные тесты. Корреляция не должна быть слишком высокой. Если тест не обладает преимуществами в краткости или легкости поведения, то это означает излишнее дублирование имеющихся тестов.
Концептуальная (теоретическая) валидность – теоретическое обоснование возможности измерения исследуемого свойства данным психодиагностическим средством.
Операциональная валидность – степень репрезентативности в конкретных экспериментальных операциях реальных операциональных условий психической деятельности.
Эмпирическая валидность – совокупность характеристик валидности теста, полученная сравнительным статистическим способом оценивания. К этим характеристикам относятся т.н. очевидная и критериальная виды валидности
В. по критерию (критериальная). Показывает насколько по результатам теста можно судить об интересующем нас аспекте поведения индивида в настоящем или будущем. Критериальная В. - практическая В., которая указывается в инструкции теста. Чтобы определить критериальную В. выполнение теста соотносят с критерием. Осуществляется это на выборке стандартизации. Такие критерии можно разделить на несколько категорий:
- критерий В., независимый от результатов теста и являющийся непосредственной мерой
исследуемого качества. ПР: для валидизации тестов интеллекта чаще использует
показатель успеваемости, поэтому тесты интеллекта часто называются тестами
способности к обучению. Критериальной мерой являются школьные оценки, данные теста достижений, особые отличия и поощрения, мнение учителя об интеллекте учащегося. Этот оказатель не превышает 0,6 со 2 по 7 класс и снижается после до 0,46. - критерием В. является конечный результат специального обучения. ПР:оценка
музыкальных и художственных способностей происходит по результатам деятельности. - критерием является выполнение реальной деятельности. Это во многом наилучшая
критериальная мера. Но выяснение уровня выполнения деятельности занимает много времени и сопряжено с выбыванием некоторого числа испытуемых. Кроме того, люди формально занимающие в разных организациях одни и те же должности, выполняют различные функции. - валидизация методом контрастных групп, основывается на принадлежности или
непринадлежности человека к конкретной группе. Предполагается, что индивиды,
выполняют задание, из одной группы так, как не могут индивиды, принадлежащие к другой группе. ПР: Валидизация теста Векслера для нормальных и умственно отсталых детей. - критериальная мера - врачебный диагноз. ПР: тест MMPI, где было отобрано 7 групп больных с тем или иным диагнозом.
- В-ция с помощью метода субъективных оценок, когда необходимо дать оценки по признакам, которые сложно операционализировать. ПР: стремление к лидерству, изобретательность.
- сравнение с другими тестами. В-ция как определение корреляции между новым и уже использовавшимся тестом. ПР:тесты интеллекта и способностей.
По отношению к критериальной В. определяется коэфф. В - это корреляция между показателями теста и критериальной чертой. Именно этот показатель приводят в руководствах к тестам, сообщая его значение для каждого из использованных критериев. Интерпретация коэфф. В. с позиции стандартизованной ошибки опенки. Ошибка оценки - очень строгий критерий, указывающий на допустимые пределы возможной ошибки в прогнозируемой величине индивидуального критериального показателя как результата ограниченной В.теста. δе = δу*(1-r²xy)², где δе - ошибка оценки, δу- стандартное отклонение критериального показателя, г²ху - квадрат коэфф. В. ПР:если коэфф. В теста = 0,8, тогда ошибка прогнозирования составляет 60% от той, которая была при простом угадывании т.е. данный тест позволяет делать прогнозы о критериальном выполнении индивидом с ошибкой на 40% меньше, чем при простом угадывании. Следовательно данная формула показывает величину ошибки относительно простого угадывания, где В=0. Даже при такой необычно высокой В. как 0,8 ошибка в предсказываемых показателях является значительной, следовательно, с точки зрения δе большинство тестов оказываются не особо эффективными. Неэффективность связана с попытками прогнозировать индивидуальный результат, а тестологии чаще всего нет необходимости прогнозировать критерий выполнения в индивидуальных случаях. В тестологии обычно требуется определить, кто из испытуемых превзойдет минимальный стандарт выполнения или нормативный показатель критерия. Для основных целей тестирования суждения о тесте с т.з. ошибки оценки являются чрезмерно строгими.
Текущая (конкурентная) валидность – мера способности теста дифференцировать испытуемых по изучаемому признаку. Текущая валидность определяется исходя из его «трудности» и мер изменчивости измеряемого признака.