Оценка надежности и валидности психологического теста

Процедура апробации теста весьма сложна и трудоемка. Как правило, апробация предполагает проведение нескольких этапов исследования: выбор группы испытуемых; проведение обследования; анализ полученных результатов.

При выборе группы испытуемых прежде всего следует исходить из того, какую категорию людей планируется обследовать с помощью данного теста. При этом необходимо учитывать возраст, пол, образование и

национальность. Кроме этого, могут учитываться и другие особенности, обусловленные спецификой профессиональной деятельности, для которой отбираются кандидаты.

Весьма сложным и достаточно спорным является вопрос о том, какой по объему должна быть выборка обследуемых, чтобы можно было точно охарактеризовать надежность и валидность выбранного теста. Конечно, можно согласиться с теми, кто считает, что чем больше выборка, тем более точные результаты оценки будут получены. Однако следует учитывать и фактор трудозатрат. Чем больше обследуемых, тем больше необходимо времени на их обследование и обработку результатов. Поэтому встает вопрос об оптимальном объеме выборки. Какую выборку обследуемых можно считать оптимальной для проверки теста? Для того чтобы ответить на этот вопрос, необходимо обратиться к статистическим исследованиям в психологии.

Опыт подобных исследований разных специалистов и собственный опыт автора позволяют констатировать следующее: Результаты, полученные на однородной выборке из 100 обследуемых, практически будут аналогичны результатам обследования большей группе испытуемых. Результаты, полученные на выборке, состоящей из 50 обследуемых и группы из 100 человек, будут характеризоваться наличием одних и тех же тенденций, а различия будут относительно небольшими. Минимальная выборка обследуемых, которой следует оперировать при статистическом анализе показателей, - 30 человек.

Кроме этого, при формировании выборки обследуемых для проверки надежности и валидности тестов, которые планируется использовать в мероприятиях профотбора, следует учитывать и то, кого предстоит отбирать.

Таким образом, учитывая вышеизложенное, можно предположить, что в выборке испытуемых, привлекаемых для проверки характеристик теста, должны быть представлены все возможные возрастные группы, причем в каждой из них должно быть от 30 до 50 человек. Кроме этого, следует иметь в виду, что если среди кандидатов оказываются и мужчины и женщины, то объем экспериментальной выборки должен быть увеличен вдвое, поскольку количество кандидатов каждого пола должно быть примерно одинаковым в каждой возрастной группе. Следовательно, группа лиц, привлекаемых для проверки теста, должна включать от 120 до 300 человек.

Сама по себе цифра достаточно внушительная и свидетельствует о необходимости значительных трудозатрат. Именно поэтому многие психологи, особенно молодые, отказываются от проверки методик, полагаясь только на ту информацию, порой очень скудную, которую смогли получить из публикаций. При этом, конечно, существенно увеличивается риск снижения достоверности прогноза. К сожалению, в последнее время в отечественной периодической печати очень редко встречаются публикации, в которых приводятся сведения о проверке тестов. Поэтому высококвалифицированный отечественный специалист в отличие от своего американского коллеги, который в большинстве случаев может почерпнуть необходимую информацию о тесте из периодической печати или электронных публикаций, вынужден самостоятельно осуществлять проверку методик.

В чем состоит суть проверки теста на надежность и валидность? Об этом написано достаточно много книг, из которых следует, что это весьма сложная процедура.

Валидность (англ. va/Zcf-действительный, пригодный, имеющий силу) - комплексная характеристика методики (теста), включающая сведения об области исследуемых явлений и репрезентативности диагностической процедуры по отношению к ним.

В наиболее простой и обшей формулировке валидность теста - это «. понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает» (А. Анастази, 2006). В стандартных требованиях к психологическим и образовательным тестам валидность определяется как комплекс сведений о том, относительно каких групп психологических свойств личности могут быть сделаны выводы с помощью методики, а также о степени обоснованности выводов при использовании конкретных тестовых оценок или других форм оценивания. В психологическойлиагностике валидность - обязательная и наиболее важная часть сведений о методике, включающая (наряду с указанными выше) данные о степени согласованности результатов теста с другими сведениями об исследуемой личности, полученными из различных источников (теоретические ожидания, наблюдение, экспертные оценки, результаты других методик, достоверность которых установлена, и т. д.), суждение об обоснованности прогноза развития исследуемого качества, связь изучаемой области поведения или особенности личности с определенными психологическими конструктами. Валидность описывает также конкретную направленность методики (контингент испытуемых по возрасту, уровню образования, социально-культурной принадлежности и т.

Важнейшая составляющая валидности - определение области изучаемых свойств - имеет принципиальное теоретическое и практическое значение при выборе методики исследования и интерпретации веданных.

По материалам: БурлачукЛ. Ф., Морозов С. М. Словарь-справочник по психодиагностике. СПб.: Питер, 1999.

Достаточно сказать о том, что существуют разные аспекты валидности и надежности теста[64]. В одной из глав данной книги уже отмечалось, что в настоящее время разные авторы различают следующие виды валидности: диагностическая, прогностическая, эмпирическая, критериальная, конструктивная, экологическая и др. Не менее сложна и ситуация с понятием «надежность».

Надежность - характеристика методики, отражающая точность психодиагностических измерений, а также устойчивость результатов теста к действию посторонних случайных факторов. Надежность и валилность являются важнейшими характеристиками методики как инструмента психодиагностического исследования.

Результат психологического исследования обычно подвержен влиянию большого количества неучитываемых факторов (например, эмоциональное состояние или утомление, если они не входят в круг исследуемых характеристик, освещенность, температура и другие особенности помещения, в котором проводится исследование, уровень мотивированности испытуемых на обследование и др.). Любое изменение ситуации исследования усиливает влияние одних и ослабляет воздействие других факторов на результат теста.

Общий разброс (дисперсию) результатов тестового обследования можно, таким образом, представить как результат влияния двух групп причин: изменчивости, присущей самому измеряемому свойству, и факторов нестабильности измерительной процедуры.

Всамом широком смысле надежность теста - это характеристика того, в какой степени выявленные у испытуемых различия по тестовым результатам являются отражением действительных различий в измеряемых свойствах и в какой мере они могут быть приписаны случайным ошибкам.

В более узком, методическом, смысле под надежностью понимают степень согласованности результатов теста, получаемых при первичном и вторичном его применении, у одних и тех же испытуемых в различные моменты времени, с использованием разных (но сопоставимых по характеру) наборов тестовых заданий или при других изменениях условий обследования.

По материалам: БурлачукЛ. Ф., Морозов С. М. Словарь-справочник по психодиагностике. СПб.: Питер, 1999.

Так, в настоящее время принято выделять следующие типы надежности: гомогенность (или надежность внутренней согласованности); ретестовая надежность; факторно-дисперсионная надежность; надежность частей теста; надежность параллельных форм.

Проверить все виды валидности и типы надежности во время оценки пригодности малознакомого теста для мероприятий ППО вряд ли представляется возможным. Необходимо выбрать те оценочные критерии, которые являются наиболее значимыми. К числу таких критериев прежде всего следует отнести диагностическую валидность.

Диагностическая валидность характеризует способность теста дифференцировать испытуемых по изучаемому признаку. Данный вид валидности чрезвычайно актуален для решения задач профессионального психологического отбора, поскольку методы, используемые при профотборе, должны позволять ранжировать (или дифференцировать) кандидатов по степени развития у них соответствующего профессионально важного качества. Для проверки диагностической валидности теста существует несколько основных методов. Один из таких методов - метод обследования контрастных групп. Суть его состоит в обследовании двух групп с заведомо различным уровнем развития той или иной характеристики, например детей с нарушением интеллектуального развития и детей, чье развитие характеризуется как нормальное.

Нормальное распределение - вид распределения переменных. Нормальное распределение наблюдается при изменении признака (переменной) под влиянием множества относительно независимых факторов. График уравнения нормального распределения представляет собой симметричную унимодальную колоколообразную кривую, осью симметрии которой является вертикаль (ордината), проведенная через точку 0 (см. рисунок ниже).

Процентное распределение случаев под нормальной кривой

Нормальное распределение характеризуется тем, что крайние значения признака в нем встречаются достаточно редко, а значения, близкие к средней величине, - достаточно часто. Нормальным такое распределение называется еще и потому, что оно очень часто встречалось в естественно-научных исследованиях и рассматривается как «норма» всякого массового случайного проявления признаков. Это распределение следует закону, открытому тремя учеными в разное время: Муавром в 1733 г. в Англии, Гауссом в 1809 г. в Германии и Лапласом в 1812 г. во Франции. (В литературе нормальное распределение называют еще нормальным распределением Гаусса.)

В психодиагностике принято считать, что если по какому-то признаку получено нормальное распределение, то этот признак (психологическое свойство) объективно существует. В реальных психологических исследованиях это распределение отмечается не всегда. В ряде случае это объясняется недостаточностью объема выборки обследуемых, поскольку известно, что чем больше выборка, тем больше вероятность получить нормальное распределение.

Оценить полученное распределение в отношении его соответствия нормальному возможно несколькими способами. Проще всего построить график и визуально его оценить. Тем более что для этого могут быть использованы компьютерные программы (например, Excel). Поэтому данный метод на практике используется наиболее часто. Однако следует отметить, что этот способ наиболее субъективен.

Другой способ, также весьма простой, но распространенный несколько меньше, чем графический, состоит в расчете процентного соотношения показателей. Все обследуемые ранжируются по соответствующему показателю. Затем оценивается процентное соотношение по каждому из трех интервалов - от -1 о до +1 о;

от -2о до +2о; от 3о до +3о (см. рисунок).

В ряде случаев, например при разработке или апробации методик, производятся математические расчеты, оценивающие асимметрию выборки и характеризующие степень соответствия нормальному распределению. Для этого используется специальная формула:

Для симметричного распределения А = 0, что характерно и для нормального распределения показателей. Чем ближе значение показателя А к нулю, тем больше соответствие полученного распределения нормальному. Вычислить показатель асимметрии можно, используя математические программы компьютерной обработки данных.

По материалам: БурлачукЛ. Ф., Морозов С. М. Словарь-справочник по психодиагностике. СПб.: Питер, 1 999; Силоренко Е. В. Методы математической обработки в психологии. СПб.: Речь, 2006.

Суть данного метода основывается на предположении о том, что большинство людей обладают психологическими качествами, присущими всем, причем у разных людей эти качества будут различаться по степени развития. Соответственно если тест действительно измеряет реально существующее психологическое качество, то, согласно законам статистики, результаты выполнения этого теста значительным множеством людей будут близки к нормальному распределению Гаусса. Таким образом, чем ближе распределение результатов теста к нормальному распределению, тем выше способность теста ранжировать обследуемых по степени развития соответствующих качеств, а следовательно, выше и показатели диагностической валидности теста.

Еще одним обязательным для проверки критерием является конвергентная валидность. Как правило, для проверки конвергентной валидности проводится обследование группы испытуемых с использованием набора тестов, в состав которого помимо оцениваемого теста входят тесты, предназначенные для изучения одного и того же качества. После проведения обследования полученные результаты подвергаются статистической обработке. Прежде всего проводится корреляционный анализ. Если коэффициент корреляции достигает уровня статистической значимости, то можно полагать, что изучаемый тест достаточно валиден по критерию конвергенции.

Следующий этап проверки конвергентной валидности - анализ полученных результатов проверочного обследования с использованием t-критерия Стъюдента. Для этого в группе обследуемых выделяются две подгруппы, которые имеют наиболее высокие и более низкие показатели по одному из вспомогательных тестов, используемых в процедуре проверки. Затем проводится сопоставление результатов выполнения проверяемого теста представителями этих контрастных подгрупп с использованием t-критерия Стьюдента. Если в результате такого анализа t-критерий будет близок к достоверному или достоверным, то можно полагать, что конвергентная валидность проверяемого теста достаточна высока. Кроме этого, можно провести и обратную проверку, т. е. разделить обследуемых по результатам выполнения проверяемого теста на две подгруппы с наиболее высокими и более низкими результатами и проанализировать с помощью t-критерия, какие результаты обследуемые показали по вспомогательным тестам. Если и в этом случае результаты будут близкими к достоверным или достоверные, то можно полагать, что валидность проверяемого теста доказана.

Не менее значима и проверка теста в отношении его надежности. Косвенным подтверждением надежности теста являются результаты проверки конвергентной валидности методики. Если результаты выполнения теста близки к результатам параллельных тестов, которые использовались для оценки того же самого психического качества, то можно полагать, что тест надежен. Однако основное требование, предъявляемое к показателю надежности, заключается в повторимости показателей, т. е. к тому, насколько совпадут результаты выполнения теста с его же показателями, если провести повторное обследование через некоторое время. Подобный тип надежности принято называть ретестовой надежностью. Это один из наиболее значимых для решения задач профотбора

типов надежности, поскольку очень важно, чтобы кандидаты в разное время показывали по одному и тому же тесту близкие результаты. Например, если кандидат на замещение вакантной должности сегодня показывает по тесту одни результаты, а завтра или через неделю - другие либо совершенно противоположные, то вряд такой тест может быть использован в мероприятиях профотбора.

Процедура проверки теста в отношении ретестовой надежности относительно проста. Дважды, через определенный промежуток времени, проводится обследование одной и той же группы испытуемых с использованием проверяемого теста. Затем проводится статистический анализ результатов теста с помощью корреляционного анализа. При использовании интервальных шкал применяется коэффициент корреляции производных моментов Пирсона, а для шкал порядка используется коэффициент ранговой корреляции Спирмена.

Корреляционный анализ - комплекс методов статистического исследования взаимозависимости между переменными, связанными корреляционными отношениями. Корреляционными (лат. correlatio - соотношение, связь, зависимость) считаются такие отношения между переменными, при которых выступает преимущественно нелинейная их зависимость, т. е. значению любой произвольно взятой переменной одного ряда может соответствовать некоторое количество значений переменной другого ряда, отклоняющихся в ту или иную сторону от среднего.

Корреляционный анализ выступает в качестве одного из вспомогательных методов решения теоретических задач психодиагностики и включает в себя комплекс наиболее широко применяемых статистических процедур при разработке тестовых и других психодиагностических методик, определения их надежности, валидности. Корреляционный анализ является одним из основных методов статистической обработки эмпирического материала в прикладных психодиагностических исследованиях.

Существующие процедуры корреляционного анализа позволяют определить степень значимости связи, установить меру и направление влияния одного из признаков (X) на результирующий признак (Y) при фиксированном значении отдельных переменных (корреляция частная), выявить степень и направленность связи результирующего признака (Y) с совокупностью переменных х, х ^ x (корреляция множественная). Корреляционному анализу подлежат как количественные, так и качественные признаки (к первым относятся переменные, измеряемые в интервальной шкале и шкале отношений, ко вторым - не имеющие единиц измерения, оцениваемые шкалами наименований и порядковыми шкалами).

В психологии обычно используются два типа корреляционного анализа. Для установления взаимосвязи между признаками, измеряемыми в интервальных шкалах, используется критерий Пирсона. В отношении установления взаимосвязи между качественными показателями используется критерий Спирмена. Следует отметить, что существуют разные формы корреляционного анализа. Однако в любом случае не следует проводить корреляционный анализ между признаками, измеряемыми в интервальных или абсолютных шкалах, и признаками, имеющими качественные характеристики, поскольку первые характеризуют выраженность признака, а вторые - лишь его наличие или степень присутствия.

По материалам: БурлачукЛ. Ф., Морозов С. М. Словарь-справочник по психодиагностике. СПб.: Питер, 1999.

Чем выше коэффициент корреляции результатов первого и второго обследования, тем выше ретестовая надежность проверяемого теста. Если же коэффициент корреляции не достигает уровня статистической значимости, то такой тест не может быть рекомендован для использования в мероприятиях ППО.

Несмотря на простоту проведения этого типа проверки надежности теста, существует проблема, которую надо учитывать. Это проблема заключается во времени, которое должно пройти между первым и вторым обследованием. Интервал между двумя обследованиями не должен быть чрезмерно большим или, наоборот, чрезмерно малым. Слишком малый интервал способствует формированию навыка, что может привести к завышению показателей. В то же время слишком большой интервал может привести к занижению результатов, поскольку увеличивается вероятность воздействия посторонних факторов. Например, могут наступить вполне закономерные возрастные изменения или произойти такие жизненные события, которые самым существенным образом отразятся на индивидуально-психологических особенностях кандидатов. Каков же должен быть временной интервал между первым и вторым обследованием?

В некоторых и весьма редких случаях авторы теста сами указывают интервал, в течение которого не следует проводить повторное обследование из-за вероятности возникновения эффекта научения. Однако, к сожалению, чаще всего такая информация отсутствует. Поэтому, выбирая временной интервал между двумя обследованиями при проверке ретестовой надежности теста, следует исходить из того, что чем больше в тесте заданий или вопросов, тем меньше может быть интервал. Например, если в тесте 30 заданий, то временной интервал должен составлять примерно три или четыре недели. Соответственно в зависимости от конструктивных особенностей теста временной интервал должен составлять от двух недель до двух месяцев (см. главу 6).

В большинстве случаев при проверке диагностических возможностей теста достаточно проведения тех проверок, о которых было сказано выше. Однако бывают случаи, когда специалист, оценивая возможность использования теста в мероприятиях профотбора, вынужден проверять гомогенность методики, которая характеризует надежность теста в отношении внутренней согласованности заданий или вопросов. Обычно при проверке теста на гомогенность используется несколько приемов. Например, разбиение вопросов или заданий теста по признаку их четности или нечетности (имеется в виду их порядок), метод определения надежности расщеплением и создание отдельных субтестов. После этого проверяется связь четных вопросов с нечетными (см. главу 6). Однако методики, которые планируется использовать при проведении профотбора, подвергаются проверке в отношении гомогенности несколько иначе и лишь тогда, когда в этом есть необходимость.

Эта необходимость обычно возникает в том случае, когда тест содержит несколько показателей, каждый из которых оценивает какое-то психическое качество, но, кроме этого, имеется еще единый интегральный показатель. Наличие этого интегрального показателя заставляет специалиста ответить на вопрос в отношении его обоснованности. Если тест измеряет сразу несколько качеств и при этом существует интегральный показатель, то речь может идти или о необдуманном своеволии автора, или о реальной структуре психического качества. Поэтому если информация о структуре подобного теста, его надежности и валидности отсутствует, то проверка в отношении внутренней согласованности методики крайне необходима. Рассмотрим несколько примеров использования тестов, имеющих не только несколько независимых шкал, но и интегральный показатель.

К числу подобных тестов на полном основании можно отнести интеллектуальную батарею тестов «КР-3-85», разработанную сотрудниками Военно-медицинской академии Б. Кулагиным и М. Решетниковым. Батарея состоит из шести отдельных шкал, каждая из которых оценивает развитие определенного интеллектуального качества, причем каждая шкала имеет 30 заданий. Путем суммирования результатов всех шести шкал можно получить интегральный показатель общего интеллектуального развития (ОИР). Возникает вопрос о том, насколько обоснованно использование этого показателя? Отражает ли интегральный показатель ОИР какую-то реальную закономерность или общий уровень развития интеллекта?

Проведенный статистический анализ свидетельствует о том, что между показателями по отдельным шкалам и интегральным показателем действительно существует корреляционная зависимость, что само по себе неудивительно. Так как интегральный показатель получен путем простого суммирования, то в значении ОИР представлены показатели всех шести шкал, и чем больше будет вес шкалы в значении интегрального показателя, тем выше корреляционная взаимосвязь. Поэтому простой статистический анализ еще не дает основания считать, что подобное простое суммирование результатов по отдельным шкалам для получения интегрального показателя вполне обоснованно. На данном этапе анализа наличие взаимосвязи между субшкалами и интегральным показателем объясняется статистическими закономерностями и не дает какого-либо психологического объяснения существующих связей. Однако необходимые объяснения могут быть найдены, если проанализировать взаимосвязь между отдельными субшкалами. Оказывается, что между субшкалами действительно существует взаимосвязь. Причем в разных условиях проведения исследования и на разных выборках она проявляется по-разному. Учитывая всю имеющую в настоящее время информацию о возможной структуре интеллекта (о чем уже говорилось в предыдущих главах), можно полагать, что наличие корреляционных связей между отдельными субшкалами вполне естественно.

Таким образом, интегральный показатель по батарее интеллектуальных тестов «КР-3-85» действительно отражает общий уровень интеллектуального развития. Следовательно, если при решении задач профотбора необходимо оценить уровень развития интеллекта, то использование данной батареи тестов - оптимальный выбор. Однако если психолог в мероприятиях профотбора планирует применять не всю батарею тестов, а лишь отдельные методики, то использовать суммарный балл в усеченном варианте интеллектуальной батареи возможно лишь в том случае, когда между субшкалами существуют тесная взаимосвязь. Если же необходимой корреляционной связи между субшкалами нет, то использовать интегральный показатель при усеченном варианте «КР-3-85» нецелесообразно.

Среди методик изучения личности также встречаются тесты, содержащие несколько относительно независимых показателей, которые объединяются в один интегральный показатель. В отличие от исследований, посвященных проблемам интеллекта, в психологии личности четкого представления о структуре личности фактически нет. По сути, любой личностный тест, позволяющий одновременно получить несколько показателей, является экспериментальной моделью личности, поскольку в основе таких методик всегда лежит какая-то концепция, отражающая представление автора(ов) теста о структуре личности. Для профессионального психологического отбора личностные методики, позволяющие получить какой-то интегральный показатель на основании учета промежуточных показателей, которые характеризуют уровень развития профессионально важных качеств, имеют особое значение, поскольку существенно упрощают вынесение итогового заключения о профпригодности.

В начале 1990-х гг. автор данной книги разработал методику, предназначенную для оценки некоторых свойств личности и позволяющую получить интегральный показатель на основе целого ряда промежуточных показателей, каждый из которых характеризует отдельное профессионально важное качество. В дальнейшем данная методика, названная МЛО «Адаптивность», получила широкое распространение в практической деятельности психологов[65]. Теоретическая основа этого теста была рассмотрена в главе 7 этой книги. В краткой форме теоретические предпосылки могут быть представлены в виде следующих утверждений: Адаптация является важнейшим процессом в жизни и деятельности человека. Адаптация - это не только процесс, но и свойство живого организма, заключающееся в обеспечении процесса приспособления к условиям внешней среды. Адаптация осуществляется на нескольких уровнях иерархии человека, в том числе и на личностном (социальном). Существуют личностные качества, которые обеспечивают успех социальной адаптации человека.

Тест «Адаптивность» имеет структуру показателей, которые условно могут быть расположены на нескольких уровнях иерархии. Каждый следующий уровень формируется на основе психологических шкал предшествующего уровня, причем формирование характеристик более высокого уровня осуществлялось на основе результатов факторного анализа. 1 акже следует отметить, что шкалы всех уровней многократно проверялись на валидность и надежность.

Поскольку вновь сформированные шкалы второго порядка также оказались взаимосвязаны друг с другом, несмотря на то что измеряют самостоятельные психологические факторы, то вполне обоснованным стало создание интегрального показателя - личностного адаптационного потенциала (ЛАП).

Таким образом, наличие взаимосвязи между отдельными показателями теста и обоснованная с помощью результатов факторного анализа структура теста не только определили целесообразность создания интегрального показателя - ЛАП, но и доказали внутреннюю однородность данной методики, что в целом обеспечило его высокую надежность и валидность.

Завершая разговор о технологии проверки тестов на предмет их надежности и валидности, следует подчеркнуть, что выше были рассмотрены лишь те варианты проверки, которые чаще всего используются при оценке прогностичности методик профотбора. Однако может возникнуть ситуация, обусловленная спецификой решаемых в ходе профессионального отбора задач, когда потребуется использовать другие варианты проверки. Поэтому высококвалифицированный специалист должен быть настоящим экспертом в области психодиагностики и уметь принимать правильное решение в отношении применения той или иной методики.

📎📎📎📎📎📎📎📎📎📎