Что такое достоверность теста
ТЕСТЫ,
ИЛИ ЧТО ТАКОЕ ДОСТОВЕРНОСТЬ
(Из цикла «Критерии научности в тестологии»)
ФАЛЬСИФИКАЦИЯ ИЛИ МОТИВАЦИЯ?
В обычных физических измерениях объект, который мы измеряем, никак не озабочен результатами измерений. Даже умный современный компьютер вряд ли «огорчится», если при измерении у него быстродействия выяснится, что он уже отстал от новейших модификаций. В психометрике же объектом является человек. Это активный субъект, который определенным образом осознает (рефлексирует, категоризует) ситуацию тестирования, обеспокоен тем, какие результаты получаются, кто и как будет их использовать. Поэтому испытуемый либо сознательно, либо бессознательно выбирает определенную тактику выполнения теста, которая может искажать результаты. В первом случае говорят о фальсификации (сознательные искажения), во втором — о мотивационных искажениях (бессознательные).
Когда тест не защищен от подобных искажений, тестологи говорят, что он не обладает необходимой достоверностью. Таким образом, достоверность — это особое свойство, которому должны удовлетворять научно обоснованные тесты. Без достоверности не может идти речь о валидности результатов, ибо, получая недостоверные результаты, мы не можем судить о том психическом свойстве, которое хотим измерить.
ЖЕЛАНИЕ СООТВЕТСТВОВАТЬ
Существуют разнообразные факторы и процессы, которые приводят к сознательным и бессознательным искажениям результатов тестирования. Самый изученный фактор — это так называемый эффект «социальной желательности». Он возникает из-за стремления испытуемых давать социально-одобряемые ответы. Более всего этот фактор проявляется при диагностике личностных черт или социальных установок.
Для того чтобы нейтрализовать эффект социальной желательности или хотя бы его зарегистрировать, в профессионально разработанных опросниках присутствуют особые шкалы — так называемые «шкалы лжи». В них входят вопросы-ловушки, или провокационные вопросы. Если испытуемый слишком часто соглашается с высказываниями типа «я никогда не вру», «я всегда оплачиваю проезд в общественном транспорте», «я перехожу улицу только на зеленый свет светофора», «я никогда не опаздываю к назначенному часу», то его протокол признается недостоверным и никаких суждений на основании его тестовых результатов не производится.
В работе со школьниками следует учитывать, что дети еще не вполне усвоили социальные нормы, и для них «шкалы лжи» работают плохо или вообще не работают. Чем младше школьник, тем в меньшей степени для него пригодны опросники. Следует также учитывать, что эффект «социальной желательности» сильнее проявляется у конформных людей. Как известно, девочки более конформны, чем мальчики, и для них «шкалы лжи» вполне могут пригодиться — как и в случае со взрослыми.
СПОСОБ САМОУТВЕРЖДЕНИЯ
У мальчиков-подростков нередко проявляется обратная тенденция — при ответе на вопросы теста они невольно тяготеют к тому, чтобы продемонстрировать свою независимость, свой нонконформизм. Происходит искажение с обратным знаком — испытуемый пытается предстать хуже, чем он есть на самом деле. Если выражаться на современном молодежном жаргоне, — «крутым парнем», «отвязным», которому «море по колено» и «закон не писан». В жизни, вне ситуации тестирования, мальчишка может быть гораздо более вменяемым, но тестирование провоцирует его на асоциальную выходку. Так же реагируют на ситуацию экспертизы все неуравновешенные индивиды, для которых характерны асоциальные психопатические реакции.
Пример с подростком иллюстрирует наличие еще одного фактора, который приводит к искажениям при тестировании. Этот фактор называется «Я-концепцией». Испытуемый, которому важно самоутвердиться, искажает данные. В результате эти данные больше соответствуют не его «реальному Я», а его субъективно-желательному, или, как говорят психологи, «идеальному Я».
К сожалению, формализованных приемов для регистрации всех возможных вариантов фальсификации данных под действием «Я-концепции» просто не существует. Проследить за всем, что происходит в ситуации тестирования, может только квалифицированный и опытный психолог. Вот почему проведение личностных методик ни в коем случае нельзя доверять людям без психологического образования.
Психологи должны обязательно дополнять результаты стандартизированных методик данными об испытуемых, поступающими из других источников. Только в этом случае можно доверять стандартизированным данным.
НУ ТЫ СПРОСИЛ.
В детской психодиагностике результаты теста оказываются недостоверными еще и по такой причине: дети не совсем правильно понимают смысл того, что от них требуется в методике. Не будем забывать, что речевое развитие ребенка до 12–13 лет не позволяет ему однозначно понимать смысл многих инструкций и вопросов. Поэтому школьным психологам не следует увлекаться вербальными методиками (использующими речевой стимульный материал).
Мне лично известны случаи, когда некоторые дети 8–10 лет при шкалировании сказочных персонажей с помощью «сказочного семантического дифференциала» (методика Петренко-Стениной) выбирали все прилагательные, находящиеся слева на бланке. Психолог спросил: «Почему ты так делаешь?» И ребенок ответил: «Ведь первое слово слева «добрый» — это положительное качество, поэтому и все остальные слова слева — это положительные качества».
Это характерный пример того, когда ребенок фактически не принимает экспериментальную задачу и пытается выполнить методику «как надо». «Ну, посмотри, следующее под словом «добрый» слово «дерзкий». Разве это положительное качество?» — не унимался психолог. «Конечно, положительное, — невозмутимо отвечал ребенок. — Ведь дерзкий — это значит смелый, а смелый — это положительное качество».
А сколько неприятностей, связанных с недооценкой умственного развития детей из рабоче-крестьянской среды, принесло увлечение вербальными тестами в 20–30-е годы уходящего XX века! Понятно, что определенное развитие речевого интеллекта — необходимая предпосылка готовности ребенка к обучению в школе. Но сколько раз было показано, что, обучаясь чтению, открывая для себя увлекательный мир книги, смышленые дети — выходцы из малообеспеченных и малокультурных слоев общества — быстро наверстывают отставание в речевом развитии.
ПО ЗАКОНУ ЙЕРКСА—ДОДСОНА
В последнее время в школе широко применяются различные невербальные тесты — проективные и интеллектуальные. Тестовый материал в них — это разнообразные картинки, фигурки, схемы, кубики.
Используя такие тесты для диагностики так называемого «практического» (наглядно-действенного) и «визуального» (наглядно-образного) мышления, психолог должен учитывать, насколько ребенок мотивирован на выполнение теста.
Вот дали одному мальчику, Вове, известный тест «матрицы Равена». С этим мальчиком родители уже решали всякие ребусы, шарады, головоломки, а может быть, даже и психологические тесты. Вова знает, что иметь дело с тестом — это интересно, то есть он вполне мотивационно подготовлен к мобилизации своего интеллектуального и волевого потенциала.
Другой мальчик, Петя, взглянул впервые на какие-то абстрактные фигурки в табличках и. не увидел в них ничего забавного и интересного для себя. Его внимание в результате низкой мотивации оказывается рассеянным, не мобилизованным, он не ищет активно те закономерности, которые позволяют решить задачку. В этом случае психолог должен учитывать, что имеет место явное снижение результатов из-за «недомотивированности» испытуемого. Поэтому в начале тестирования следует представить такому испытуемому задания как игровые и достаточно увлекательные.
А вот третий мальчик — Коля. Он ерзает на стуле, у него покраснели даже уши, а руки мелко дрожат. Он волнуется и стремится показать наилучший результат. Он приучен родителями получать только похвалы, а учителями — только пятерки и не может позволить себе отступить с этого рубежа. В спорте тренеры-психологи говорят про такой настрой спортсмена — «перекачен», а в психологии в этих случаях говорят об «избыточной мотивации». Она также ведет к снижению тестовых результатов.
Срабатывает закон, который еще в XIX веке впервые сформулировали психологи Йеркс и Додсон — о криволинейной зависимости уровня исполнительской точности любой деятельности от уровня мотивации. В графической форме этот закон описывается следующей кривой.
Чтобы испытуемый показал все, на что он способен, он должен быть адекватно мотивирован — не слишком слабо и не слишком сильно, то есть сила мотивации должна быть средней, оптимальной.
Для повышения мотивации возьмите параллельную форму теста и потренируйтесь с испытуемым, выдавая после каждого его ответа оценку — «правильно» или «неправильно». Такая текущая обратная связь, как правило, стимулирует интерес и поднимает мотивацию.
Если тест не имеет параллельной формы, с помощью которой психологи могут добиться оптимальной мотивации, то такой тест не вполне соответствует требованиям достоверности.
Чтобы снизить мотивацию, надо, наоборот, отвлечь испытуемого от мыслей о том, каков будет результат. Нужно пояснить ему, что результаты первых нескольких попыток вообще ничего не решают. Можно успокоить его на легких задачках. А иногда приходится вообще поговорить о чем-то далеком от тестирования.
ПРОЕКЦИЯ И ПРОДУКЦИЯ
Нередко психологи полагают, что самые достоверные результаты можно получить с помощью проективных методик. Действительно, для этого есть основания. Главное достоинство проективных методик заключается в том, что испытуемый, как правило, не осознает, как будет проинтерпретирован тот или иной ответ на проективный стимул. Поэтому в ситуации экспертизы (когда результатами теста пользуются не только психолог и испытуемый, но и третьи лица) проективные методики оказываются незаменимым средством для извлечения достоверной информации о личностных свойствах испытуемого — о его стилевых особенностях (чертах), о скрытой, но выраженной мотивации, неудовлетворенной из-за наличия барьеров (подавленные желания).
Но не следует преувеличивать степень защищенности проективных методик от мотивационных искажений, а также от других помех, снижающих достоверность.
Недомотивированный испытуемый не выдаст никакой развернутой проективной продукции: он не создаст яркий и оригинальный рисунок, не даст развернутой цепочки интересных словесных ассоциаций, не построит связного рассказа по картинке. Признак недостатка мотивации — это бедная, крайне лаконичная, стереотипная продукция. В этом случае испытуемый не привносит в проективный стимул ничего от себя. В крайнем случае он просто повторяет то, что видит. «Это чернильное пятно», — так говорит он, глядя на чернильное пятно.
Сверхмотивированный испытуемый часто проявляет скованность, излишнюю напряженность, что закрепощает его фантазию. Характерный признак этого состояния — наличие стереотипных ответов, но обладающих избыточной детализацией. Испытуемый дорисовывает круг до самого обыкновенного колеса (стереотипное решение), но зато прорисовывает все узоры на колесном диске и шинном протекторе.
Из множества исследований хорошо известно, что избыточная мотивация снижает креативность — продуктивность воображения и конструктивного мышления. В известном рисуночном тесте «круги Торранса» это приводит к тому, что испытуемый дорисовывает круг каждый раз фактически на одну и ту же тему: вначале он рисует настенные часы
(с маятником), потом ручные (с браслетом), потом секундомер, потом ему в голову приходит, что можно нарисовать компас, но дальше этого фантазия не идет. Составляя рассказ по картинке, сверхмотивированный испытуемый либо вязнет в ненужной детализации (расписывает, как именно хирург будет резать больного, лежащего на кушетке), либо у него, наоборот, наблюдается «скачка идей» — нарушается связность и повествовательная логика рассказа.
При проведении проективных методик с детьми следует учитывать особую, ситуативно-обусловленную впечатлительность детской психики. Даже самый неискушенный в исследовании детского творчества родитель замечал, что после просмотра фильма дети рисуют и лепят что-нибудь в соответствии с темой фильма. Таким способом они «переваривают» только что полученные впечатления, производят работу по усвоению нового опыта. Поэтому не следует интерпретировать в каком-то особом смысле рисунок семьи, если после просмотра мультика про «Крокодила Гену и Чебурашку» ребенок нарисовал папу в виде крокодила.
ПРИОБРЕТАЙТЕ ОПЫТ!
Подводя общий итог сказанному, еще раз подчеркнем, что практически любой вид психологического тестирования требует профессионального опыта. Он поможет психологу адекватно учесть действие разнообразных факторов, которые снижают достоверность тестирования, и своевременно отказаться от «далеко идущих выводов».
Приобретать подобный опыт можно в процессе стажировки под руководством опытных специалистов. Подобная практика принята во всем мире.
При наличии корпоративной культуры профессиональная методика должна распространяться только среди лиц, имеющих сертификат на право ее самостоятельного использования.
Александр ШМЕЛЕВ,
доктор психологических наук,
профессор МГУ
Что такое достоверность теста
Каким образом мы определяем достоверность? В тест встроены вопросы, ответы на которые позволяют нам определить, насколько честно отвечает респондент, не пытается ли он понравиться, солгать, не скрывает ли он какую-то информацию, насколько он адекватен.
Возможны три заключения о достоверности:
1. Результаты тестирования достоверны (5-10 баллов) Это означает, что результатам тестирования можно полностью доверять. Если какие-то показатели достоверности имеют небольшие отклонения от нормы, то об этом будет написано в тексте с пояснением. Однако эти отклонения незначительны и не являются основанием для того, чтобы признать результаты теста недостоверными.
2. Результаты тестирования сомнительно достоверны (3-4 балла)
Это означает, что мы ставим под сомнение достоверность результатов тестирования. Респондент в той или иной степени пытался ввести нас в заблуждение, отвечая на вопросы нечестно, либо пытаясь скрыть о себе информацию. Однако он делал это не в той степени, в которой можно говорить, что результаты тестирования полностью недостоверны.
Сомнительно достоверные результаты автоматически опускают категорию пригодности до третьей.
3. Результаты тестирования недостоверны (1-2 балла)
Это означает, что результаты тестирования недействительны. Респондент пытался ввести нас в заблуждение своими ответами, либо отказывался давать о себе информацию, отвечая на большую часть вопросов «Нет». Возможно, респондент не понял инструкцию теста или отвечал на вопросы «как попало». Если результаты недостоверны, мы не гарантируем надежность результатов тестирования. Мы настоятельно рекомендуем дать респонденту пройти тест заново, если это возможно. Недостоверность теста можно также косвенно трактовать как нелояльность респондента к компании и использовать как один из решающих негативных факторов при отборе кандидатов на должность.
Недостоверные результаты автоматически опускают категорию пригодности до четвертой.
Критерии достоверности
Вывод о достоверности результатов делается на основании показателей трех критериев достоверности: ложь, преувеличение проблем и скрытность.
1. Ложь
Критерий лжи характеризует стремление респондента выставить себя в лучшем свете, показать, что он придерживается большинства социальных правил и норм.
Возможные уровни лжи:
1. Низкий уровень
Не пытался приукрасить представление о себе, искренне отвечал на вопросы теста. Умеет признавать свои недостатки.
2. Средний уровень
В некоторой степени стремился показать соответствие социальным стандартам. Однако такое стремление является нормальным для большинства людей. В целом отвечал на вопросы искренне и не приукрашивал представление о себе.
3. Высокий уровень
На вопросы теста отвечал неискренне. Стремился приукрасить представление о себе, произвести благоприятное впечатление, придавая ответам социально одобряемый характер. Демонстрировал соблюдение социальных норм и правильность поведения. Возможно, настороженно относился к тестированию, либо плохо понимает мотивы своего поведения.
4. Очень высокий уровень
На вопросы отвечал крайне неискренне. Стремился создать идеализированное представление о себе, показать, что придерживается большинства социальных правил и норм, даже незначительных. Демонстрировал очень строгое соблюдение социальных норм и правильность поведения. Возможно, настороженно относился к тестированию, не понял инструкцию, либо плохо понимает мотивы своего поведения.
Рекомендации при высоком или очень высоком критерии лжи:
• При отборе кадров данный фактор с высокой степенью вероятности означает, что респондент пытался ввести работодателя в заблуждение, показывая себя в лучшем свете. Поэтому стоит рассматривать данный фактор риска как вескую причину для того, чтобы отказаться от кандидата.
• В случаях, когда диагностируется сотрудник компании, необходимо понять причины, из-за которых он отвечал неискренне. Причинами могут быть:
– Нелояльность, намеренная попытка ввести работодателя в заблуждение;
– Настороженное отношение к тестированию;
– Несерьезное отношение к тестированию;
– Плохое понимание мотивов собственного поведения.
• В случае, если сотрудник ценен для компании, можно рассмотреть вариант повторного прохождения тестирования. При этом нужно напомнить ему о том, что отвечать на вопросы нужно максимально честно и открыто.
• Если тестирование проходил ребенок или подросток, то необходимо пройти его заново, контролируя при этом процесс и предварительно убедив ребенка отвечать на вопросы честно.
1. Преувеличение проблем
Критерий преувеличения проблем характеризует стремление респондента драматизировать обстоятельства и условия своей жизни, преувеличивать проблемы, обращать внимание окружающих на свои затруднения и переживания.
Достоверность теста
Особой разновидностью валидности является ДОСТОВЕРНОСТЬ, которая не всегда выделяется в учебниках по психодиагностике, хотя требует специальных усилий и процедур по обеспечению. Речь идет о сознательных или бессознательных искажениях, которые вносит в тестовые результаты сам испытуемый, руководствуясь в ходе теста особой мотивацией, отличающейся от той, которая присуща ему в реальном поведении. Способность теста защищать информацию от МОТИВАЦИОННЫХ ИСКАЖЕНИЙ и есть достоверность теста. Особенно. остро проблема достоверности стоит в случае тест-опросников, которые допускают больше свободы в выборе испытуемым любого варианта ответа.
Типичный прием обеспечения достоверности — наличие в тест-опросниках ШКАЛ ЛЖИ. Эти шкалы основываются главным образом на феномене СОЦИАЛЬНОЙ ЖЕЛАТЕЛЬНОСТИ — стремлении испытуемых давать в ходе тестирования социально одобряемую информацию. Если испытуемый набрал по шкале лжи балл выше критического, то его протокол объявляется недостоверным и ему предлагается либо выполнить данный тест еще раз более откровенно, либо выполнить другой тест. Многие более специфичные «ловушки», направленные на измерение достоверности, часто входят как компонент в структуру конкретного теста, а иногда даже не подлежат разглашению как элемент «ноу-хау» (инфор-
Психодиагностика как научная технология
мационного изобретения) и профессиональной тайны, разделяемой разработчиками только с лицензированными пользователями методики, подписавшими особое лицензионное соглашение при приобретении теста.
Достоверность тестирования тесно связана со степенью доверительности общения, которую смог психолог установить с данным испытуемым. Здесь полезно различать две диагностические ситуации: консультативную (СИТУАЦИЯ КЛИЕНТА) и аттестационную (СИТУАЦИЯ ЭКСПЕРТИЗЫ). В первом случае испытуемый участвует в тестировании на добровольной основе и сам заинтересован получить рекомендации по результатам тестирования (как, например, в профориентационной консультации). Во втором случае тестирование проводится по инициативе педагога или администрации, психолога, родителей, т. е. других лиц, и эти другие больше заинтересованы в результатах, чем сам испытуемый.
Понятно, что в аттестационной ситуации вопрос о достоверности особенно актуален. И опросники, не снабженные шкалами лжи, использовать в таких ситуациях бесполезно. Наоборот, в ситуации клиента могут быть использованы такие методики, на которые испытуемый заведомо будет отвечать некорректно в ситуации экспертизы.
Вопросы достоверности и стандартизации тесно связаны между собой. Очень часто даже объективные тесты достижений, если они проходили стандартизацию на добровольцах (в ситуации консультации), должны быть рестандартизированы для того, чтобы их использовали в аттестационной ситуации.
В заключение данной главы подчеркнем, что измерение психометрических характеристик теста, конечно, является прежде всего обязанностью разра-
ботчиков тестов. Но квалифицированный школьный психолог-методист с полным курсом университетского образования должен по своей подготовке уметь самостоятельно провести простейший психометрический эксперимент и пересчитать тестовые нормы, а также психометрические индексы надежности и валиднос-ти теста на своей собственной выборке (в своем регионе, обладающем определенной национально-культурной и социальной спецификой). Без этой проверки никто не может гарантировать, что тест действительно работает в данных условиях.
На сегодня подобная психометрическая работа с тестами облегчается, так как от массы рутинных вычислений специалиста освобождает компьютер. Научная фирма «Гуманитарные технологии» (МГУ) распространяет с 1993 года специализированный пакет программ ТЕСТАН (разработчик — А. Г. Шмелев) для психометрического АНализа ТЕСТов. Задача пользователя такой программы — не тратить время на вычисления, а только содержательно разбираться в том, что означает тот или иной коэффициент.
О перспективах метода тестов в связи с компьютеризацией школы предстоит особый разговор в параграфе 2.6.
Ключевые термины: оптимальная трудность, надежность теста, ошибка измерения, ретестовая надежность, валидность теста, критерий валидное ти, прогностическая валидность, стандартизация теста, выборка стандартизации, линейная стандартизация, конверсионная таблица, репрезентативность тестовых норм, рестандартизация, критериальные нормы, достоверность теста, мо-тивационные искажения, шкалы лжи, социальная желательность, ситуация клиента, ситуация экспертизы,
Валидность обычно считается наиболее важным вопросом в психологическом и образовательном тестировании, потому что это касается значения результатов тестирования. Хотя многие учебники представляют валидность как статическую конструкцию, с момента первых опубликованных рекомендаций по построению психологических и образовательных тестов возникли различные модели валидности. Эти модели можно разделить на две основные группы: классические модели, которые включают несколько типов валидности, и современные модели, которые представляют валидность как единую конструкцию. Современные модели реорганизуют классические «валидности» либо в «аспекты» валидности, либо в «типы» свидетельств, подтверждающих валидность.
Содержание
Историческая справка
В течение следующих четырех десятилетий многие теоретики, включая самого Кронбаха, выражали свое недовольство этой моделью достоверности три в одном. Их аргументы достигли высшей точки в статье Сэмюэля Мессика 1995 года, в которой обоснованность описывалась как единственная конструкция, состоящая из шести «аспектов». По его мнению, для различных выводов, сделанных на основе результатов тестов, могут потребоваться разные типы доказательств, но не разные значения их достоверности.
Стандарты образовательного и психологического тестирования 1999 года в значительной степени систематизировали модель Мессика. Они описывают пять типов подтверждающих валидность доказательств, которые включают каждый из аспектов Мессика, и не упоминают содержание классических моделей, критерии и конструктивные валидности.
Процесс проверки
Для единственной интерпретации любого результата теста может потребоваться, чтобы несколько утверждений были верными (или может быть поставлено под сомнение любой из набора угроз его действительности). Убедительные доказательства в поддержку одного утверждения не уменьшают требования в поддержку других утверждений.
Доказательства, подтверждающие (или ставящие под сомнение) обоснованность интерпретации, можно разделить на одну из пяти категорий:
Методы сбора доказательств каждого типа следует использовать только в том случае, если они дают информацию, которая поддерживает или ставит под сомнение утверждения, необходимые для рассматриваемой интерпретации.
Каждое доказательство, наконец, объединяется в аргумент достоверности. Аргумент может потребовать пересмотра теста, протокола его администрирования или теоретических построений, лежащих в основе интерпретаций. Если тест и / или интерпретация результатов каким-либо образом пересматриваются, новый процесс проверки должен собрать доказательства в поддержку новой версии.