Что такое надежность в психологии
Надежность и валидность тестов
В любом эмпирическом исследовании по психологии используются психологические тесты. Часто от студентов требуют указывать данные об их надежности и валидности.
Надежность психологических тестов
В обычной жизни надежность человека или какого-либо предмета означает уверенность в том, что на него можно положиться. Как же проверяют, что на психологический тест можно положиться?
Первый способ проверки надежности психологического теста – анализ устойчивости результатов теста. Действительно, если результаты использования теста на одной и той же выборке существенно не меняются при нескольких тестированиях, то это может служить критерием его надежности.
Повторное тестирование называется ретест. Его проводят с интервалом от недели до года. Затем анализируют корреляции нескольких замеров. Если корреляции между результатами ретестов не ниже 0,76, то такой тест считается надежным.
Недостатки ретестовой проверки надежности психологического теста.
1. Некоторые психологические показатели неустойчивы и изменчивы. Например, измеряя настроение, самочувствие в разное время дня или в разные дни, можно получить разные результаты, и это не будет следствием ненадежности теста.
2. При неоднократном заполнении одного и того же теста испытуемые к нему «привыкают». Они могут помнить свои ответы и отвечать так же. Могут, наоборот, менять ответы в сторону социальной желательности. Таким образом, ретестовая надежность не будет в полной мере отражать надежность теста.
Второй способ проверки надежности психологического теста – анализ согласованности различных частей теста. Например, в тесте один показатель, который диагностируется 10-ю вопросами. Согласованность данного теста определяется высокой корреляцией ответов на каждый вопрос с общим результатом по шкале.
Часто для определения согласованности психологического теста его расщепляют на две части. Можно это сделать, отбирая вопросы через один. Можно разделить первую и вторую половину теста. Далее анализируют корреляции ответов двух расщепленных частей теста. Чем выше корреляция, тем выше согласованность теста и его надежность.
Итак, надежность психологического теста – это характеристика его формальной пригодности для диагностики психологических показателей. Например, если тест диагностики тревожности надежен, то это значит, что при его использовании на разных выборках, в разное время вы будете получать схожие результаты. Но будут ли эти результаты характеризовать именно тревожность испытуемых? Надежность психологического теста этого не гарантирует. За это отвечает другой показатель – валидность психологического теста.
Валидность психологических тестов
Валидность психологических тестов отражает соответствие их результатов сущности измеряемых психологических феноменов. Например, насколько результат теста агрессивности отражает реальный уровень агрессивности респондента.
Можно выделить два основных способа определения валидности психологических тестов.
Первый способ выявления валидности психологического теста предполагает соотнесение результатов теста с аналогичными показателями других тестов. Например, для проверки валидности теста на самооценку можно сделать следующее:
Такой способ позволяет выявить так называемую конструктную валидность. Она отражает соответствие выявляемого психологического показателя психологическому конструкту.
Второй способ выявления валидности психологического теста предполагает соотнесение результатов теста с внешними критериями. Такая валидность называется критериальная валидность психологического теста.
Например, показателем критериальной валидности теста склонности к отклоняющемуся поведению может быть реальное число правонарушений подростка. Применительно к тесту мотивации достижений показателем критериальной валидности может быть успешность выполнения той или иной деятельности.
Соотношение надежности и валидности психологических тестов
Надежность теста отражает его качество как метода диагностики, с точки зрения формальных показателей. Без учета содержательного анализа результатов.
Валидность оценивает именно содержательные результаты теста. Насколько они соответствуют реальным психологическим феноменам.
Надежный тест может не быть валидным. Например, тест инициативности может показывать высокую ретестовую надежность и согласованность частей. Однако, с содержательной точки зрения, результаты теста отражают не столько инициативность, сколько силу воли. То есть, надежность данного теста высокая, а валидность низкая.
В практике психологического тестирования надежность тестов с помощью ретеста. Валидность психологических тестов, как правило, проверяется с помощью анализа взаимосвязей с показателями других тестов, измеряющих аналогичные или схожие психологические показатели.
Примеры заключений о надежности и валидности психологически тестов
Тест смысложизненных ориентаций (СЖО)
Надежность теста СЖО проверялась с помощью ретестирования с интервалом в 2 недели (испытуемые — 76 студентов МГУ). Результаты по тесту оказались устойчивы на уровне значимости 5% (р
Автором теста СЖО, Д.А. Леотьевым, была проведена проверка конструктной валидности СЖО. Для этого была сформирована выборка, включавшая студентов московских ВУЗов общей численностью 24 человека (мужчин и женщин).
Было проведено тестирование испытуемых по тестам: СЖО, УСК (уровень субъективного контроля) и САТ (тест на уровень самоакутализации). Далее был проведен корреляционный анализ показателей СЖО с показателями тестов УСК и САТ.
Все шесть показателей теста СЖО значимо положительно коррелируют с общей интернальностью и с интернальностью в области достижений, а также (кроме третьей субшкалы) — с интернальностью в области семейных отношений. Отмечены также значимые корреляции пятой субшкалы СЖО с интернальностью в производственной сфере и по отношению к здоровью-болезни.
Показатели теста СЖО положительно значимо коррелируют со следующими шкалами теста САТ: шкалой опоры и познавательных потребностей — все шесть показателей; шкалами компетентности во времени, самоуважения и представления о природе человека — все, кроме первой субшкалы; шкалой ценностных ориентации — все, кроме общего показателя, и шкалой спонтанности — третья, четвертая и пятая субшкалы. С остальными шкалами CAT значимых корреляций обнаружено не было.
Достаточно высокий уровень взаимосвязи показателей теста смысложизненных ориентаций (СЖО) с показателями интернальности (тест УСК) и показателями самоакутализации (тест САТ) позволяет говорить о конструктной валидности теста СЖО.
Леонтьев Д.А. Тест смысложизненных ориентаций (СЖО). 2-е изд. М.: Смысл, 2000, 18 с.
Методика Ш. Шварца для изучения ценностей личности
Методика Ш. Шварца для изучения ценностей личности была адаптирована в России В.Н. Карандашевым.
Согласно автору русскоязычной адаптации валидность и надежность опросника Шварца обеспечивается:
— тем фактом, что в основе данной психодиагностической методики лежит четкая и теоретически обоснованная концепция ее автора, содержащая операционализированные характеристики ценностей;
— тем, что что при разработке оригинальной версии опросника использовались данные исследований по 54 странам.
Методика «Уровень соотношения Ценности и Доступности в различных жизненных сферах» (УСЦД) (Е.Б.Фанталова)
В методике Е.Б. Фанталовой «Уровень соотношения Ценности и Доступности в различных жизненных сферах» используется список из 12 ценностей, взятых из списка терминальных ценностей методики М. Рокича.
Таким образом, надежность и валидность методики Е.Б. Фанталовой определяется надежностью и валидностью списка ценностей М. Рокича.
Надежность теста ценностных ориентаций М.Рокича проверялась автором через устойчивость ценностной структуры к ретестированию через временные интервалы от 3 недель до 14-16 месяцев на выборках студентов колледжей. Для отдельных ценностей при ретестировании с интервалом 3-7 недель показатель устойчивости варьируется от 0,51 до 0,88 (терминальные ценности) и от 0,45 до 0,70 (инструментальные ценности). Для русскоязычного варианта методики при ретестировании с интервалом в 2 недели были получены средние показатели надежности 0,82 (для терминальных ценностей) и 0,79 (для инструментальных).
О валидности методики ценностных ориентаций М. Рокича (а, следовательно, и методики Е.Б. Фанталовой) косвенно свидетельствуют результаты, полученные при обследовании различных социальных групп. Различия в оценках одних и тех же ценностей мужчинами и женщинами достигают статистически значимых пределов для 12 из 18 терминальных ценностей и для 8 инструментальных.
Фанталова Е.Б. Об одном методическом подходе к исследованию мотивации и внутренних конфликтов // Психологический журнал, т. 13, 1992, N 1. С. 107-117.
Методика «Свободный выбор ценностей» Фанталовой Е.Б.
Методика «Свободный выбор ценностей» является составной частью ценностно-ориентированной системы автора «Диагностика внутреннего конфликта» (ДВК).
В данной методике Е.Б. Фанталова расширила список ценностей от 12 до 72. При этом надежность данной ценностной структуры и ее валидность автором не проверялась.
Фанталова Е.Б. Диагностика и психотерапия внутреннего конфликта. Самара, 2001.
Надеюсь, эта статья поможет вам написать работу по психологии самостоятельно. Если понадобится помощь, обращайтесь (все виды работ по психологии; статистические расчеты). Заказать
Что такое надежность в психологии
Как можно описать надежный тест? Надежный тест измеряет некое качество, делает это устойчиво, относительно времени, позволяет сравнивать результаты испытуемых, протестированных в разное время, в разном месте, в разном состоянии.
Вариабельность измеряемого признака (вариативность как свойство психологического измерения) и многомерность, системность и сложность предмета психологии также ставят под сомнение любое измерение в психологии. Для повышения качества психологического измерения в психометрике используется такой показатель как валидность.
На результаты исследования действуют две группы факторов: (1)изменчивость, присущей самому измеряемому свойству, (2) нестабильность измерительной процедуры.
Свойства надежности могут изменяться при изменении:
1. условия проведения обследования,
2. характера заданий,
3. степени сложности заданий,
4. психологического состояния испытуемого.
Ретестовая надежность – характеристика надежности метода психодиагностики путем повторного обследования с помощью одного и того же теста. Надежность вычисляется по соответствию результатов первого и второго обследований или по сохранению ранговых мест испытуемых в выборке при ретесте.
Алгоритм вычисления ретестовой надежности:
1. первичное тестирование на выборке (при N ≥ 30);
2. повторное тестирование через 5 – 6 месяцев на той же самой выборке;
3. вычисление коэффициента корреляции между первичным и повторным тестированием.
Коэффициент надежности rt соответствует коэффициенту корреляции между результатами первичного и повторного обследований.
Ретестовая надежность пригодна для ограниченного числа методик. Это: 1) Сенсомоторные пробы, 2) Тесты скорости, 3) Тесты, имеющие большое количество пунктов (ММ PI ). Одним из «минусов» процедуры определения ретестовой надежности является «эффект тренировки», который безусловно снижает достовенность надежности теста.
Для порядковых шкал в качестве меры устойчивости к повторному тестированию может быть использован коэффициент ранговой корреляции Спирмена или Кэндалла.
Еще одним достаточно популярным видом надежности является надежность параллельных форм. Параллельные (или взаимозаменяемые, или сопоставимые) формы:
· параллельные или взаимозаменяемые (снабженные таблицами эквивалентности);
· уравненные (попарно уравненные по структуре и содержанию задания);
· эквивалентные (результаты с близкими статистическими характеристиками).
Надежность параллельных форм – характеристика надежности методики с помощью взаимозаменяемых форм теста. При этом одни и те же испытуемые в выборке определения надежности обследуются вначале с использованием основного набора заданий, а затем – с применением аналогичных дополнительных. В практике встречается два алгоритма вычисления надежности параллельных форм.
Первый алгоритм определения надежности параллельных форм:
1. тестирование группы при помощи формы А теста;
2. тестирование группы при помощи формы Б теста (или сразу, или через определенное время);
3. вычисление коэффициента корреляции между результатами тестирования разными формами.
Второй алгоритм вычисления надежности параллельных форм:
1. разделение всех испытуемых на две группы (первая и вторая);
2. тестирование первой группы при помощи формы А теста;
3. тестирование второй группы при помощи формы Б теста;
4. тестирование первой группы при помощи формы Б теста (или сразу, или через определенное время);
5. тестирование второй группы при помощи формы А теста (или сразу, или через определенное время);
6. вычисление коэффициента корреляции между результатами первичного и вторичного исследований.
Надежность частей теста достаточно популярный и просто-просчитываемый вид надежности. Надежность частей теста – характеристика надежности методики путем анализа устойчивости результатов отдельных совокупностей тестовых задач или единичных заданий теста.
Основным методом вычисления надежности частей теста является расщепление – выполнение испытуемым двух равноценных частей теста. Для оценки надежности методом расщепления выбираются две эквивалентные по характеру и степени трудности группы задач. Разделение объема заданий достигается одним из способов:
1) распределение заданий на четные и нечетные (в том случае, если задания строго ранжированы по степени субъективной трудности).
2) разделение пунктов по принципу близости или равенства значений индексов трудности (такой принцип пригоден для тестов достижений, в которых обязателен ответ на все пункты).
3) разделение задач по времени решения каждой из частей (для тестов скорости).
Разделение заданий теста на равноценные половины является лишь частным случаем надежности частей теста. Расщепление возможно на 3, 4, 5 и более частей. В предельном случае число частей равно числу пунктов.
1. провести однократное тестирование на выборке (при N ≥ 30);
2. расщепить тест (используя один из вышеописанных способов), например на четные – нечетные задания;
3. посчитать коэффициент корреляции между выполнением первой и второй половины теста;
4. для перехода к целой форме вычислить надежность целого теста (или формула Спирмена-Брауна, или формулу Рюлона).
Алгоритм вычисления надежности отдельных заданий теста:
1. провести однократное тестирование на выборке (при N ≥ 30);
2. используя результаты выполнения каждого задания, подсчитать коэффициент Кьюдера-Ричардсона (для заданий «1-0») или коэффициент Кронбаха (для более дифференцированных заданий);
Коэффициент Кьюдера-Ричардсона используется для заданий типа «да-нет», «решил – не решил», «верно-неверно».
Надежность субъективных оценок (или экспертная надежность) – характеристика надежности методики путем анализа устойчивости-согласованности экспертных оценок.
Алгоритм вычисления экспертной надежности:
Сравнительные методы установления надежности
Необходимость повторного тестирования
Достаточное число форм
Источники ошибки индекса надежности
Запоминание, тренировка, научение, длина интервала.
Запоминание, тренировка, научение, недостаточная эквивалентность форм
Частей теста (методом расщепления)
Неоднородность содержания, число заданий в тесте
Число заданий в тесте неоднородность содержания,
Мир психологии
психология для всех и каждого
Надёжность и валидность психодиагностических методик
Надёжность и валидность психодиагностических методик
Прежде чем психодиагностические методики могут быть использованы для практических целей, они должны пройти проверку по ряду формальных критериев, доказывающих их высокое качество и эффективность. К числу основных критериев оценки психодиагностических методик относятся надежность и валидность.
Большой вклад в разработку этих понятий внесли зарубежные психологи (А. Анастази, Е. Гизелли, Дж. Гилфорд, Л. Кронбах, Р. Торндайк, Е. Хаген и др.). Ими были разработаны формально-логический и математико-статистический аппарат (прежде всего корреляционный метод и фактический анализ) обоснования степени соответствия методик отмеченным критериям.
В традиционной тестологии термин «надёжность» означает относительное постоянство, устойчивость, согласованность результатов теста при первичном и повторном его применении на одних и тех же испытуемых.
Надёжность методики – это критерий, который говорит о точности психологических измерений, то есть позволяет судить о том, насколько внушают доверие полученные результаты.
Это согласованность результатов тестирования испытуемых в разные моменты времени, при первичном и вторичном тестировании и с использованием разных по эквивалентности, по содержанию заданий. Надежность характеризует тесты свойств, но не состояний. Свойства:
Степень надёжности методик зависит от многих причин. Среди негативных факторов наиболее часто называются следующие:
Одним из важнейших средств повышения надежности методики является единообразие процедуры обследования, его строгая регламентация: одинаковая обстановка, однотипный характер инструкций, одинаковые для всех временные ограничения, способы и особенности контакта с испытуемыми и так далее.
На характеристику надёжности методик большое влияние оказывает исследуемая выборка. Она может, как снижать, так и завышать этот показатель, например, надежность, может быть искусственно завышена, если в выборке небольшой разброс результатов, т.е. если результаты по своим значениям близки друг к другу. Поэтому в руководстве обычно делается описание выборки, на котором определялась надёжность методики.
В настоящее время надежность все чаще определяется на наиболее однородных выборках, т.е. на выборках, схожих по полу, возрасту, уровню образования, профессиональной подготовке и т.п.
К.М. Гуревич предложил толковать надёжность как:
Определение надежности измерительного инструмента. От того как составлена методика, насколько правильно подобраны задания, насколько она однородна зависит точность, объективность измерения.
Для проверки надежности измерительного инструмента, говорящего о его однородности (гомогенности) используют метод расщепления. Задания делят на четные и нечетные (необходимо выполнение всех заданий), а затем результаты коррелируются между собой. Если методика однородна, то большой разницы в успешности по этим половинам не будет, коэффициент будет высоким. Можно сравнивать по частям, но лучше по четным и нечетным, т.к. этот способ не зависит от тренировки, утомления и т.д.
Методика надежна, если коэффициент не ниже 0,75 – 0,85, лучше 0,90 и выше.
Определение стабильности изучаемого признака. Также необходимо установить насколько устойчив, стабилен признак, который исследователь намерен измерять. Признак со временем может меняться, но колебания его не должны иметь непредсказуемый характер.
Для проверки используется прием, который называется тест-ретест. Он заключается в повторном обследовании испытуемых с помощью этой же методики. О стабильности судят по коэффициенту корреляции между результатами первого и второго обследования. Он будет свидетельствовать о сохранении или не сохранении каждым испытуемым своего порядкового номера в выборке.
На степень устойчивости влияет разнообразие фактора. Необходимо соблюдать единообразие процедуры обследования.
При определении стабильности признака большое значение имеет промежуток времени между 1 и 2 обследованиями. Чем короче этот промежуток, тем больше шансов, что этот признак сохраняет уровень первого испытания. Целесообразно проводить повторное тестирование через короткий срок после тестирования. Экспериментатор сам устанавливает этот срок, но чаще в психологической литературе указывают на интервал от нескольких месяцев (но не более полугода). Вопрос о стабильности измеряемого свойства решается не всегда единообразно. Решение зависит от сущности диагностируемого признака.
Если измеряемое свойство уже сформировано, то коэффициент должен быть не ниже 0,80.
Определение константности, т.е. относительная независимость результатов от Личности экспериментатора. Так как методика разрабатывается для дальнейшего использования ее другими психодиагностами, необходимо определить в какой мере ее результаты поддаются влиянию личности экспериментатора. Коэффициент константности определяется путем корреляции результатов двух опытов, проводимых на одной и той же выборке, но разными экспериментаторами. Коэффициент корреляции не должен быть ниже 0,80.
Вопрос о валидности решается после того, как установлена надежность, так как ненадежная методика не может быть валидной.
Валидность теста – понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает (А. Анастази). Валидность по своей сути – это комплексная характеристика, включающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова её действенность, эффективность, практическая полезность.
По этой причине не существует какого-то единого универсального подхода к определению валидности. В зависимости от того, какую сторону валидности хочет рассмотреть исследователь, используются и разные способы доказательства. Другими словами, понятие валидности включает в себя разные ее виды, имеющие свой особый смысл. Проверка валидности методики называется валидизацией.
Валидность – соответствие конкретного исследования принятым стандартам (безупречному эксперименту).
Валидность в первом ее понимании имеет отношение к самой методике, т.е. это валидность измерительного инструмента. Такая про-верка называется теоретической валидизацией. Валидность во втором ее понимании уже относится не столько к методике, сколько к цели ее использования. Это прагматическая валидизация.
При теоретической валидизации исследователя интересует само свойство, измеряемое методикой.
Так как для определения теоретической валидизации тяжело найти какой-нибудь независимый критерий, лежащий вне методики, и поэтому раньше принимались на веру голословные утверждения о валидности этой методики. Так как теоретическая валидизация направлена на доказательство того, что методика измеряет именно свойство, которое она должна измерить. Для теоретической валидизации кардинальной проблемой является отношение между психологическими явлениями и их показателями, по средствам которой эти психологические явления пытаются познать. Она показывает, что замысел автора и результаты методики совпадают.
Не столь сложно осуществить теоретическую валидизацию новой методики, если для измерения данного свойства уже имеется методика с известной, доказанной валидностью. Наличие корреляции между новой и аналогичной старой методиками указывает на то, что разработанная методика измеряет то же психологическое качество, что и эталонная.
Для проверки теоретической валидности важно, с одной стороны, установить степень связи с родственной методикой (конвергентная валидность), а с другой – отсутствие этой связи с методиками, имеющими другое теоретической основание (дискриминантная валидность).
Важную роль для понимания того, что методика измеряет, играет сопоставление ее показателей с практическими формами Деятельности. Важно чтобы методика была проработана в теоретическом плане.
Проверяется практическая эффективность, значимость, полезность методики, так как методикой можно пользоваться только тогда, когда доказано, что измеряемое свойство проявляется в определенных видах Деятельности.
Для проверки прагматической валидности используется независимый внешний критерий – показатель проявления изучаемого свойства в повседневной жизни. В качестве такого критерия могут выступать успеваемость (для тестов способностей к обучению, тестов достижений, тестов интеллекта), производственные достижения (для методик профессиональной направленности), эффективность реальной Деятельности – рисования, моделирования и так далее (для тестов специальных способностей), субъективные оценки (для тестов Личности).
Американские исследователи Тиффин и Маккормик выделили 4-е типа внешнего критерия:
Внешний критерий должен обладать 3 основными требованиями:
Оценка валидности методики может носить количественный и качественный характер.
Для вычисления количественного показателя (коэффициента валидности) сопоставляются результаты, полученные при применении диагностических методик, с данными тех же лиц, полученные по внешнему критерию. Используются разные виды линейной корреляции (по Спирмену, по Пирсену).
Качественное описание сущности измеряемого свойства. Здесь не используют статистическую обработку.
Существуют несколько видов валидности, обусловленных особенностями диагностической методики, а также временным статусом внешнего критерия: