Что такое надежность результата измерений
Надежность измерения
От валидности нужно отличать надежность измерения. Надежность измерения означает устойчивость во времени результатов измерения.
То есть надежность означает, что измерения свойств одного и того же объекта в разное время дают одни и те же значения. Если получаются различные значения, это означает, что измерение ненадежно.
Можно провести следующую аналогию: линейка ненадежна, если в разное время показывает, например, в зависимости от температуры воздуха, различные размеры одного и того же объекта, который на самом деле все время оставался тем же самым.
Между надежностью и валидностью имеется следующее отношение. Если измерение ненадежно, то оно и невалидно, потому что несовершенный инструмент не может показывать то, что есть на самом деле.
Измерение может быть надежным, но не валидным. Допустим, мы раз в месяц интересуемся у работников при помощи открытого голосования, как они оценивают работу своего начальника. И каждый раз все 100% опрашиваемых голосуют за оценку «отлично». Таким образом, получаются одни и те же результаты, и измерение вроде бы надежно. Но невалидно, потому что используемый способ измерения не позволяет определить, что люди реально думают о работе начальника.
В советском обществе, в 30-е годы, в конце партийного собрания скромный человек в президиуме вставал и говорил «Да здравствует товарищ Сталин!», и все хлопали в ладоши 20 минут, пока тот же человек и не говорил, достаточно, товарищи коммунисты. Через эти 20 минут измерялась любовь к товарищу Сталину. Измерение получалось вполне надежным, потому что каждый раз повторялись эти же 20 минут. А тот, кто переставал хлопать в ладоши раньше, оказывался, как очень быстро устанавливали соответствующие органы, японским шпионом, который много лет ловко притворялся честным человеком.
Но если измерение валидно, то оно и надежно. А вот если надежно, то необязательно валидно. Это как в высказывании «Если идет дождь, то асфальт мокрый». Но необязательно будет истинно наоборот: «Если асфальт мокрый, то шел дождь». Потому что могла пройти поливальная машина.
В надежности измерения часто бывает очень сложно убедиться. Дело в том, что сами люди могут изменять свое мнение под влиянием опыта или обстоятельств. Трудно отделить воздействие ошибок измерения от действительных колебаний измеряемых объектов.
Имеются два способа установления надежности измерений. Первый – это метод неоднократного тестирования. В этом случае одно и то же измерение применяется несколько раз к одним и тем же объектам. Если получаются одни и те же данные, измерение надежно. Однако сложность состоит в том, что люди могут помнить свои прежние ответы и будут стараться их повторять, независимо от того, что они на самом деле в данный момент думают. Эта зависимость от прежних ответов называется тест-эффект. Чтобы избежать тест-эффекта, необходимо приступать к повторному опросу лишь после значительного промежутка времени. Однако тогда мнения людей могут измениться из-за изменений реальности, и мы не сможем отличить изменения из-за ненадежности измерения от изменений того, что измеряется.
Поэтому практикуется второй способ, который можно подразделить на два приема. Первый прием состоит в том, что в одно и то время к одной и той же группе людей применяются разные, но сходные способы измерения. Это делается так: в разных местах анкеты ставятся близкие по смыслу, но отличающиеся по форме вопросы, и если ответы на эти вопросы однотипны, то измерение надежно.
Второй прием: одно и то же измерение применяется к разным подгруппам людей одной группы. И если ответы подгрупп на один и тот же вопрос однотипны, то измерение надежно.
Таким образом, исключается тест-эффект. Однако все зависит от того, насколько близки по смыслу различные вопросы и действительно ли подгруппы достаточно однотипны. Чтобы добиться такой однотипности, необходимо подбирать подгруппы из достаточно большой исходной совокупности респондентов, а это не всегда возможно[3].
При использовании первого приема тоже могут возникнуть проблемы. В одном исследовании психологического климата на заводе в анкете повторялся два раза в несколько измененном виде вопрос об отношении к руководству. И получилось, что на первый вопрос ответы были в основном положительными, а на второй вопрос − в основном отрицательными. Пришлось побеседовать с людьми и признаться в своем недоумении. Работники пояснили, что в первом случае они истолковали вопрос как отношение к начальнику цеха, к которому они относятся в целом положительно, а во втором случае − как отношение к директору завода, к которому они относились за его грубость не очень хорошо. Эта двойственность ответов говорила все же о ненадежности анкеты.
В том, что измерение надежно, нужно убедиться до начала сбора основного массива данных. Это требует пробного тестирования данного способа измерения в ходе пилотажного исследования.
Пилотажное исследование является необходимым в том случае, когда используются способы измерения, еще не обкатанные в ранее проведенных исследованиях. Но чаще всего исследования проводятся на основе готовых, ранее разработанных и опробованных методик. Тогда остается только провести опрос и обработать полученные данные.
Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет
Управленческая теория измерений.
Надёжность и достоверность измерений
Управленческая теория измерений.
Надёжность и достоверность измерений
К. э. н., доцент кафедры финансового менеджмента, управленческого учёта и международных стандартов финансовой деятельности факультета ВШФМ РАНХиГС при Президенте РФ, руководитель консультационного бюро Института экономических стратегий, преподаватель школ бизнеса РАНХиГС, НИУ ВШЭ, МГУ, РСПП, ИНЭС и др.
Надёжность измерений
Надёжность измерений — это широкое понятие. Описанные в теории измерений виды шкал не дают полного представления о свойствах полученных по ним оценок. Необходимо выявить присущие этим оценкам ошибки. Это и называется оценкой надёжности измерения. Данная проблема решается путём выявления трёх свойств измерения:
Правильность измерения — это приемлемость используемого способа измерения (шкалы или системы шкал). Оно связано с возможностью учёта различного рода систематических ошибок, возникающих в результате измерения. Систематические ошибки измерения имеют некоторую стабильную природу возникновения: они либо постоянные, либо меняются по определённому закону. Возможно, что последующие этапы оценки надёжности измерения окажутся излишними, если в начале выяснится полная неспособность инструмента измерения дифференцировать изучаемую характеристику на требуемом уровне. Самый простой возможный вариант — исследуемую характеристику объекта просто нельзя дифференцировать с нужной точностью. Систематические ошибки в результате измерения также будут, если окажется, что систематически не используется какая-то градация шкалы или вопроса. Например, исследования показывают, что при непосредственном присваивании коэффициентов люди пользуются ограниченным набором чисел [2].
Как добиться правильности измерений? Прежде всего, нужно ликвидировать или уменьшить такого рода недостатки шкалы и только затем использовать её в прикладных целях. Например, изменение шкалы оценок, используемой в ВШЭ. Первоначально в ВШЭ использовалась 10-балльная шкала без пояснений к баллам. В результате анализа правильности измерений выяснилось, что есть градации шкалы, которые практически не применяются (оценки 1, 2 и 10). Тогда шкала оценок была заменена на новую 5-балльную — менее информативную, но более надёжную (таблица 5).
| Французская 20-балльная шкала | 10-балльная шкала оценок ВШЭ | Новая 5-балльная шкала оценок ВШЭ |
| 18 и выше | 10 | «Отлично» — 5 |
| 17 | 9 | |
| 15 — 16 | 8 | |
| 14 | 7 | «Хорошо» — 4 |
| 12 — 13 | 6 | |
| 11 | 5 | «Удовлетворительно» — 3 |
| 9 — 10 | 4 | |
| Менее 9 | 1 — 3 | Неудовлетворительно |
Устойчивость измерения характеризует степень совпадения результатов при повторных применениях измерительной процедуры. Она описывается величиной случайной ошибки (чаще всего используется средняя квадратическая ошибка). Устойчивость характеризует постоянство подхода респондента к ответам на одинаковые или подобные вопросы. День на день не приходится, один и тот же человек в разных условиях может дать разные ответы на одинаковый вопрос. Эту неустойчивость оценок при использовании нефинансовых качественных показателей деятельности компании исключать или игнорировать никак нельзя.
Как оценить устойчивость измерений? Существует несколько методов оценки устойчивости измерений:
Устойчивость может быть измерена статистически достаточно строго и выражена в форме числового показателя. Правда, в системе показателей компании это практически не применяется, и устойчивость оценок остаётся «вещью в себе». Например, на Талнахской горно-обогатительной фабрике начальник может увеличить или уменьшить на 1 балл оценку своему подчинённому при 4-балльной системе измерений. Попробуйте установить устойчивость такой оценки формально. Это не получится.
Тем не менее, этот приём (субъективное увеличение или уменьшение оценки на 1 балл) я оцениваю положительно. Дело в том, что абсолютно объективных оценок не бывает. Всегда надо как-то учесть субъективное мнение. Особенно если добавление (удаление) целого балла прописано и используется в системе как «дамоклов меч», то есть скорее как угроза, исключительная мера, а не система оценок «за голубые глазки» (именно так он используется, например, на Талнахской горно-обогатительной фабрике).
Обоснованность измерения — это доказательство соответствия между тем, что измерено, и тем, что должно было быть измерено. Это наиболее сложный вопрос надёжности измерения. Трудно доказать, что измерено вполне определённое заданное свойство объекта, а не некоторое другое, более или менее на него похожее.
В отличие от правильности и устойчивости, которые в идеале могут быть измерены достаточно строго и иногда даже могут быть выражены в форме числового показателя, критерии обоснованности определяются либо экспертно, на основе логических рассуждений, либо на основе косвенных данных. В социологии обычно применяется сравнение данных одной методики с данными других методик или исследований, однако в системе показателей компании это практически исключено. Остаётся экспертное профессиональное мнение. Однако наши менеджеры уверены, что их шкалы оценки той или иной характеристики верные. Уверяю вас, это очень далеко от истины! Наши руководители сами разрабатывают даже систему мотивации, тогда как на Западе принято отдавать это на аутсорсинг фирмам-профессионалам. Что уж говорить о каких-то показателях. Неудивительно, что нефинансовые показатели используются пока редко.
Четвертый объект лишний? Или третий эксперт?
Иногда при измерении по порядковым шкалам привлечение ещё одного объекта экспертизы меняет отношения порядка при обработке с помощью суммарного балла порядковых измерений. Предположим, трём экспертам дали задание ранжировать 4 объекта. Результаты приведены в таблице:
| Объекты измерения | A | B | C | D |
| Результаты измерений трёх экспертов | 1 | 2 | 3 | 4 |
| 4 | 2 | 1 | 3 | |
| 2 | 3 | 4 | 1 | |
| Суммарная оценка | 7 | 7 | 8 | 8 |
Вывод: объекты А и В равноценны и лучше, чем С и D, которые тоже равноценны. Теперь уберём объект D и попросим экспертов снова упорядочить между собой объекты А, В и С. Мы вправе ожидать, что предпочтения экспертов, то есть их оценки относительного порядка объектов, не изменятся. Тогда получим следующие результаты:
| Объекты измерения | A | B | C | Нет данных |
| Результаты измерений трёх экспертов | 1 | 2 | 3 | Нет данных |
| 3 | 2 | 1 | Нет данных | |
| 1 | 2 | 3 | Нет данных | |
| Суммарная оценка | 5 | 6 | 7 | Нет данных |
Вывод: объект А лучше объекта В, который, в свою очередь, лучше, чем С. Согласитесь, что выводы различаются. И всё из-за наличия «лишнего» объекта измерений. Значит, достоверность зависит от количества объектов измерения.
Вывод по результатам измерений в порядковой шкале меняется и в зависимости от количества экспертов. Уберём одного эксперта, а предпочтения оставшихся будем считать неизменными. В результате получим:
| Объекты измерения | A | B | C | D |
| Результаты измерений трёх экспертов | 1 | 2 | 3 | 4 |
| 4 | 2 | 1 | 3 | |
| Нет данных | Нет данных | Нет данных | Нет данных | |
| Суммарная оценка | 5 | 4 | 4 | 7 |
Вывод опять изменился: объекты В и С равно хороши и лучше объекта А, который, в свою очередь, лучше, чем объект D. Значит, достоверность измерения зависит от количества экспертов. И не факт, что чем больше экспертов, тем выше достоверность выводов.
Три составляющие измерения. Помимо перечисленного выше, при установлении надёжности следует иметь в виду, что в процессе измерения участвуют три составляющие:
Предпосылки надёжного измерения кроются в каждой отдельной составляющей. Может быть, что способ получения оценки не в состоянии дать максимально точных значений измеряемого свойства. Например, у респондента существует развёрнутая иерархия ценностей, а для получения информации используется шкала с вариациями ответов только «очень важно» и «совсем не важно». Как правило, если используется такая шкала, то все характеристики будут «очень важными», хотя реально у респондента имеется большее число уровней значимости.
Возможно, что субъект, производящий измерение, допускает грубые ошибки; нечётко составлены инструкции к анкете; интервьюер каждый раз по-разному формулирует один и тот же вопрос, используя различную терминологию. На практике это критически важно. Именно поэтому построение системы показателей деятельности сопровождается обучением, разработкой тезауруса, распространением информации, разбором опыта подобных измерений и оценок, приёмами социологии и психологии.
Достоверность измерений
Достоверность характеризует другие аспекты измерений, чем надёжность. Измерение может быть надёжным, но недостоверным. Достоверность характеризует точность измерений по отношению к тому, что существует в реальности. Например, респонденту задали вопрос о целевой месячной выручке. Он её оценивает в 250 000 долларов. Однако, не желая называть интервьюеру истинную цифру, респондент указал «более 100 000 долларов». При повторном тестировании он снова назвал данную цифру, демонстрируя высокий уровень надёжности измерений. То есть измерение надёжно, но недостоверно. Но ложь не является единственной причиной низкого уровня достоверности измерений, её причиной может быть плохое знание респондентом действительности и т. п.
Достоверность — это доверие измерению и оценке, степень уверенности, что в измерении нет ошибки.
Достоверность системы показателей деятельности компании весьма важна. Например, какой вес присвоить одному из двух показателей, сделав его более важным? Точно посчитать вес невозможно, выбирать его придётся субъективно из множества чисел от 0,5 до 1. Но исследования показывают, что при присваивании коэффициентов люди пользуются ограниченным набором чисел, причём используют этот набор крайне неравномерно [2].
Отметим некоторые наиболее общие факторы, влияющие на достоверность измерений и не связанные с предметной областью.
Как повысить достоверность измерений? Повышение достоверности измерений может быть связано с разными факторами. Отметим два наиболее общих способа.
Отмечу, что в социологии и маркетинге достоверность измерений существенно более сложное понятие, чем то, что описано выше. В социологии достоверность определяют как степень, в которой различия между оценками, полученными по шкале, отражают истинные различия между измеряемыми характеристиками объектов, а не обусловлены случайными и систематическими ошибками.
Полная достоверность — это отсутствие ошибок измерения.
Исследователи разделяют содержательную, критериальную и конструктивную достоверность.
Содержательная достоверность (content validity) 1 — субъективная систематическая оценка того, насколько хорошо содержание шкалы соответствует поставленной цели измерения. Например, шкала, разработанная для измерения имиджа магазина, считается неадекватной, если будет опущена одна из существенных характеристик объекта (например, качество и разнообразие (широта и глубина ассортимента) предлагаемой продукции). Оценка содержательной достоверности очевидно субъективна, но в любой системе показателей деятельности субъективизм неизбежен. Однако важно понимать: баллы выбраны и описаны адекватно измеряемому объекту или нет. Хотя выбор балльной шкалы — дело достаточно субъективное.
Критериальная достоверность (criterion validity) отражает, насколько используемая шкала соответствует цели измерений. В зависимости от временных рамок измерения критериальная достоверность может принимать две формы — текущую или прогнозную достоверность. Текущая критериальная достоверность определяется, когда данные, полученные на основе использования шкалы, и сведения о целях измерения (критериальных переменных) собираются одновременно. Для оценки прогнозной критериальной достоверности исследователь собирает измерения по шкале в один период времени, а по целям (критериальным переменным) — в другой. Например, отношение к различным маркам продуктов может использоваться для прогноза будущих объёмов их продаж. У определённой выборки покупателей получают информацию об их отношении к продукту, а затем будущие закупки проверяются по данным исследования. Прогнозные и фактические данные по покупкам сравниваются для оценки прогнозной достоверности шкалы отношения к различным маркам продуктов.
При разработке и эксплуатации системы показателей деятельности компании критериальная достоверность вполне применима. Всем важно знать, как используются их оценки в системе мотивации и при принятии каких решений. Поэтому не лишне иметь представление и о проблеме критериальной достоверности.
Конструктивная достоверность (construct validity) связана с ответами на теоретические вопросы: почему должна использоваться эта шкала и какие выводы можно сделать из лежащей в её основе теории. Конструктивную достоверность понять сложнее, останавливаться на ней здесь мы не будем.
В следующей части статьи речь пойдёт об информативности измерений. Мы проанализируем приведённую в предыдущей части систему оценок в фигурном катании, а также обсудим использование теории измерений в системе показателей компании.
Надежность и валидность измерения
Качество отдельных индикаторов, суммарных показателей (индексов) и шкал определяется их надежностью и валидностью.
Надежность измерения связана с его устойчивостью и воспроизводимостью. Показатель может считаться надежным в той мере, в которой полученные оценки могут быть воспроизведены на данной совокупности объектов измерения. Основной вид надежности — это надежность-повторяемость (или диахронная, ретестовая надежность). Оценка ретестовой надежности отражает результаты повторного применения одного и того же показателя (вопроса, теста) для одной и той же выборки случаев (респондентов) в разные моменты времени. Если люди отвечают на вопрос одинаково и в первом, и во втором, и во всяком последующем случае, то этот вопрос надежен. Если тест умственных способностей дает те же результаты при повторной проверке на одной и той же группе старшеклассников, то это надежный тест.
Важно отметить, что надежность инструмента измерения не отражает его точность или правильность. Скажем, если на вопрос о доходе респонденты дважды дадут совершенно идентичные ответы, завышенные на какие-нибудь 100%, мы имеем дело с абсолютно надежным, но неточным показателем. Если, в другом случае, термометр с безукоризненной надежностью показывает электрическое сопротивление кожи, у нас нет оснований говорить о правильности, адекватности измерения. Оценка надежности-повторяемости — это корреляция между результатами повторных измерений. В случае единичного вопроса-индикатора достаточно просто сопоставить ответы одной и той же группы людей, полученные в первом опросе, с ответами, данными двумя неделями или месяцем позднее, и вычислить коэффициент корреляции (см. гл. 8). На практике хорошей можно считать корреляцию 0,8 и выше.
К недостаткам оценок надежности-повторяемости следует отнести, во-первых, сложность проведения повторных замеров на больших выборках, типичных для социологии. Во-вторых, истинное значение переменной также может изменяться с течением времени, например, политические симпатии могут измениться за неделю в результате каких-то скандальных разоблачений, а зарплата — существенно возрасти за месяц из-за введения обязательного индексирования в условиях инфляции. В последнем случае перед исследователем встанет трудноразрешимая задача отделить колебания, вызванные изменением истинного значения переменной, от колебаний, связанных с надежностью показателя. Поэтому так важен еще один вид надежности — надежность-согласованность. Оценить надежность-согласованность можно лишь в том случае, если для измерения одной и той же переменной используют множество индикаторов. Зато для такой оценки достаточно однократного измерения. В психологическом тестировании, например, используют батареи тестов, нацеленных на измерение одной способности или одного личностного качества. Социологи — если они располагают достаточными средствами и техническими возможностями — используют индексы и шкалы, состоящие из множества отдельных вопросов-индикаторов.
Самый простой способ оценки надежности-согласованности — это «расщепление пополам». Если, например, у нас есть 12 вопросов, предположительно измеряющих политическую активность, где каждому вопросу присвоен 1 балл, а максимальной политической активности соответствует суммарный индекс 12 баллов, то применяется следующая процедура:
1. Вопросы в случайном порядке разбиваются на два равных списка (по 6 вопросов в каждом) и предъявляются один раз группе испытуемых.
2. Далее подсчитывается коэффициент корреляции между результатами одних и тех же испытуемых по разным «половинам» теста: чем выше его значение, тем согласованнее оценки истинного значения политической активности, получаемые с помощью данного набора индикаторов. Не исключено, однако, что полученная таким способом оценка надежности[150] окажется весьма чувствительной к способу «расщепления пополам»: коэффициент корреляции будет заметно меняться в зависимости от способа составления двух списков.
Еще одна элементарная процедура, позволяющая оценить надежность отдельного вопроса (высказывания, пункта шкалы), — это проверка его корреляции с суммарным баллом, т. е. с суммарным значением индекса. Если для данной группы опрошенных коэффициент корреляции между отдельным вопросом о частоте зарубежных поездок и суммарным «индексом ксенофобии» оказался равен 0,3, то можно предположить, что названный вопрос не отражает истинного значения переменной «уровень ксенофобии» и может быть исключен из опросника[151]. Ведь строго определенная надежность — это та доля измеренного разброса оценок, которая относится к истинному разбросу значений измеряемой переменной (мы пользуемся здесь менее строгим и скорее содержательным определением, поскольку пока не обсуждали необходимые статистические понятия). Очевидно, что коррелирование с суммарным баллом — это процедура, применимая для имеющих довольно простую структуру суммарных индексов и шкал (примеры вы найдете дальше в этой главе).
В любом случае важно располагать явной моделью измерения теоретической переменной, так как лишь она позволит предсказать, каковы ожидаемые отношения между отдельными индикаторами и насколько применимы описанные простые методы оценки надежности. Чтобы убедиться в этом, достаточно сравнить модель с множеством эффект-индикаторов латентной переменной с моделью, включающей только причинные индикаторы (см. рис. 3 и 4). Очевидно, что эффект-индикаторы должны быть высоко согласованны и с латентной, переменной-свойством, которую они призваны измерять, и друг с другом. Однако это не так уж очевидно для причинных индикаторов: скажем, и образование, и доход — важные компоненты понятия «социально-экономический статус». Однако даже если образование растет, доход имеет право вести себя как угодно, т. е. он вовсе не должен показывать непременно высокую корреляцию с образованием. Иными словами, если от надежных эффект-индикаторов следует ожидать высокой скоррелированности друг с другом (при использовании методов «расщепления пополам» или корреляции с суммарным баллом), то для причинных индикаторов столь простой подход к оценке надежности неприменим. Разработать подходящий метод оценки надежности здесь можно, лишь анализируя взаимосвязи разных индикаторов и разных теоретических переменных в модели измерения. Прогнозируя ожидаемую направленность и величину этих связей, исследователь может оценить степень соответствия своих предсказаний наблюдаемым данным и сделать вывод о качестве индикатора. Самыми универсальными методами оценки надежности эмпирических индикаторов являются факторный анализ и путевой анализ. В идеале для оценки надежности используют несколько индикаторов (два-три) и по крайней мере две волны панели[152].
Очень важно помнить, что понятие надежности связано со случайными ошибками измерения, т. е. с ошибками, которые никаким систематическим образом не связаны друг с другом или какими-то систематически действующими внешними переменными (скажем, полом или возрастом респондентов). Типичные источники ненадежности— это случайные несистематические факторы, связанные с колебаниями внимания респондентов, неоднозначностью формулировки вопроса, ведущей к различию в его восприятии в разных случаях; несистематическими различиями в проведении интервью; различиями в кодировании открытых вопросов, или с ошибками при вводе данных. Например, если предложить даже очень опытным специалистам классифицировать сотню населенных пунктов по заранее разработанной схеме кодирования типов поселений, то, вероятнее всего, можно будет найти по крайней мере несколько расхождений в получившихся классификациях. Некоторые расхождения будут связаны с наличием «предельных» случаев, не поддающихся однозначной классификации по предложенным правилам, некоторые — с механическими ошибками записи или невнимательностью. Предварительная оценка надежности вопросов социологической анкеты требует прежде всего «отбраковки» неясно сформулированных вопросов, на которые люди часто отвечают случайным образом. Столь же низка надежность вопросов, на которые респонденты попросту не способны ответить, так как не имеют никакого мнения по затронутой проблеме или ничего не знают о ней. Далеко не все опрошенные, столкнувшись с иррелевантным вопросом, честно ответят «не знаю» или «не помню». Многие дадут наугад выбранный ответ из вежливости или нежелания демонстрировать свою неосведомленность.
Методы увеличения надежности нами уже обсуждались (см. гл. 4, 5). Во-первых, нужно стремиться к использованию множественных индикаторов. Когда же это невозможно, т. е. существуют теоретические или практические трудности в измерении одной переменной разными способами, то следует использовать самые устоявшиеся и общепринятые показатели (например, если можно лишь один раз спросить респондента о его возрасте, то лучше всего использовать в точности такую же формулировку вопроса и те же категории ответа, какие используются в общенациональных переписях, масштабных панельных исследованиях и т.п.).
К другим методам увеличения надежности можно отнести «отсев» иррелевантных вопросов, анализ словесной формулировки вопроса, обучение и контроль интервьюеров, совершенствование методов кодирования данных и процедур ввода.
Валидность измерения, в самом общем смысле, характеризует соответствие измерения его цели. Эмпирический показатель валиден (обоснован, правилен) в той мере, в какой он действительно отражает значение той теоретической переменной, которую предполагалось измерить. Очевидно, что нет смысла говорить о валидности какого-то индикатора самого по себе. Валидность инструмента измерения состоит в однозначностш и правильности получаемых результатов относительно измеряемого свойства объектов, т. е. относительно предмета измерения. Можно сказать, что валидность определяет «чистоту» измерения теоретического конструкта. Когда измерение является непосредственным, т.е. мы можем прямо подсчитать количество эталонных единиц измеряемого свойства, и на результаты измерения влияют только случайные ошибки, надежность и валидность неразличимы, валидность инструмента измерения равна его надежности[153]. Если мы измеряем интересующее нас свойство лишь косвенно, используя какой-то индикатор, возникает различие между надежностью и валидностью. Индикатор может обладать высокой надежностью (воспроизводимостью), но при этом измерять интересующий нас социологический конструкт недостаточно «чисто». Уже на интуитивном уровне очевидно, что вполне надежный инструмент может измерять нечто другое, помимо интересующего исследователя качества (например, не столько политическую активность, сколько конформизм). Косвенное измерение обычно содержит и случайный, и неслучайный ошибочный компонент. Именно неслучайный компонент, включающий в себя систематическую (скоррелированную) ошибку и, реже, имеющую одну и ту же величину для каждого случая постоянную ошибку измерения, определяет валидность показателя. Характерными примерами систематической ошибки измерения в социологическом опросе или эксперименте являются уже упоминавшиеся эффекты «памяти», социальной желательности, установки за позитивный или негативный ответы. Они влияют не только на правильность, валидность индикатора интересующей исследователя переменной, но и на правильность и обоснованность результатов анализа данных: скоррелированная ошибка измерения может воздействовать на любые статистические показатели, в том числе на показатели взаимосвязи между переменными и на оценки значимости различий между подгруппами. Иными словами, конечным итогом «пользования невалидных индикаторов могут оказаться неверные содержательные выводы.
Проблема валидности измерения — сложнейшая проблема социологической методологии. Валидное измерение — это прежде всего результат валидной модели измерения, т. е. результат обоснованной и ясной концептуализации теоретических представлений. Здесь мы опишем лишь основные виды валидности и традиционные методы валидации, т. е. установления валидности измерений.
Валидностъ по содержанию показывает, в какой мере избранные исследователем индикаторы отражают различные аспекты теоретического понятия. Иными словами, речь идет о представительности данной совокупности измерений да отношению к концептуальной структуре переменной-признака, о полноте операционализации теоретических понятий. Например, экзамен по статистике может рассматриваться как валидный инструмент измерения статистических знаний студентов, так как экзаменационные вопросы отражают содержание лекций и учебников. Однако если все вопросы относятся лишь к одному разделу прочитанного курса — скажем, к нормальному распределению, — то результаты экзамена будут отражать, например, умение студентов переводить «сырые» баллы в стандартные оценки, но ничего не скажут о знании корреляции и регрессии.
Основная процедура оценки валидности по содержанию — это суждение эксперта. В некоторых случаях связь между теоретическими понятиями и измеряющими их индикаторами столь ясна, что никакие специальные обоснования попросту не требуются: понятно, что термометр измеряет температуру. Здесь можно говорить об очевидной (иногда—лицевой, от англ. face validity) валидности показателя. Очевидная валидность тем выше, чем тождественнее понимание цели вопроса, теста или иного показателя профессионалом-социологом и неискушенным респондентом. Вопрос о частоте покупки шампуня, по всей вероятности, не содержит в себе никаких подвохов и позволяет судить именно о том типе потребительского поведения, который описан в вопросе. Однако в более сложных случаях содержательная валидность отнюдь не сводится к очевидной. Набор простых вопросов о излюбленном способе проведения досуга, предпочитаемой марке автомобиля, частоте чтения престижного журнала и т. п. может быть нацелен на измерение «стиля жизни» респондента (в данном случае измерение позволяет отнести человека к одной из номинальных категорий стиля жизни — «выживающий», «достиженческий», «экзистенциальный», «социальный» и т. п.[154]). Судить о полноте этого набора и относительной значимости вопросов для измерения понятия «стиль жизни» могут только специалисты. Основой такого экспертного суждения является теоретическое определение, концептуализация исследовательской переменной. Обычно экспертное суждение о валидности по содержанию выносится более или менее стихийно, после публикации результатов исследования. Иногда все же удается использовать более организованные процедуры — метод параллельных панелей или метод нескольких судей[155]. В первом случае две или три последовательные панели специалистов проводят всю процедуру валидации по содержанию, т. е. сравнивают существующие дефиниции, составляют список возможных индикаторов и оценивают их репрезентативность по отношению к исследуемой концептуальной области. Если сравнение индикаторов, независимо отобранных в двух и более панелях, обнаруживает множество совпадений, можно говорить о высокой содержательной валидности.
Метод нескольких судей (экспертов) полезен в тех случаях, когда переменная-признак, которую предполагается измерить, имеет многомерную структуру. Если, например, социолог разрабатывает воображаемую шкалу социально-экономического благополучия регионов, то полезно обратиться к специалистам в таких областях, как демография, социальная политика, занятость, налоговая система и т. п. Опрос экспертов позволит выявить существенные факторы, входящие в шкалу, оценить их сравнительную значимость и найти релевантные эмпирические индикаторы.
Критериальная валидность (или валидность по критерию) показывает, насколько хорошо результаты по данному тесту или индикатору согласуются с результатами измерения другого показателя, называемого критерием. Чаще всего критерий — это та переменная, которая и представляет практический интерес для исследователя, но не может быть измерена в данный момент. Например, критериальная валидность вступительных экзаменов определяется той академической успеваемостью, которую в дальнейшем продемонстрируют студенты (т. е. академическая успеваемость является в данном случае критерием). Можно также предположить, что тест моральной оценки девиантного поведения для подростков обладает критериальной валидностью по отношению к реальному отклоняющемуся поведению. Индикатор, обладающий доказанной критериальной валидностью, может рассматриваться как переменная-предиктор, позволяющая предсказывать индивидуальные значения переменной-критерия. ^Конечно, нужда в предикторе, замещающем собственно критерий, возникает лишь в тех случаях, когда оценки по критерию получить трудно, т. е. речь идет о давно прошедших или еще не наступивших событиях, либо переменную-критерий трудно измерить из-за практических или этических соображений. Валидность предиктора обычно тем выше, чем ближе он к критерию. Скажем, идеальным методом отбора курсантов авиационного училища мог бы стать пробный краткосрочный курс обучения с проверкой практических навыков управления самолетом в финале: прошедшие проверку претенденты имели бы все шансы стать настоящими профессионалами. Однако такой метод слишком дорогостоящ и на практике используют тесты интеллекта, испытания визуально-моторной координации и другие показатели, установив предварительно их критериальную валидность. В другом случае проективный личностный тест (типа ТАТ — теста тематической апперцепции, подразумевающего составление рассказов по фотографиям с неопределенным сюжетом) позволит выявить признаки психоза либо травмирующего сексуального опыта в прошлом пациента. Полное психиатрическое обследование могло бы занять очень много времени, да и данные о плохом обращении в детстве получить довольно трудно.
К основным типам критериальной валидности относят прогностическую, конкурентную и постдиктивную («предсказывающую-назад») валидности.
Прогностическая критериальная валидность описывает точность, с которой значения данной переменной — обычно характеризующей отдельного индивида или группу — могут быть предсказаны на основании текущих значений какой-то другой переменной (предиктора). Очевидно, что наилучшим показателем такой прогностической точности будет корреляция между значениями переменной-предиктора и значениями переменной-критерия для одной и той же выборки. Тогда — в пределах ошибки выборки — коэффициент корреляции будет равен коэффициенту прогностической валидности.
Конкурентная валидность по критерию — это степень соответствия между текущими значениями переменной-критерия и переменной-предиктора. Попросту говоря, исследователь использует результаты измерения по одному признаку для того, чтобы оценить значение другой переменной. Причина может заключаться в том, что измерение непосредственно переменной-критерия трудноосуществимо, занимает слишком много времени и т. п. Проблема конкурентной валидности весьма значима для эмпирической социологии, где многие поведенческие или установочные переменные измеряются не непосредственно, а через самоописания, ответы на анкетные вопросы, иными словами, через вербальное поведение. Например, мы можем оценить конкурентную валидность анкетного вопроса о частоте посещения дискотеки студентами-отличниками с помощью серии включенных наблюдений за реальным поведением данной группы. Уже ранние исследования конкурентной валидности фактографических вопросов в социологии показали, что даже для относительно «безобидных», несензитивных индикаторов конкурентная валидность может изменяться в самых широких пределах.
В так называемом Денверском исследовании валидности, проведенном С. Стауффером и соавторами в 1947 г., сопоставлялись данные ответов респондентов на фактографические вопросы и данные официальной статистики местных организаций. Речь шла о регистрации избирателей, участии в голосовании, взносах в городскую казну, о наличии водительских прав и читательского билета и т. п. Сопоставляя данные официальной статистики (критерий) с ответами респондентов (предиктор), исследователи обнаружили, что величина расхождений составляла от нескольких процентов до почти 50%, в зависимости от содержания вопроса.
Следует, однако, помнить и об ограничениях, присущих объективным показателям-критериям: данные официальных документов также нередко основаны на самоотчетах и нередко подвержены ошибкам измерения. Все же в некоторых случаях процедура конкурентной валидации имеет преимущество перед предиктивной, так как первая не требует от исследователя длительного ожидания того момента, когда можно будет измерить значения критерия. Если, например, исследователь хочет оценить критериальную валидность теста профессиональных интересов, разработанного для студентов, как предиктора успешной профессиональной карьеры, то ему необязательно ждать десять лет, чтобы измерить значение переменной-критерия. Достаточно провести тестирование профессиональных интересов для двух «крайних» групп уже работающих специалистов — преуспевших и наименее преуспевших в профессии в данный момент времени. Высокая корреляция между тестовым баллом и успешностью работы (или статистически значимое различие тестовых баллов «крайних» групп) будет свидетельствовать о конкурентной валидности теста. Условиями, при которых выводы о конкурентной валидности индикатора могут все же оказаться ошибочными, являются избирательное выбывание из выборки (самоотбор) и реактивность переменной-предиктора. Самоотбор в нашем примере может иметь место в том случае, если среди выбывших из выборки (бывших студентов, отказавшихся от профессиональной карьеры в данной области и не охваченных по этой причине проводимым тестированием) будут сверхпредставлены высоко- либо низкомотивированные, т. е. естественное выбывание будет носить неслучайный характер. В случае реактивности индикатора наши испытуемые будут отвечать на вопросы теста мотивации не так, как они отвечали будучи студентами (из-за повлиявших на них профессионального опыта, изменения социального статуса и т. п.) И все же существуют нереактивные переменные-предикторы, конкурентная валидность которых вполне поддается обоснованию. Примером могут служить такие стабильные характеристики, как коэффициент интеллекта или «фоновые» переменные (социальное происхождение, национальная принадлежность и т. п.).
Наконец, в некоторых случаях мы заинтересованы в том, чтобы установить точность, с которой мы можем оценить наличие какого-то критерия-признака или черты, присущей индивиду (группе) в прошлом. Пример использования проективного психологического теста для постдиктивного «прогноза» детских травм приведен выше. Эта ситуация обозначается как оценка постдиктивной валидности.
Описанные нами виды валидности существенны в тех ситуациях, когда перед исследователем стоит задача сравнить некий показатель с уже существующими или с используемым в практике критерием. Иными словами, критериальная валидность показателя — это корреляция с другим, предположительно «чистым», эмпирическим показателем. Однако существует и другой подход к валидности, где оценка индикатора основана на том, насколько хорошо его «поведение» соответствует теоретическим ожиданиям. Такая оценка может быть проведена лишь в рамках целостной теоретической модели, описывающей отношения между теоретическими переменными, их индикаторами, случайными и неслучайными ошибками измерения. Предположим, мы хотим проверить валидность новой шкалы групповой сплоченности. Основываясь на существующих теоретических представлениях, мы можем предположить, что большей групповой сплоченности соответствует меньшая частота открытых конфликтов и большая интенсивность коммуникаций. Сравнив различные по уровню групповой сплоченности группы и определив для них значения других двух переменных (частота конфликтов и интенсивность коммуникаций), мы увидим, насколько хорошо «ведет» себя разработанный нами показатель групповой сплоченности. Если паттерн его отношений с двумя другими переменными соответствует предсказаниям теории, то мы можем заключить, что новая шкала валидна, т. е. измеряет именно ту теоретическую переменную, которая нас интересует. Этот вид валидности обычно обозначают термином «конструктная валидность»[156]. (Иногда используют также обозначение «концептуальная валидность».)
Со статистической точки зрения абсолютная конструктная валидность предполагает, что весь наблюдаемый разброс в значениях показателя связан исключительно с измеряемым теоретическим конструктом. Если же часть вариации индикатора связана с другой переменной — будь то другой теоретический конструкт или систематическая ошибка измерения,— конструктная валидность окажется меньше.
Легко заметить, что оценка конструктной валидности предполагает какую-то связь между проверкой содержательных теоретических гипотез и проверкой качества измерения. Действительно, оценка конструктной валидности посредством сопоставления теоретической модели «поведения» изучаемой переменной с реальными отношениями индикаторов требует включения модели измерения (см. выше) в более широкую теоретическую модель.
Предположим, мы используем некоторый суммарный показатель — индекс «демократизма политической системы», состоящий из ряда индикаторов (Х1, Х2, Х3), каждый из которых имеет свой собственный «вес» в индексе демократизма. К таким индикаторам могут относиться наличие парламента (номинальная дихотомическая[157] переменная), количество независимых телерадиокомпаний и т.п. Исходя из теоретической модели, мы ожидаем, что степень «демократизма» находится в обратной связи с долей ВНП, расходуемой на модернизацию вооружений. Основываясь на этой модели (см. рис. 11), можно проверить конструктную валидность изобретенного нами индекса демократизма.
![]() |
![]() |
|
С
![]() |
![]() |
Рис. 11. Модель взаимосвязи для переменных «демократизм»




