Что такое надежность теста в классической теории тестирования

Фундаментальная теория тестирования

В тестировании нет четких определений, как в физике, математике, которые при перефразировании становятся абсолютно неверными. Поэтому важно понимать процессы и подходы. В данной статье разберем основные определения теории тестирования.

Перейдем к основным понятиям

Тестирование программного обеспечения (Software Testing) — проверка соответствия реальных и ожидаемых результатов поведения программы, проводимая на конечном наборе тестов, выбранном определённым образом.

Цель тестирования — проверка соответствия ПО предъявляемым требованиям, обеспечение уверенности в качестве ПО, поиск очевидных ошибок в программном обеспечении, которые должны быть выявлены до того, как их обнаружат пользователи программы.

Для чего проводится тестирование ПО?

Принципы тестирования

QC (Quality Control) — Контроль качества продукта — анализ результатов тестирования и качества новых версий выпускаемого продукта.

К задачам контроля качества относятся:

К задачам обеспечения качества относятся:

Верификация и валидация — два понятия тесно связаны с процессами тестирования и обеспечения качества. К сожалению, их часто путают, хотя отличия между ними достаточно существенны.

Верификация (verification) — это процесс оценки системы, чтобы понять, удовлетворяют ли результаты текущего этапа разработки условиям, которые были сформулированы в его начале.

Валидация (validation) — это определение соответствия разрабатываемого ПО ожиданиям и потребностям пользователя, его требованиям к системе.

Пример: когда разрабатывали аэробус А310, то надо было сделать так, чтобы закрылки вставали в положение «торможение», когда шасси коснулись земли. Запрограммировали так, что когда шасси начинают крутиться, то закрылки ставим в положение «торможение». Но вот во время испытаний в Варшаве самолет выкатился за пределы полосы, так как была мокрая поверхность. Он проскользил, только потом был крутящий момент и они, закрылки, открылись. С точки зрения «верификации» — программа сработала, с точки зрения «валидации» — нет. Поэтому код изменили так, чтобы в момент изменения давления в шинах открывались закрылки.

Документацию, которая используется на проектах по разработке ПО, можно условно разделить на две группы:

Этапы тестирования:

Программный продукт проходит следующие стадии:

Требования

Требования — это спецификация (описание) того, что должно быть реализовано.
Требования описывают то, что необходимо реализовать, без детализации технической стороны решения.

Отчёт о дефекте (bug report) — документ, который содержит отчет о любом недостатке в компоненте или системе, который потенциально может привести компонент или систему к невозможности выполнить требуемую функцию.

Атрибуты отчета о дефекте:

Жизненный цикл бага

Severity vs Priority

Серьёзность (severity) показывает степень ущерба, который наносится проекту существованием дефекта. Severity выставляется тестировщиком.

Градация Серьезности дефекта (Severity):

Градация Приоритета дефекта (Priority):

Тестовые среды

Основные фазы тестирования

Основные виды тестирования ПО

Вид тестирования — это совокупность активностей, направленных на тестирование заданных характеристик системы или её части, основанная на конкретных целях.

Автор книги «A Practitioner’s Guide to Software Test Design», Lee Copeland, выделяет следующие техники тест-дизайна:

Методы тестирования

Тестирование белого ящика — метод тестирования ПО, который предполагает, что внутренняя структура/устройство/реализация системы известны тестировщику.

Согласно ISTQB, тестирование белого ящика — это:

Тестирование чёрного ящика — также известное как тестирование, основанное на спецификации или тестирование поведения — техника тестирования, основанная на работе исключительно с внешними интерфейсами тестируемой системы.

Согласно ISTQB, тестирование черного ящика — это:

Тестовая документация

Тест план (Test Plan) — это документ, который описывает весь объем работ по тестированию, начиная с описания объекта, стратегии, расписания, критериев начала и окончания тестирования, до необходимого в процессе работы оборудования, специальных знаний, а также оценки рисков.

Тест план должен отвечать на следующие вопросы:

Чаще всего чек-лист содержит только действия, без ожидаемого результата. Чек-лист менее формализован.

Тестовый сценарий (test case) — это артефакт, описывающий совокупность шагов, конкретных условий и параметров, необходимых для проверки реализации тестируемой функции или её части.

Атрибуты тест кейса:

Источник

Валидность и надежность теста. Надежность психологических тестов

Методы оценки надежности теста

До включения в тест задача должна быть оценена с точки зрения объективности, надёжности, валидности, трудности и дискриминативности.

задача может быть признана тогда, когда она несколькими (не менее трёх) независимыми экспертами-психологами оценивается как соответствующая признаку, который подлежит измерению.

задача является, если при её повторном предъявлении она вызывает у испытуемого эквивалентную первому предъявлению реакцию.

задача считается тогда, когда в соответствии с критерием она чаще всего правильно решается теми испытуемыми, у которых измеряемый признак более выражен, чем у других испытуемых. (Например, в интеллектуальном тесте валидными будут те задачи, которые правильно решают испытуемые с более высоким интеллектом, чем с более низким).

задачи рассчитывается из соотношения процента правильных ответов на данную задачу с учётом объёма репрезентативной выборки испытуемых. Оптимальными для теста являются задачи, индекс трудности которых равен 50 %.

или согласованности, отдельной задачи с тестом позволяет оценить, насколько точно задача дифференцирует испытуемых по измеряемому признаку. Он равен коэффициенту корреляции между средним результатом анализируемой задачи (по принципу: правильный — неправильный ответ) и средним первичным результатом по всем задачам теста.

Психологический диагноз предполагает использование и анализ результатов исследования, полученных с помощью различных методик. Причём все данные должны быть представлены в единой шкале, то есть все первичные результаты тестовых исследований необходимо преобразовать таким образом, чтобы они оказались сопоставимыми — стандартизация шкал теста.

Под надёжностью теста

понимается степень точности, с которой тест измеряет определённое свойство или способ поведения личности. Надёжность теста – это характеристика точности его как измерительного инструмента, его устойчивости к действию помех (как внешних, так и внутренних). Эмпирическое определение надёжности теста является обязательным условием его допуска для использования в практической деятельности психолога.

В психометрике обоснование получили три метода оценки надёжности тестов:

1) метод повторного тестирования (метод тест-ретест);

2) метод тестирования параллельной, или эквивалентной, формой теста;

3) метод деления, или расщепления теста на части. Оценка надёжности по методу повторного тестирования требует, чтобы тест дважды предъявлялся одной и той же выборке испытуемых через какое-то время. Длительность временного промежутка определяется содержанием и характером задач теста.

Второй метод оценки надёжности теста требует наличия параллельной, то есть эквивалентной, формы теста, например формы «А» и «Б». Репрезентативную выборку испытуемых, на которой проверяется надёжность теста, случайным образом делят на две примерно равночисленные группы. Затем первой группе предъявляются задачи формы «А», а второй группе – задачи формы «Б». Через некоторое время (не более одной недели) задачи формы «Б» решает первая группа, а формы «А» — вторая. После этого для всей репрезентативной выборки испытуемых отдельно вычисляются первичные результаты для форм «А» и «Б», которые затем подвергаются корреляции.

Общим недостатком первых двух методов оценки надёжности теста является то, что они зачастую дают заниженные или завышенные коэффициенты надёжности. Дело в том, что дисперсия результатов, на основе которой рассчитывается коэффициент корреляции, неоднородна по своему составу. Наряду с дисперсией действительных индивидуальных различий в неё входят частные дисперсии, обусловленные влиянием как внутренних, психологических, причин (колебания внимания, усталость и др.), так и внешних (уличный шум, поведение и высказывания исследователя и т. п.). При этом сила и сочетание этих причин в первом и во втором тестировании могут быть различными, и оценить их влияние или полностью их нейтрализовать оказывается невозможным.

Поэтому, особенно при проверке надёжности тестов мощности (например, интеллектуальных тестов) и достижений, предпочтение следует отдавать третьему методу, поскольку он предполагает лишь однократное тестирование. Третий метод оценки надёжности включает два различных приёма расчёта: разделение тестовых задач на две части, например по принципу «чётные и нечётные», и расчёт коэффициента консистентности задач теста.

Надежность валидность стандартизация тестов. Стандартизация, надежность и валидность теста

Рассмотрим понятия стандартизации, надежности и валидности теста с позиций классической эмпирико-статистической теории. В соответствии с этой теорией конструирование тестов для изменения психологических свойств и состояний основано на шкале интервалов. Измеряемое психическое свойство считается линейным и одномерным. Предполагается также, что распределение совокупности людей, обладающих данным свойством, описывается кривой нормального распределения. В основе психологического тестирования лежит классическая теория погрешности измерений. Считается, что тест – такой же измерительный прибор, как любой физический прибор, и результаты, которые он показывает, зависят от величины свойства у испытуемого, а также от самой процедуры измерения. Любое свойство психики имеет «истинный» показатель, а показания по тесту отклоняются от истинного на величину случайной погрешности. На показания теста влияет и «систематическая» погрешность, но она сводится к прибавлению (вычитанию) константы к «истинной» величине параметра, что для интервальной шкалы значения не имеет. Надежность теста. Если тест проводить много раз, то среднее значение будет характеристикой «истинной» величины параметра. Под надежностью теста принято понимать устойчивость результатов к воздействию случайных факторов, внешних и внутренних. Наиболее часто проводится оценка ретестовой надежности. Чем теснее коррелируют результаты начального и повторного (обычно отсроченного на несколько месяцев) проведения теста, тем он надежнее. Предполагается, что существует неограниченное количество заданий, которые могут «работать» на измеряемое свойство. Тест есть лишь выборка заданий из их генеральной совокупности. В идеале можно создать сколько угодно эквивалентных форм теста, поэтому определение надежности теста можно провести путем корреляции параллельных форм или эквивалентных равных частей, полученных путем расщепления тестового задания на две части. Поскольку в реальном тесте число заданий ограничено (не более 100), то оценка надежности теста всегда приблизительна. Тест считается надежным, если коэффициент корреляции результатов составляет не менее 0,75. Валидность теста. Проблеме валидности в классической теории теста уделяется много внимания, однако теоретически она никак не решается. Валидность означает пригодность теста измерять то свойство, для измерения которого он предназначен. Следовательно, чем больше на результат выполнения теста или отдельного задания влияет измеряемое свойство и чем меньше другие переменные (в том числе внешние), тем тест валиднее. Тест валиден (и надежен), если на его результаты влияет лишь измеряемое свойство. Тест невалиден (и ненадежен), если результаты тестирования определяются влиянием нерелевантных переменных. Существуют следующие виды валидности теста. Очевидная валидность. Тест считается валидным, если у испытуемого складывается впечатление, что он измеряет то, что должен измерять. Конкретная валидность (конвергентная – дивергентная валидность). Тест должен хорошо коррелировать с тестами, измеряющими конкретное свойство либо близкое ему по содержанию, и иметь низкие корреляции с тестами, измеряющими заведомо иные свойства. Прогностическая валидность. Тест должен коррелировать с отдаленными по времени внешними критериями. Содержательная валидность. Тест должен охватывать всю область изучаемого поведения. Конструктная валидность. Предполагает полное описание измеряемой переменной, выдвижение системы гипотез о связях ее с другими переменными, эмпирическое подтверждение (неопровержение) этих гипотез. С теоретической точки зрения единственным способом установления «внутренней» валидности теста и отдельных заданий является метод факторного анализа (и аналогичные), который позволяет: а) выявлять латентные (скрытые) свойства и вычислять значение «факторных нагрузок» – коэффициенты детерминации свойств тех или иных поведенческих признаков; б) определять меру влияния каждого латентного свойства на результаты тестирования. Стандартизация теста заключается в приведении процедуры оценок к общепринятым нормативам. Стандартизация предполагает преобразование нормальной или искусственно нормализованной шкалы первичных оценок в шкальные оценки (подробнее об этом см. 5.2). Тестовые нормы, полученные в ходе стандартизации, представляют собой систему шкал с характеристиками распределения тестового балла для различных выборок. Они не являются «внутренними» свойствами теста, а лишь облегчают его практическое применение.

Валидность и надежность теста. Тесты психологические. Тестирование персонала

Тест (англ. test — проба, испытание, исследование) — стандартизированное задание, результат выполнения которого позволяет измерить психофизиологические и личностные характеристики, а также знания, умения и навыки испытуемого.

Валидность теста — это критерий степени достоверности измерения психического свойства (качества, явления), которое хотят измерить с помощью данного теста. По сути, валидность теста — это показатель степени его эффективности и пригодности для измерения нужной нам характеристики.

Различают несколько видов валидности:

Валидность лучших тестов не превышает 80%. Следует учитывать, что валидность меняется в зависимости от контингента людей, которые подвергаются тестированию, а также характера их будущей деятельности. В результате один и тот же тест может быть высоковалидным для одной ситуации, и совершенно невалидным для другой.

Основные виды валидности тестов

Конструктивная валидность — это критерий качества теста, используемый при измерении какого-либо сложного психического феномена, имеющего иерархическую структуру, измерить который из-за этого одним актом тестирования невозможно. К примеру, психодиагностика интеллекта невозможна без предварительного определения понятия «интеллект» и его структуры. В данном случае степень соответствия структуры интеллекта структуре теста и будет составлять конструктивную валидность теста. В общем она нацелена на определение точности измерения сложных, устойчивых типов поведения, качеств личности, психических явлений.

Валидность по критерию — это критерий качества теста, с помощью которого можно судить об интересующем аспекте психики конкретной личности в настоящем и будущем. Для его определения сопоставляются результаты тестирования с уровнем развития измеряемого признака, качества личности на практике. Так, для теста на технические способности основным критерием их определения будет выступать техническая деятельность конкретных специалистов, оценка их технических способностей с помощью экспертов, хорошо знающих испытуемых в интересующем аспекте на протяжении достаточно продолжительного времени. Оценка при этом дается по шкале порядковой, интервальной или отношений. В целом, применение теста считается оправданным, если валидность по критерию составляет минимум 0,2-0,25.

Валидность по содержанию — критерий качества теста, используемый при выяснении соответствия его области измеряемых психических явлений. Показывает, насколько полно тест охватывает исследуемое множество измеряемых параметров.

Прогностическая валидность — критерий качества теста, предсказывающий характер развития измеряемого параметра в будущем. Данный вид валидности особенно ценен с практической точки зрения. Однако существенным недостатком критерия является то, что он не учитывает неравномерность развития измеряемого параметра у различных людей в будущем.

Источник

Что такое надежность теста в классической теории тестирования

Важнейшей характеристикой теста является его надежность, определяющая воспроизводимость результатов тестирования, их точность. Допустим, у нас есть гипотетическая группа испытуемых, которые немедленно забывают содержание теста по его завершении. Тогда, в случае надежного теста, повторяя тестирование многократно, мы должны получать одни и те же индивидуальные баллы. Для малонадежного теста результаты будут меняться каждый раз.

Тест представляет собой систему заданий. Качество заданий определяет надежность теста в целом. Рассмотрим пример. Допустим, тест состоит из заданий в закрытой форме, в которых по ошибке не указанные правильные ответы. Слабые испытуемые, не зная ответа, будут пытаться его угадать. Сильные испытуемые, зная верный ответ, но не находя его среди предложенных, так же вынуждены будут случайным образом выбирать любой из ответов. В итоге, индивидуальные баллы будут представлять собой случайные последовательности, не повторяющиеся в разных сеансах тестирования. Воспроизводимость тестовых баллов будет полностью отсутствовать и надежность теста будет близка к нулю. Низкая надежность теста обусловлена низким качеством тестовых заданий.

Для определения надежности реальных тестов можно использовать коэффициент корреляции Пирсона для индивидуальных баллов разных сеансов тестирования. Для организации разных сеансов тестирования можно использовать либо параллельные тесты, либо повторное тестирование через определенный промежуток времени. Можно также использовать результаты одного сеанса тестирования. При этом выполняют расщепление теста, например, на четные и нечетные задания и, затем, находят корреляцию между этими двумя половинами.

Надежность теста определяется разными методами. Рассмотрим их.

Из классической теории теста следует, что надежность теста есть

(3.8.1)

Когда ошибка отсутствует, коэффициент надежности равен единице. Если измеренный тестовый балл полностью обусловлен ошибкой измерения, то надежность теста равна нулю.

Ошибка измерения зависит от надежности теста r_t.

(3.8.2)

В работе 13 показано, что корреляция r_jT j-го задания с истинными тестовыми баллами T связана со средним значением его корреляции с другими заданиями теста 7

(3.8.3)

Если тест содержит задания с высокой внутренней корреляцией, то он будет высоко надежным и ошибка измерений будет низкой.

Для вычисления надежности теста нужны результаты двух испытаний, которые организуются следующими способами:

1-й способ – тестирование с помощью двух параллельных тестов (parallel-form reliability);

2-й способ – повторное тестирование с помощью одного и того же теста (test-retest reliability);

3-й способ – расщепление теста (split-half method).

Первый способ, пожалуй, самый лучший, с точки зрения расчета надежности. Основной проблемой здесь является разработка параллельных тестов. Крайне сложно создать тесты параллельные и по содержанию и по результатам. Ранее нами приводился пример «параллельных» заданий, дающих разные результаты:

6 + 3 = ____; 6 + ___ = 9; ___ + 3 = 9.

Второй способ технически гораздо проще, однако здесь появляются новые факторы.

Во-первых, первое тестирование изменяет уровень подготовленности испытуемых. Это может произойти по разным причинам, в частности, запоминание заданий теста. Поэтому повторное тестирование необходимо проводить спустя некоторый интервал времени. Этот интервал должен быть как можно больше.

Во-вторых, к моменту повторного тестирования изменяются внешние условия – другие социальная среда, другие взаимодействия с членами микросоциальной группы, другое время года, и т.д. Кроме того, изменились и сами испытуемые, изменился их уровень знаний как специальных, так общекультурных. В результате повторное тестирование проводится в иных условиях и иной группе испытуемых. В этой связи желательно временной интервал между тестированиями выбирать как можно короче. Мы получили взаимоисключающие требования к интервалу повтора тестирования, следовательно, здесь придется идти на компромисс. Можно рекомендовать интервал в один месяц, хотя подобные рекомендации должны подтверждаться экспериментально.

Надо осознавать, что повторное тестирование в силу указанных причин, в принципе не позволяет получить параллельные результаты даже для идеального теста с надежностью равной единице.

Третий способ очень прост. На основании всего лишь одного тестирования мы можем оценить надежность теста. Полученные результаты тем или иным способом делятся на две группы. Например, в первую входят результаты по четным заданиям, во вторую – результаты по нечетным заданиям. Затем вычисляется коэффициент корреляции между этими группами. Недостаток этого способа обусловлен неидентичностью этих групп.

В качестве примера проанализируем надежность четырех гипотетических тестов, выполненных на одной и той же выборке испытуемых (таблица 3.8.1).

Таблица 3.8.1. Индивидуальные баллы по четырем тестам.

Источник

Надежность теста. Теория надежности.

На практике понятие «надежности» имеет два значения: одно связано с воспроизводимостью результатов тестирования, другое – с внутренней согласованностью теста [8].

На понятии «надежность» основывается вычисление «ошибки измерения«, с помощью которой определяются вероятные пределы колебания измеряемой величины, возникающей под воздействием случайных факторов.

Можно сказать, что в широком смысле слова надежность теста показывает, в какой мере индивидуальные различия в тестовых результатах являются «истинными», а в какой мере они могут быть отнесены к случайным ошибкам. Надежность это помехоустойчивость теста, независимость его результатов от действия всевозможных случайных факторов. К числу таких факторов следует отнести:

— разнообразие внешних материальных условий тестирования (время суток, освещенность, температура, наличие посторонних звуков и т.п.);

— динамичные внутренние факторы, по-разному действующие на разных испытуемых в ходе тестирования (настроение, утомление, другие особенности состояния испытуемого);

— информационно-социальные факторы (контакт с психологом, наличие других людей, сама ситуация тестирования и пр.).

Разнообразие и изменчивость этих факторов так велики, что они обусловливают появление у каждого испытуемого непрогнозируемого по размеру и направлению отклонения измеренного тестового балла (т.е. такого, который можно было бы получить в идеальных условиях).

Поэтому, общий разброс (дисперсию) результатов произведенных измерений можно представить как результат суммы двух источников разнообразия: самого измеряемого свойства и нестабильности измерительной процедуры, обусловливающей наличие ошибки измерения. Это нашло свое выражение в классической формуле, описывающей надежность теста в виде отношения истинной дисперсии к дисперсии эмпирически зарегистрированных баллов [1, 13, 15, 16]:

где: α— надежность теста; —дисперсия ошибки;

—дисперсия теста.

Итак, эта формула читается так: надежность теста равняется единице минус отношение дисперсии ошибки к дисперсии эмпирически зарегистрированных баллов.

В общем случае можно сказать, что ошибку измерения в психометрике определяют с помощью корреляционных методов, которые дают возможность оценить надежность (или, что одно и тоже точность) через устойчивость и согласованность результатов, полученных как на уровне целого теста, так и на уровне отдельных его пунктов.

Рассмотрим вначале надежность теста, связанную с воспроизводимостью результатов тестирования – так называемую, «ретестовую» или «диахронную» надежность. Затем, проанализируем понятие «надежности», связанное с внутренней согласованностью теста. В завершении этого параграфа проанализируем критический взгляд на такие понятия, как «ретестовая надежность «, «синхронная надежность» и достаточно подробно остановимся на «теории надежности», позволяющей психологу, разрабатывающему или использующему тест, понять всю важность данного параметра теста.

В этом случае коэффициент надежности просто равен корреляции между двумя результатами, полученными на одних и тех же испытуемых в каждом из двух случае проведения теста. Приводя в руководстве к тесту его ретестовую надежность, всегда следует указывать, в каком интервале времени она измерена. Как правило, выбирают этот интервал исходя из следующих соображений.

На дисперсию ошибки тестовых результатов обычно влияют случайные колебания с периодом от нескольких часов до нескольких месяцев. Поэтому, определяя тип тестовой надежности, стараются придерживаться небольших временных интервалов.

(Например, при тестировании маленьких детей этот период должен быть еще короче, чем у взрослых испытуемых, поскольку в раннем детстве возрастные изменения происходят в течение месяца и даже быстрее.).

В целом для любого типа испытуемых интервал между двумя последовательными применениями теста обычно не должен быть меньше двух недель и превышать 6 месяцев [1].

Следует учесть, что данное понятие надежности в основном характеризует выполнение теста самого по себе, а не тестируемую область поведения (т.е. характеризует стабильность теста, как измерительного инструмента).

В качестве коэффициента корреляции для этого типа надежности обычно подсчитывают известный коэффициент корреляции произведения моментов Пирсона [1, 15]:

,где

r —коэффициент корреляции между результатами двух тестовых испытаний;

—эмпирическая дисперсия первого испытания;

— эмпирическая дисперсия второго испытания;

N— число испытуемых.

Оценка значимости этого коэффициента производится следующим образом:

— вычисляется квадратическая ошибка коэффициента корреляции по формуле

;

при малом числе наблюдений n берется «числом степеней свободы», обычно как n-2, и ошибка коэффициента корреляции вычисляется так

;

Ошибка коэффициента корреляции приближается к нулю, когда коэффициент корреляции приближается к единицы. Таким образом, при r =1 независимо от знака, m_r =0.

Значение коэффициента корреляции оценивается с помощью критерия достоверности, который представляет отношение этого коэффициента к своей средней квадратической ошибке, т.е.

;

Далее полученный критерий достоверности (t) сравнивается с табличным (см. приложение 2).

Напомним из статистики, что если необходимо оценить достоверность различий, наблюдаемых между двумя коэффициентами корреляции, формула для расчета критерия достоверности принимает вид

Знание надежности теста позволяет уточнить «истинное» значение тестового балла индивида, применяя формулу: , где

—истинный балл;

—эмпирический балл i-го испытуемого;

—среднее для теста;

Например, что испытуемый получил балл IQ по шкале Стенфорд-Бине равный 120 нормализованным очкам, = 100, r = 0,9.Тогда истинный балл будет равен: =0,9 х 120 + 0,1 х 100 = 118

Все выше сказанное касалось тестовс интервальными шкалами, для шкал порядка в качестве меры ретестовой надежности используется ранговый коэффициент корреляции Спирмена:

,где — разность рангов i-го испытуемого в первом и втором ранговом ряду (1, 4).

Оценка значимости коэффициента корреляции Спирмена производится аналогичным образом через расчет квадратической ошибки по формуле

;

Теперь проанализируем понятие «надежности», связанное с внутренней согласованностью теста, и которое находит свое выражение в таких понятиях, как «одномоментная» или «синхронная» надежность.

2. Одномоментная (синхронная) надежность (согласованность).Этот тип надежности независим от устойчивости (поскольку не имеет временного интервала) и имеет особую содержательную и операциональную природу. Ее надо понимать именно как согласованность частей теста. В психотехнике этот вид надежности часто называют коэффициентом внутренней согласованности теста.

, где

— эмпирически рассчитанная корреляция для половин;

— надежность целого теста.

Следует отметить, что делить тест на две части можно разными способами, и каждый раз получаются несколько разные коэффициенты; поэтому в психометрике предложен способ оценки синхронной надежности, который соответствует разбиению теста на такое количество частей, сколько в нем отдельных пунктов. В этом случае, синхронную надежность теста можно оценить с помощью формулы Кронбаха:

,где

α—коэффициент Кронбаха;

k—количество пунктов (заданий) теста;

— дисперсия по i-му пункту теста;

—дисперсия суммарных баллов по всему тесту.

В 1957 году Дж. Китс предложил следующий критерий для оценки статистической значимости коэффициента α(1):

, где

— эмпирическое значение статистики χ 2 с п-1 степенью свободы;

Вычисленная статистика далее сравнивается с табличной (см. приложение 2).

Как видно, формула Кронбаха позволяет оценить взаимную согласованность пунктов теста, используя только подсчет дисперсий (вся важность этой формулы для психометрики станет понятна после анализа теории надежности).

Коэффициент αпозволяет также оценить и среднюю корреляцию между i-тым и j-тым произвольными пунктами теста, так как он связан с этой средней корреляцией следующей формулой:

α = , (***)

где — средняя корреляция между пунктами теста.

При прочих равных условиях, чем больше заданий содержит тест, тем выше его надежность.

Все приведенные формулы относятся к оценке надежности одномерного теста, направленного на измерение одной характеристики.

Перейдем теперь к обсуждению «теории надежности» тестов [10], опираясь на понятия изложенные выше.

Источник