Что такое статистическая достоверность
Понятие о статистической достоверности
Статистическая достоверность имеет существенное значение в расчетной практике ФКС. Ранее было отмечено, что из одной и той же генеральной совокупности может быть избрано множество выборок:
— если они подобраны корректно, то их средние показатели и показатели генеральной совокупности незначительно отличаются друг от друга величиной ошибки репрезентативности с учетом принятой надежности;
— если они избираются из разных генеральных совокупностей, различие между ними оказывается существенным. В статистике повсеместно рассматривается сравнение выборок;
— если они отличаются несущественно, непринципиально, незначительно, т. е. фактически принадлежат одной и той же генеральной совокупности, различие между ними называется статистически недостоверным.
Статистически достоверным различием выборок называется выборка, которая различается значимо и принципиально, т. е. принадлежит разным генеральным совокупностям.
В ФКС оценка статистической достоверности различий выборок означает решение множества практических задач. Например, введение новых методик обучения, программ, комплексов упражнений, тестов, контрольных упражнений связано с их экспериментальной проверкой, которая должна показать, что испытуемая группа принципиально отлична от контрольной. Поэтому применяют специальные статистические методы, называемые критериями статистической достоверности, позволяющие обнаружить наличие или отсутствие статистически достоверного различия между выборками.
Все критерии делятся на две группы: параметрические и непараметрические. Параметрические критерии предусматривают обязательное наличие нормального закона распределения, т.е. имеется в виду обязательное определение основных показателей нормального закона — средней арифметической величины х и среднего квадратического отклонения о. Параметрические критерии являются наиболее точными и корректными. Непараметрические критерии основаны на ранговых (порядковых) отличиях между элементами выборок.
Приведем основные критерии статистической достоверности, используемые в практике ФКС: критерий Стьюдента, критерий Фишера, критерий Вилкоксона, критерий Уайта, критерий Ван-дер-Вардена (критерий знаков).
Критерий Стьюдента назван в честь английского ученого К. Госсета (Стьюдент — псевдоним), открывшего данный метод. Критерий Стьюдента является параметрическим, используется для сравнения абсолютных показателей выборок. Выборки могут быть различными по объему.
Критерий Стьюдента определяется так.
1. Находим критерий Стьюдента t по следующей формуле:
где Xi, x2 — средние арифметические сравниваемых выборок; /яь w2 — ошибки репрезентативности, выявленные на основании показателей сравниваемых выборок.
2. Практика в ФКС показала, что для спортивной работы достаточно принять надежность счета Р = 0,95.
3. На основании свойств нормального закона распределения в критерии Стьюдента осуществляется сравнение t и t^.
— если t > ftp, то различие между сравниваемыми выборками статистически достоверно;
Дата добавления: 2015-06-17 ; просмотров: 4134 ; ЗАКАЗАТЬ НАПИСАНИЕ РАБОТЫ
Уровень статистической значимости (р)
В таблицах результатов статистических расчётов в курсовых, дипломных и магистерских работах по психологии всегда присутствует показатель «р».
Например, в соответствии с задачами исследования были рассчитаны различия уровня осмысленности жизни у мальчиков и девочек подросткового возраста.
Уровень статистической значимости (p)
В правом столбце указано значение «р» и именно по его величине можно определить значимы различия осмысленности жизни в будущем у мальчиков и девочек или не значимы. Правило простое:
Откуда берется уровень статистической значимости «р»
Уровень статистической значимости вычисляется статистической программой вместе с расчётом статистического критерия. В этих программах можно также задать критическую границу уровня статистической значимости и соответствующие показатели будут выделяться программой.
Например, в программе STATISTICA при расчете корреляций можно установить границу «р», например, 0,05 и все статистически значимые взаимосвязи будут выделены красным цветом.
Если расчёт статистического критерия проводится вручную, то уровень значимости «р» выявляется путем сравнения значения полученного критерия с критическим значением.
Что показывает уровень статистической значимости «р»
Все статистические расчеты носят приблизительный характер. Уровень этой приблизительности и определяет «р». Уровень значимости записывается в виде десятичных дробей, например, 0,023 или 0,965. Если умножить такое число на 100, то получим показатель р в процентах: 2,3% и 96,5%. Эти проценты отражают вероятность ошибочности нашего предположения о взаимосвязи, например, между агрессивностью и тревожностью.
То есть, коэффициент корреляции 0,58 между агрессивностью и тревожностью получен при уровне статистической значимости 0,05 или вероятности ошибки 5%. Что это конкретно означает?
Выявленная нами корреляция означает, что в нашей выборке наблюдается такая закономерность: чем выше агрессивность, тем выше тревожность. То есть, если мы возьмем двух подростков, и у одного тревожность будет выше, чем у другого, то, зная о положительной корреляции, мы можем утверждать, что у этого подростка и агрессивность будет выше. Но так как в статистике все приблизительно, то, утверждая это, мы допускаем, что можем ошибиться, причем вероятность ошибки 5%. То есть, сделав 20 таких сравнений в этой группе подростков, мы можем 1 раз ошибиться с прогнозом об уровне агрессивности, зная тревожность.
Какой уровень статистической значимости лучше: 0,01 или 0,05
Уровень статистической значимости отражает вероятность ошибки. Следовательно, результат при р=0,01 более точный, чем при р=0,05.
В психологических исследованиях приняты два допустимых уровня статистической значимости результатов:
р=0,01 – высокая достоверность результата сравнительного анализа или анализа взаимосвязей;
р=0,05 – достаточная точность.
Надеюсь, эта статья поможет вам написать работу по психологии самостоятельно. Если понадобится помощь, обращайтесь (все виды работ по психологии; статистические расчеты). Заказать
Статистическая значимость в экспериментах и анализе данных
Что именно имеют в виду ученые и исследователи, когда заявляют, что что-то является или не является статистически значимым? Как установить статистическую значимость и как ее интерпретировать?
Добро пожаловать в 11-ю часть серии статей о статистике в электротехнике. До сих пор мы рассматривали как высокоуровневые определения, так и конкретные примеры статистических концепций, полезных для инженера-практика. Чтобы узнать больше о том, что мы рассмотрели, ознакомьтесь со статьями, перечисленными в меню с оглавлением выше, над статьей.
Статистическая значимость: туманная концепция?
Любой, кто обычно читает исследовательские статьи, часто сталкивается со «статистической значимостью», часто сопровождаемой загадочной ссылкой на p Рисунок 1 – Если мы предполагаем, что нулевая гипотеза верна, мы часто будем использовать гауссову кривую в качестве функции плотности вероятности, с помощью которой мы решаем, является ли результат статистически значимым.
Порог вероятности
Статистическая значимость основана на вероятности получения результата при предположении, что нулевая гипотеза верна. Предположим, что в ходе нашего эксперимента мы получили число x (это может быть что угодно: артериальное давление, доход от продаж, средний балл теста).
Обращаясь к функции плотности вероятности, связанной с нулевой гипотезой, мы можем определить, будет ли вероятность получения x или какого-либо другого числа, которое более маловероятно, чем x, менее 5% (p Рисунок 2 – Гауссова кривая – это функция плотности вероятности, которая соответствует распределению значений, когда нулевая гипотеза верна. Мы вычисляем p-значение наблюдаемого результата путем интегрирования части этой функции плотности вероятности.
Если p-значение достаточно низкое, нет смысла продолжать предполагать, что между двумя переменными нет никакой связи. Таким образом, мы отвергаем нулевую гипотезу и утверждаем, что связь существует.
Интерпретация статистической значимости
Предыдущее объяснение описывает статистическую значимость способом, который я считаю наиболее простым и математически последовательным: если p-значение наблюдаемого результата меньше заранее определенного порога, который мы называем уровнем значимости, наблюдаемый результат очень маловероятен, если нулевая гипотеза верна. Поэтому, когда мы отвергаем нулевую гипотезу, это равносильно подтверждению того, что эксперимент обнаружил связь между интересующими переменными.
Это же общее сообщение можно передать другими способами, которые могут оказаться полезными:
Толкование слова «значимость»
Большая путаница в отношении статистической значимости возникает из-за использования слова «значимость», которое в данном контексте ограничивается конкретным статистическим использованием и не совпадает со словом «значимость» в обычном языке.
Статистически значимые результаты не обязательно являются важными или значимыми результатами. Статистическая значимость не означает практической значимости, а также отсутствие статистической значимости не означает, что экспериментальные результаты не имеют практической ценности.
Уровень значимости
Чтобы установить статистическую значимость, мы должны сравнить p-значение с уровнем значимости, обозначенным как ⍺. Уровни значимости в некоторой степени произвольны и выбираются в соответствии с условиями заданной области. Как было указано выше, часто используются ⍺ = 0,05 и ⍺ = 0,01, хотя в некоторых случаях выбирается более высокое или гораздо более низкое значение.
Заключение
Несмотря на возможное неправильное использование статистической значимости и доказательства широко распространенной неверной интерпретации, она остается важным методом в исследованиях и экспериментах. Мы продолжим изучение этой темы в следующей статье.
Статистическая значимость
Статистическая значимость часто применяется в маркетинге. С ее помощью определяют правильность выдвинутых предположений и вероятность их результатов. Она позволяет сделать выбор среди представленных теорий, что приводит к получению отличных результатов на практике.
Что такое статистическая значимость
Суть статистической значимости состоит в определении того, существует ли реальное основание в разнице между выбранными для исследования показателями, или это случайность? С данным понятием тесно связаны «нулевая» и «альтернативная» гипотезы.
Для лучшего понимания термина «статистическая значимость» необходимо понять, что такое «проверка гипотез». Эти два термина тесно взаимосвязаны.
Гипотеза иначе называется теорией. После окончания ее разработки требуется установить порядок по сбору достаточного количества доказательств этой теории и собрать их. Существует два типа гипотез: нулевая и альтернативная.
Нулевая гипотеза представляет собой теорию, которая гласит, что внесение коррективов ничего не поменяет, то есть сравниваемые объекты равнозначны в своих свойствах и нет смысла что-либо менять. Суть исследования заключается в опровержении гипотезы.
Альтернативная (исследовательская) гипотеза подразумевает сравнение, в результате которого один объект показывает себя эффективнее, чем другой.
Статистическая значимость как количественный показатель требует оценки. Оценка проходит поэтапно.
Постановка эксперимента
Все начинается с формулировки гипотезы. При этом должно быть выдвижение и нулевой, и альтернативной гипотезы. Придется сравнивать два набора данных для выяснения схожести и отличий. Эти утверждения требуют подтверждения с помощью экспериментальных данных.
Данный уровень представляет собой порог статистической значимости, который каждый устанавливает сам. Этот уровень носит название displaystyle \alpha >\alpha – уровня. Чаще всего, устанавливают значение в 0,05. Вероятность найти разницу составляет 5%. Чем выше уровень, тем достовернее результаты.
Когда нужна максимальная достоверность, стоит снизить значение с 0,05 до 0,01. Чаще всего, такие показатели применяют в производстве для выявления брака. Однако для большинства экспериментов достаточно значения в 0,05.
Решение об используемом критерии
После установки уровня требуется определить, какой критерий использовать: одно- или двусторонний. Здесь стоит опираться на t-критерии Стьюдента. Они показывают, насколько нормально распределены данные. Графически они представлены в виде колоколообразной кривой. Большее количество результатов расположено в середине.
Критерий Стьюдента позволяет математически проверить расположены ли данные в установленных пределах или же выпадают из нормального распределения.
Двусторонний критерий нужен, когда нет уверенности в том, что показатели находятся выше или ниже установленной нормы распределения.
Когда есть точная уверенность, в каком направлении может наблюдаться выход за пределы нормы, нужно использовать односторонний критерий.
Определение объема выборки
Здесь потребуется статистическая мощность. Она представляет собой вероятность, что при выбранном объеме будет получен ожидаемый результат. Распространенный порог — 80%. Для анализа можно использовать специальные онлайн-калькуляторы. Это позволит определить оптимальный объем выборки.
Часто проводят пробное исследование, которое позволяет получить данные для анализа и установить объем выборки. Когда такой возможности нет, стоит поискать в тематической литературе усредненные значения.
Вычисление стандартного отклонения
Стандартное отклонение показывает величину разброса данных. Оно позволяет сделать выбор о близости или отдаленности данных. Их вычисляют по следующей формуле: s = √∑((xi – µ)2/(N – 1)).
s — стандартное отклонение;
∑ указывает на необходимость суммировать полученные данные по выборке;
xi соответствует значению i, то есть отдельному полученному результату;
µ — это среднее значение для данной группы;
N — общее число данных в выборке.
Теперь потребуется отыскать среднее значение для каждой группы. Для этого суммируют средние значения каждой группы и делят на объем выборки.
Далее необходимо определить разницу (xi – µ). Для этого следует вычесть из найденной средней величины каждое полученное значение.
Теперь каждую полученную величину умножают на саму себя или возводят во вторую степень и суммируют величины. После этой операции не должно остаться отрицательных значений.
Следующий шаг — деление объема минус один. Делят полученную в предыдущем шаге сумму на величину, полученную от вычитания единицы. После этого извлекают квадратный корень из величины. Это и будет нужная величина стандартного отклонения.
Определение значимости
Для определения значимости потребуется взять две группы данных. Для последней вычисляют стандартное отклонение, после чего вычисляют дисперсию между обеими группами по формуле:
sd — дисперсия между двумя группами;
s1 — стандартное отклонение в группе 1, N1 — объем выборки в группе 1;
s2 — стандартное отклонение в группе 2, N2 — объем выборки в группе 2.
Необходимо определить t-оценку показателей для перевода полученных данных в стандартизированную форму, которая позволить провести сравнение с другими данными. Эта оценка делает возможным проверку t-критерия, а также выяснение величины отличия одной группы от другой. Для определения t-оценки применяют формулу: t = (µ1 – µ2)/sd:
µ1 — среднее значение для первой группы;
µ2 — среднее значение для второй группы;
sd — дисперсия между двумя выборками.
Совет: первым используют большее среднее значение, чтобы итоговая величина не была отрицательной.
Далее требуется определить степень свободы выборки. Для этого вычисляют объем: суммируют объемы двух выборок и вычитают 2. Полученная величина станет окончательной. Ее оценивают по таблице значений критерия Стьюдента (t-критерия). Таблица представлена ниже.
Пользоваться представленной таблицей просто: находите строку в соответствии с полученной степенью свободы и определяете соответствующее t-оценке Р-значение.
Например, при степени свободы 8 и t-оценке 2,61 Р-значение для одностороннего критерия попадает между 0,01 и 0,025. При выбранном показателе в 0,05 эти данные попадают в категорию «статистически значимые». Это помогает сделать выбор в пользу альтернативной гипотезы и отказаться от нулевой.
Заключение
Определение статистической значимости помогает решать маркетинговые задачи и минимизировать риски. Такие расчеты часто проводятся при A/B тестированиях и помогают узнать, как будет вести себя клиент в будущем, окупится ли товар и т.д.
Взаимосвязь понятий «уровень значимости», достоверность и ошибка первого рода
При работе со статистическим отчетом, научной статьей или диссертацией Вы постоянно сталкиваетесь таким термином, как уровень значимости или альфа (ошибка первого рода), чаще всего этот уровень задается относительно 5% или вероятности р=о,05. Решение о достоверности различий или «статистически значимых различиях» принимается относительно этого порогового значения. В данной статье мы предлагаем читателю разобраться в том, почему так важен этот уровень и что он значит в практическом смысле.
Определение (словарь Дж. М. Ласта):
ОШИБКА ТИПА I (ERROR TYPE I; син. alpha-error — ошибка альфа)
ошибочное отклонение нулевой гипотезы, т.е. утверждение о том, что различия существуют, тогда как их нет.
Немного о смысле уровня значимости и достовернности различий
Для понимания темы статистических ошибок мы перейдем к простейшей матрице соотношения статистики (что она нам говорит по результатам статистических тестов) и реальности. Так вот, предположим, что статистика нам говорит о существовании связей, о существовании различий. В реальности же они также существуют, тогда мы считаем этот результат правильным положительным или truth positive (ТР). Например, статистика нам говорит об отсутствии связей, об отсутствии различий, а в реальности же они действительно существуют. Такая ситуация называется ложноотрицательной или false-negative (FN). Соответственно существуют ситуации, когда статистика нам говорит о существовании каких-то определенных взаимосвязей или о существовании различий, которые в реальности не существуют. Тогда это называется ложноположительной или false-positive (FP). И последний случай касается отсутствия по данным статистических тестов того, чего в действительности не существует, различий в действительности нет. И эта ситуация именуется как truth negative (TN) или ложноотрицательный результат.
Рисунок 1. Матрица соотношения реальность-результаты статистического теста. TN (true negative) — верноотрицательный, FN (false negative) — ложноотрицательный, FP (false positive) — ложноположительный, TP (true positive) — верно позитивный.
Так вот, как видно из этой матрицы, у нас существуют 2 ситуации, в которых мы можем ошибаться: это false-positive и truth negative. Это как раз два типа ошибок, о которых я говорил в начале этого блока: о ложноотрицательной ошибке и ложноположительной. Что на самом деле это значит?
Что в какой-то ситуации мы можем пересмотреть, а в какой-то – недосмотреть.
Пересмотреть, то есть найти то, чего в действительности нет, это является false-positive – это ошибка первого рода.
Или недосмотреть, то есть упустить то, что в действительности существует в реальности, но по данным статистических тестов мы чего-то не находим – это ложноотрицательный результат или ошибка второго рода.
Давайте нанесем те термины, которые, возможно, вы уже слышали – «уровень достоверности», «достоверные различия». Что это за слово такое «достоверность»? Оно относится как раз к ошибке первого рода и обозначается буквой α. Вы наверняка знаете обозначение уровня в р=0,05. Уровень достоверности в 0,05 как раз является критическим значением для результатов большинства статистических тестов ( 5 %). Мы делаем вывод относительно этих 5 %. Что в практическом смысле это значит? Что в 95 % мы находим различия, которые действительно существуют, и в 5 % даем себе возможность переобнаружить то, чего в действительности не существует в реальности.
Что касается ошибки второго рода, то здесь это уже не 5 %. И мы задаем либо 20, либо 10 %, что-то в этом диапазоне, это ошибка в 0,2; в 0,1. И как раз мы подходим к следующему чрезвычайно важному статистическому понятию как «мощность исследования». Мощность исследования это: (1 – β), где β это ошибка второго рода. Если стандартный уровень ошибки это 0,2 и 0,1, то мы получаем, что мощность исследования в норме составляет 0,8 или 0,9 (чаще, конечно, 0,8).
NB! по уровню значимости
Уровень значимости, то есть ошибки первого рода составляет чаще всего относительно уровня в 5 %, это уровень той ошибки, при которой мы даем возможность себе «перенайти» то, что в действительности не существует. В ошибке второго рода мы даем себе определенный люфт до 20 % не обнаружить того, что в действительности существует, то есть когда статистические тесты нам скажут, что чего-то нет, а в реальности эти различия существуют.