Что такое статистическая мощность эксперимента

9.Что такое статистическая мощность исследования и от чего она зависит?

Нужно ли исследователю учитывать её при планировании исследования, и

если да, то как это сделать?

Статистическая мощность анализа (1-β): вероятность того, что мы на выборке примем гипотезу H1, если на самом деле она верна (= шанс обнаружить эффект, если он на самом деле есть).

• Размер эффекта, пример: Корреляция между приёмом аспирина и снижением риска сердечного приступа: r = 0.034, r2 = 0.0012. Но это значит, что 34 человека из 1000 могут предотвратить приступ, принимая аспирин.

Статистическая мощность зависит от…

– объёма выборки: чем он больше, тем она выше;

– размера эффекта: чем он сильнее, тем она выше;

– от используемого статистического критерия: для разных статистических критериев, проверяющих одну и ту же гипотезу, она будет разной.

• Является критерием для определения объёма выборки с учётом размера ожидаемого эффекта.

• Важно! Только высокая мощность (0,95 и выше) даёт нам возможность делать достоверный вывод о том, что искомый эффект отсутствует (верна H0).

• При недостаточной статистической мощности подобный вывод является необоснованным (правильный вывод: мы не обнаружили эффект, но не можем сказать, есть он или нет).

Анализ статистической мощности и оценка объема выборки являются важным этапом планирования эксперимента, так как без этих вычислений объем данных может быть слишком большим, либо, напротив, слишком маленьким, чтобы получить надежные результаты. Если объем выборки слишком мал, то у вас имеется небольшая вероятность того, что проведенное вами экспериментальное исследование (массовый опрос и др.) даст надежный результат. Напротив, если объем выборки слишком большой, то время, потраченное на сбор данных и большие финансовые расходы, связанные с этим, не принесут ожидаемого эффекта.

Нулевая гипотеза либо справедлива, либо ошибочна, и статистическая процедура недвусмысленно указывает на это. Нулевая гипотеза либо отвергается, либо не отвергается. Следовательно, до проведения эксперимента вы постулируете, что имеют место только 4 возможности, показанные ниже:

HOH1
H0Правильное принятиеОшибка II рода Что такое статистическая мощность эксперимента. Смотреть фото Что такое статистическая мощность эксперимента. Смотреть картинку Что такое статистическая мощность эксперимента. Картинка про Что такое статистическая мощность эксперимента. Фото Что такое статистическая мощность эксперимента
H1Ошибка I рода Что такое статистическая мощность эксперимента. Смотреть фото Что такое статистическая мощность эксперимента. Смотреть картинку Что такое статистическая мощность эксперимента. Картинка про Что такое статистическая мощность эксперимента. Фото Что такое статистическая мощность экспериментаПравильное отвержение

В таком исследовании ошибка II рода является трагедией, потому что теория, которая действительно верна, ошибочно отвергается. Очевидно, мы должны действовать так, чтобы уменьшить эту ошибку, т.е. максимизировать мощность критерия. К сожалению, нельзя одновременно уменьшать обе ошибки, и на практике приходится находить компромисс между ними.

С другой стороны, возможно, мощность оказывается слишком большой. Например, можно проверять гипотезу о равенстве двух средних в популяции (Mu1 = Mu2), основываясь на миллионе наблюдений в каждой из сравниваемых групп. В такой ситуации даже при тривиальных (почти нулевых) различиях между группами нулевая гипотеза по существу всегда будет отвергнута.

Оценка мощности. При планировании эксперимента нужно помнить, что мощность должна быть разумно высокой, чтобы обнаружить разумные отклонения от нулевой гипотезы

Факторы, влияющие на мощность статистических тестов. (повторение мать учения): Важно какой именно статистический критерий применяется. Некоторые статистические тесты по своей природе имеют большую мощность, чем другие. Важен объем выборки (количество наблюдений, на основании которых делается вывод). Вообще говоря, чем больше объем данных, тем больше мощность. Однако увеличение числа наблюдений связано с финансовыми и временными затратами. Следовательно, важно сделать объем выборки «разумно большим». Величина экспериментальных эффектов. Уровень ошибки в экспериментальных измерениях. Ошибка измерения интерпретируется как «шум», который может скрыть «сигнал» в реальных экспериментах. Следовательно, все действия, улучшающие точность и надежность измерения, могут увеличить статистическую мощность.

Источник

Что такое статистическая мощность эксперимента

Анализ мощности является важным этапом статистического исследования, с которым сталкиваются многие практики. В этом модуле собраны методы анализа мощности статистических критериев, объема выборки и углубленные методы доверительного интервального оценивания. Основная цель первых двух приемов заключается в том, чтобы определить (a) какой объем выборки должен быть использован для получения надежных оценок, (b) какова вероятность того, что статистический тест будет обнаруживать экспериментальные эффекты данной величины. Третий метод, как альтернатива классическим методам проверки гипотез, полезен при решении многих важных задач, а также при оценивании величины эффектов, полученных в экспериментах.

Анализ мощности и оценка объема выборки являются важным этапом планирования эксперимента, так как без этих вычислений объем данных может быть слишком большим, либо, напротив, слишком маленьким, чтобы получить надежные результаты. Если объем выборки слишком мал, то у вас имеется небольшая вероятность того, что проведенное вами экспериментальное исследование (массовый опрос и др.) даст надежный результат. Напротив, если объем выборки слишком большой, то время, потраченное на сбор данных и большие финансовые расходы, связанные с этим, не принесут ожидаемого эффекта.

В модуле Анализ мощности доступны графические и аналитические процедуры, позволяющие оценить мощность и объем выборки различных процедур статистического анализа. Эта информация является решающей при проведении экспериментальных исследований, массовых опросов и т.д.

Процедуры доверительного интервального оценивания и другие тонкие процедуры интервального оценивания предлагают углубленные методы оценивания величины экспериментальных эффектов. Отметим, что все большое число статистиков признают, что доверительное интервальное оценивание естественно дополняет и развивает классический подход, основанный на проверке гипотез в анализе данных.

Анализ мощности и оценка объема выборки в планировании эксперимента

Очевидно, что параметр P не будет равен в точности оценке p. Потому что (p) включает случайный выбор. Величина отклонения p от P называется ошибкой (более точно, выборочной ошибкой).

Таким образом, в любой построенной по выборке оценке содержится ошибка, точная величина которой неизвестна, в противном случае, вы могли бы точно вычислить значение параметра, что в принципе невозможно сделать, имея дело с частью популяции, то есть с выборкой.

В общем, можно сказать, что чем больше объем выборки N, тем меньше ошибка оценки. Если вам нужно точное решение о параметре p, вам необходимо взять N достаточно большим, чтобы ошибка была «разумно малой», например, опросить всех жителей города. Если N слишком мало, то мало шансов получить хорошую оценку.

С другой стороны, если взять объем выборки N слишком большим, улучшение точности оценки окажется незначительным. Итак, если N «достаточно большое», чтобы обеспечить приемлемый уровень точности, то дальнейшее увеличение объема данных не приводит к неоправданной трате времени и средств.

Таким образом, ключевым вопросом является: » Какой уровень точности будет иметь оценка для данного объема выборки?», а также связанный с ним «Какой объем выборки нужно иметь, чтобы достичь приемлемого уровня точности?» Таким образом, ключевым вопросом является: » Какой уровень точности будет иметь оценка для данного объема выборки?», а также связанный с ним «Какой объем выборки нужно иметь, чтобы достичь приемлемого уровня точности?»

Цель Анализа мощности заключается в том, чтобы предоставить в ваше распоряжение статистические методы, позволяющие ответить на эти вопросы. Хорошие программы предоставляют вам простой диалог, позволяющий провести анализ мощности и рассчитать объем выборки для классических статистических процедур, а также специальные программы для нецентрального оценивания, позволяющие продвинутым пользователям вычислить множество дополнительных характеристик, способствующих пониманию ситуации.

Нулевая гипотеза либо справедлива, либо ошибочна, и статистическая процедура недвусмысленно указывает на это. Нулевая гипотеза либо отвергается, либо не отвергается. Следовательно, до проведения эксперимента вы постулируете, что имеют место только 4 возможности, показанные ниже:

Ошибка II рода
Что такое статистическая мощность эксперимента. Смотреть фото Что такое статистическая мощность эксперимента. Смотреть картинку Что такое статистическая мощность эксперимента. Картинка про Что такое статистическая мощность эксперимента. Фото Что такое статистическая мощность экспериментаH1Ошибка I рода
Что такое статистическая мощность эксперимента. Смотреть фото Что такое статистическая мощность эксперимента. Смотреть картинку Что такое статистическая мощность эксперимента. Картинка про Что такое статистическая мощность эксперимента. Фото Что такое статистическая мощность эксперимента

В RS исследовании ошибка II рода является трагедией, потому что теория, которая действительно верна, ошибочно отвергается. Очевидно, мы должны действовать так, чтобы уменьшить эту ошибку, т.е. максимизировать мощность критерия. К сожалению, нельзя одновременно уменьшать обе ошибки, и на практике приходится находить компромисс между ними.

С другой стороны, возможно, мощность оказывается слишком большой. Например, можно проверять гипотезу о равенстве двух средних в популяции (Mu1 = Mu2), основываясь на миллионе наблюдений в каждой из сравниваемых групп. В такой ситуации даже при тривиальных (почти нулевых) различиях между группами нулевая гипотеза по существу всегда будет отвергнута.

Ситуация становится гораздо критичнее в AS тестировании. Если N слишком большое, исследователь почти неизбежно принимает решение не в пользу теории, которая на самом деле верна. Это кажется парадоксальным, но в этом смысле точность эксперимента играет против исследователя.

Подведем итог, в Reject-Support (Отвергнуть-Принять) исследовании:

Оценка объема выборки. Чтобы гарантированно иметь статистический критерий достаточной мощности, следует до проведения эксперимента вычислить, какой объем выборки N необходим.

Кратко рассмотрим основы теории, используемые для оценки мощности и объема выборки. Вернемся к примеры, описанному ранее.

Заметим, что теория, конечно, не может сказать, как проголосует отдельный избиратель (это и не нужно, когда мы имеем дело с массой избирателей, не имеющих индивидуального лица). Однако с помощью концепции выборочного распределения ошибки можно сказать, к чему стремится ошибка оценки.

Что такое статистическая мощность эксперимента. Смотреть фото Что такое статистическая мощность эксперимента. Смотреть картинку Что такое статистическая мощность эксперимента. Картинка про Что такое статистическая мощность эксперимента. Фото Что такое статистическая мощность эксперимента

Если бы p была «совершенной» оценкой Что такое статистическая мощность эксперимента. Смотреть фото Что такое статистическая мощность эксперимента. Смотреть картинку Что такое статистическая мощность эксперимента. Картинка про Что такое статистическая мощность эксперимента. Фото Что такое статистическая мощность эксперимента, разброса значений не было бы, и стандартная ошибка равнялась бы 0. Тогда выборочное распределение имело бы выброс в точке 0.5. Выброс выборочного распределения говорит о том, насколько много «шум» смешивается с «сигналом» от параметра.

Заметим, что стандартная ошибка стремится к 0 при увеличении объема выборки N (N стоит в знаменателе). Если N становится достаточно большим, то оценка p будет все более точной (см. формулу для вычисления ошибки).

Что такое статистическая мощность эксперимента. Смотреть фото Что такое статистическая мощность эксперимента. Смотреть картинку Что такое статистическая мощность эксперимента. Картинка про Что такое статистическая мощность эксперимента. Фото Что такое статистическая мощность эксперимента

Теперь важно понять, какова мощность этого критерия.

Что такое статистическая мощность эксперимента. Смотреть фото Что такое статистическая мощность эксперимента. Смотреть картинку Что такое статистическая мощность эксперимента. Картинка про Что такое статистическая мощность эксперимента. Фото Что такое статистическая мощность эксперимента

Нечего и говорить, что нет смысла проводить эксперимент, в котором ваша точка зрения верна только в 24.1% опытов! В таком случае аналитик говорит, что критерий значимости имеет «недостаточную мощность, чтобы обнаружить 5%-е отклонение от нулевой гипотезы.»

Суть проблемы лежит в ширине этих двух распределений (при различных гипотезах). Если объем выборки становится большим, то стандартная ошибка доли уменьшается и область перекрытия двух распределений соответственно уменьшается. Таким образом, при достаточно большой выборке можно найти критерий с высокой мощностью и данным уровнем значимости Что такое статистическая мощность эксперимента. Смотреть фото Что такое статистическая мощность эксперимента. Смотреть картинку Что такое статистическая мощность эксперимента. Картинка про Что такое статистическая мощность эксперимента. Фото Что такое статистическая мощность эксперимента.

Поставим вопрос: «Какой объем выборки N необходим, чтобы достичь разумно высокой мощности» в ситуации, когда Что такое статистическая мощность эксперимента. Смотреть фото Что такое статистическая мощность эксперимента. Смотреть картинку Что такое статистическая мощность эксперимента. Картинка про Что такое статистическая мощность эксперимента. Фото Что такое статистическая мощность экспериментафиксировано на разумно низком уровне.

Визуальный подход к анализу мощности. Итак, мы получили, что необходимая мощность (0.8) достигается при выборке объема 607 (p =.80). На практике, конечно, было бы неразумно проводить только одно вычисление, основываясь на одном гипотетическом значении. Более естественно рассмотреть, как зависит мощность от p, иными словами, построить функцию зависимости мощности от p.

Интеллектуальный анализ мощности включает построение и исследование графиков зависимости мощности, объема выборки и уровня эффекта, а также ряда других факторов, например, таких как Ошибка I рода. Анализ мощности дает возможность строить различные типы графиков мощности и объема выборки.

В обсуждаемом примере мы хотим понять, будут ли нашу точку зрения поддерживать более половины избирателей или нет с низкой вероятностью ошибиться (с низким риском). Иными словами, с какого объема выборкой нам нужно иметь дело. Графический анализ чрезвычайно полезен для понимания способности статистического теста обеспечить нужную мощность.

Что такое статистическая мощность эксперимента. Смотреть фото Что такое статистическая мощность эксперимента. Смотреть картинку Что такое статистическая мощность эксперимента. Картинка про Что такое статистическая мощность эксперимента. Фото Что такое статистическая мощность эксперимента

Следует помнить, что вычисления сделаны в предположении, что истинное значение доли p равно.55. Возможно, что форма кривой (а значит, и наши оценки!) очень чувствительна к величине p. Логично поставить вопрос: «как чувствителен наклон графика к изменению величины p

Что такое статистическая мощность эксперимента. Смотреть фото Что такое статистическая мощность эксперимента. Смотреть картинку Что такое статистическая мощность эксперимента. Картинка про Что такое статистическая мощность эксперимента. Фото Что такое статистическая мощность эксперимента

Что такое статистическая мощность эксперимента. Смотреть фото Что такое статистическая мощность эксперимента. Смотреть картинку Что такое статистическая мощность эксперимента. Картинка про Что такое статистическая мощность эксперимента. Фото Что такое статистическая мощность эксперимента

Что такое статистическая мощность эксперимента. Смотреть фото Что такое статистическая мощность эксперимента. Смотреть картинку Что такое статистическая мощность эксперимента. Картинка про Что такое статистическая мощность эксперимента. Фото Что такое статистическая мощность эксперимента

Что такое статистическая мощность эксперимента. Смотреть фото Что такое статистическая мощность эксперимента. Смотреть картинку Что такое статистическая мощность эксперимента. Картинка про Что такое статистическая мощность эксперимента. Фото Что такое статистическая мощность эксперимента

Основные этапы проведения анализа мощности и вычисления объема выборки состоят в следующем:

Нецентральное интервальное оценивание и оценка статистических моделей

Модуль Анализ мощности содержит удобные средства для построения доверительных интервалов. Стоит отметить, что подобные средства не включены практически ни в один другой статистический пакет. Некоторые из рассматриваемых подходов обсуждаются в Steiger and Fouladi (1997). Далее в этом разделе мы кратко рассмотрим основные идеи построения доверительных интервалов.

Заметим, что в AS исследовании, часто возникающем при подгонке моделей факторного анализа или «причинного моделирования», логика критериев значимости часто оказывается неприемлемой и полезным становится интервальное оценивание. Отвержение «истинно правдивой» нулевой гипотезы в данной ситуации часто сопровождается неясными утверждениями о том, что отвержение не должно быть слишком серьезным. Ошибка отвергнуть нулевую гипотезу обычно выражается в требовании редактора, обремененного вычислениями мощности. Такие проблемы можно легко попробовать решить, используя теорию доверительных интервалов.

Наглядно это можно продемонстрировать на следующих графиках:

Что такое статистическая мощность эксперимента. Смотреть фото Что такое статистическая мощность эксперимента. Смотреть картинку Что такое статистическая мощность эксперимента. Картинка про Что такое статистическая мощность эксперимента. Фото Что такое статистическая мощность эксперимента

На графиках показаны разности средних в 3-х экспериментах, выполненных на одном и том же экспериментальном материале примерно с одним и тем же разбросом данных. Данные в экспериментах 1 и 3 дают доверительный интервал, не содержащий 0. Поэтому нулевая гипотеза о равенстве средних отвергается. Во втором эксперименте доверительный интервал включает 0, таким образом, нулевая гипотеза не отвергается. Критерий значимости может привести к заключению, что второй эксперимент не согласуются с двумя остальными.

Доверительное оценивание приводит к другой интерпретации. В первом эксперименте имеется большой объем данных и высокая точность измерения, что отражается в узком доверительном интервале. В этом эксперименте был обнаружен слабый эффект, и нулевая гипотеза об отсутствии различия средних может быть убедительно отвергнута.

Второму эксперименту отчетливо не хватает точности, что отражается в очень широком доверительном интервале. Очевидно, объем выборки также слишком мал. Может оказаться так, что реальный эффект при проведении второго эксперимента оказался больше, чем в первом эксперименте, но точность эксперимента недостаточна для определения этого.

В третьем эксперименте эффект является статистически значимым (средние различны) и, возможно, оказывается выше, чем в первом эксперименте. Хотя, это может быть скрыто из-за низкого уровня точности, отраженном в доверительном интервале, который оказался уже чем во втором эксперименте и шире, чем в третьем.

Предположим, 3 эксперимента включали контрольные группы для различий в IQ. В финале анализа мы могли иметь слишком много мощности в Experiment 1, и объявленный нами «высоко значимый» результат объясняется единственным пунктом IQ. Далее, мы, скорее всего, имеем слишком мало мощности в Experiment 2. Experiment 3 кажется близким к истине.

Основываясь на доверительных интервалах, мы можем сделать много полезных выводов. К сожалению, несмотря на очевидную полезность, доверительные интервалы редко обсуждаются в литературе.

Причины, по которым интервальные оценки редко публикуются. Несмотря на очевидные преимущества, интервальные оценки довольно редко используют на практике. В тех случаях, когда эти оценки используются, они часто не являются оптимальными, что вызвано следующими причинами:

Традиция. В традиционных подходах критериям значимости уделяется существенно больше внимания, чем интервальному оцениванию.

Прагматизм. В RS подходе интервальные оценки иногда являются смущающим исследователя фактором. Например, если они узки но лежат близко к нулю, то такой результат может быть статистически «высоко значимыми», но тривиальным. Если доверительный интервал широкий, то он выдает неточность исследования.

Отсутствие информации. Многие люди просто не осведомлены о доступных интервальных процедурах оценивания. Например, в большинстве книг по многомерному анализу даже не упоминается о том, что можно вычислить доверительный интервал для квадрата коэффициента множественной корреляции.

Недоступность. Немногие из замечательных процедур интервального оценивания включены в пакеты статистического анализа данных.

Использование интервальных оценок вместо традиционных критериев проверки гипотез. Модуль STATISTICA Анализ мощности содержит большой набор процедур доверительного оценивания, которыми можно заменить традиционные критерии проверки гипотез, используемых в классических ситуациях. Для подробного знакомства с этими технологиями см Steiger & Fouladi (1997).

Дисперсионный анализ. Эта область, где интервальные оценки редко используются для оценки величины (силы) эффектов.

Множественная регрессия. Квадрат коэффициента множественной корреляции (известный также как коэффициент детерминации) часто используется как характеристика силы связи между переменными. После подгонки регрессионного уравнения возникают следующие естественные вопросы: (a) «Насколько эффективно регрессионное уравнение позволяет строить прогноз?» и (b) «Насколько точно эта эффективность оценена?»

Представление коэффициента детерминации и результат проверки гипотезы о равенстве его 0 дает не так много. Более полезен доверительный интервал.

Некоторые авторы, например, Lee (1972), предпочитают «нижнюю доверительную границу» квадрата множественной корреляции. Хотя мы понимаем аргументацию этих авторов, мы должны отвергнуть ее, так как фактически доверительный интервал содержит не только нижнюю границу, но включает также и верхнюю границу, а ширина интервала (разность между двумя границами) является мерой точности оценки.

Все права на материалы электронного учебника принадлежат компании StatSoft

Источник

Нежное введение в статистический анализ мощности и мощности в Python

Дата публикации 2018-07-13

Мощность может быть рассчитана и сообщена для завершенного эксперимента, чтобы прокомментировать уверенность, которую можно было бы получить в выводах, сделанных по результатам исследования. Он также может использоваться в качестве инструмента для оценки количества наблюдений или размера выборки, необходимых для обнаружения эффекта в эксперименте.

В этом руководстве вы откроете для себя важность статистической мощности теста гипотезы, а теперь вычисляете анализ мощности и кривые мощности как часть экспериментального проекта.

После завершения этого урока вы узнаете:

Что такое статистическая мощность эксперимента. Смотреть фото Что такое статистическая мощность эксперимента. Смотреть картинку Что такое статистическая мощность эксперимента. Картинка про Что такое статистическая мощность эксперимента. Фото Что такое статистическая мощность эксперимента

Обзор учебника

Этот урок разделен на четыре части; они есть:

Статистическая проверка гипотез

Тест статистической гипотезы делает предположение о результате, называемом нулевой гипотезой.

Например, нулевая гипотеза для корреляционного теста Пирсона состоит в том, что нет никакой связи между двумя переменными. Нулевая гипотеза для критерия Стьюдента состоит в том, что нет разницы между средствами двух групп населения.

Тест часто интерпретируется с использованием p-значения, которое представляет собой вероятность наблюдения результата, учитывая, что нулевая гипотеза верна, а не обратная, как это часто бывает с неправильными интерпретациями.

При интерпретации p-значения критерия значимости необходимо указать уровень значимости, часто называемый греческой строчной буквой alpha (a). Общим значением для уровня значимости является 5%, записанное как 0,05.

Значение p интересует контекст выбранного уровня значимости. Результатом теста значимости считается «статистически значимый”Если значение p меньше уровня значимости. Это означает, что нулевая гипотеза (что нет результата) отклоняется.

Мы можем видеть, что значение p является просто вероятностью и что в действительности результат может быть другим. Тест может быть неверным. Учитывая р-значение, мы могли бы сделать ошибку в нашей интерпретации.

Есть два типа ошибок; они есть:

В этом контексте мы можем думать об уровне значимости как о вероятности отклонения нулевой гипотезы, если бы она была верной. Это вероятность ошибки типа I или ложного срабатывания.

Что такое статистическая сила?

То есть вероятность истинно положительного результата. Это полезно только тогда, когда нулевая гипотеза отвергается.

Чем выше статистическая мощность для данного эксперимента, тем ниже вероятность ошибки типа II (ложноотрицательная). Это выше вероятность обнаружения эффекта, когда есть эффект. На самом деле, мощность точно обратна вероятности ошибки типа II.

Более интуитивно, статистическая сила может рассматриваться как вероятность принятия альтернативной гипотезы, когда альтернативная гипотеза верна.

При интерпретации статистической мощности мы ищем экспериментальные установки, которые имеют высокую статистическую мощность.

Экспериментальные результаты со слишком низкой статистической мощностью приведут к неверным выводам о значении результатов. Поэтому необходимо искать минимальный уровень статистической мощности.

Обычно планируют эксперименты со статистической мощностью 80% или лучше, например 0,80. Это означает 20% вероятности столкновения с областью типа II. Это отличается от 5% вероятности возникновения ошибки типа I для стандартного значения уровня значимости.

Анализ мощности

Все четыре переменные связаны между собой. Например, больший размер выборки может облегчить обнаружение эффекта, а статистическая мощность в тесте может быть увеличена путем уменьшения уровня значимости.

Анализ мощности включает в себя оценку одного из этих четырех параметров с заданными значениями для трех других параметров. Это мощный инструмент как при разработке, так и при анализе экспериментов, который мы хотим интерпретировать с помощью статистических тестов гипотез.

Например, статистическая мощность может быть оценена с учетом размера эффекта, размера выборки и уровня значимости. Альтернативно, размер выборки может быть оценен с учетом различных желаемых уровней значимости.

Анализ силы отвечает на такие вопросы, как «какая статистическая мощность у моего исследования?» И «какой объем выборки мне нужен?».

Возможно, наиболее распространенное использование энергетического анализа заключается в оценке минимального размера выборки, необходимого для эксперимента.

Анализ мощности обычно проводится перед проведением исследования. Предполагаемый или априорный анализ мощности может использоваться для оценки любого из четырех параметров мощности, но чаще всего используется для оценки требуемых размеров выборки.

Как практик, мы можем начать с разумных значений по умолчанию для некоторых параметров, таких как уровень значимости 0,05 и уровень мощности 0,80. Затем мы можем оценить желаемый минимальный размер эффекта, характерный для проводимого эксперимента. Затем можно использовать анализ мощности для оценки минимального требуемого размера выборки.

Кроме того, можно провести многократный анализ мощности, чтобы получить кривую зависимости одного параметра от другого, такого как изменение размера эффекта в эксперименте с учетом изменения размера выборки. Могут быть созданы более сложные графики, варьирующиеся по трем параметрам. Это полезный инструмент для экспериментального дизайна.

Анализ силы t-критерия Стьюдента

Мы можем конкретизировать идею статистической мощности и анализа мощности на проработанном примере.

В этом разделе мы рассмотрим t-критерий Стьюдента, который является статистическим тестом гипотезы для сравнения средних значений двух выборок гауссовых переменных. Предположение или нулевая гипотеза теста состоит в том, что выборочные популяции имеют одинаковое среднее значение, например что нет никакой разницы между выборками или что образцы взяты из одной и той же популяции.

Тест вычислит p-значение, которое может быть интерпретировано относительно того, являются ли выборки одинаковыми (не в состоянии отклонить нулевую гипотезу), или существует статистически значимая разница между выборками (отклонить нулевую гипотезу). Общий уровень значимости для интерпретации значения p составляет 5% или 0,05.

Размер эффекта сравнения двух групп можно определить количественно с помощью меры размера эффекта. Распространенной мерой для сравнения разницы в среднем по двум группам является мера Коэна. Он рассчитывает стандартную оценку, которая описывает разницу с точки зрения количества стандартных отклонений, что средства разные. Большой размер эффекта для d Коэна составляет 0,80 или выше, что обычно принимается при использовании меры.

Мы можем использовать значение по умолчанию и принять минимальную статистическую мощность в 80% или 0,8.

Для данного эксперимента с этими значениями по умолчанию нас может заинтересовать оценка подходящего размера выборки. То есть сколько наблюдений требуется от каждой выборки, чтобы по крайней мере обнаружить эффект 0 80 с вероятностью 80% обнаружения эффекта, если он истинный (20% ошибки типа II), и вероятностью 5% обнаружения эффекта, если такого эффекта нет (ошибка типа I).

Мы можем решить это с помощью анализа мощности.

Библиотека statsmodels предоставляетTTestIndPowerкласс для расчета энергетического анализа для теста Стьюдента с независимыми образцами. Следует отметить, чтоTTestPowerкласс, который может выполнить тот же анализ для парного теста Стьюдента.

Функцияsolve_power ()может быть использован для расчета одного из четырех параметров в анализе мощности. В нашем случае мы заинтересованы в расчете размера выборки. Мы можем использовать функцию, предоставив три части информации, которую мы знаем (альфа,эффект, а такжемощность) и установить размер аргумента, который мы хотим вычислить ответ (nobs1) к «Никто«. Это говорит функции, что рассчитать.

Примечание о размере выборки: у функции есть аргумент под названием ratio, который представляет собой отношение количества выборок в одной выборке к другой. Если ожидается, что обе выборки будут иметь одинаковое количество наблюдений, тогда коэффициент будет равен 1,0. Если, например, ожидается, что вторая выборка будет иметь вдвое меньше наблюдений, то отношение будет 0,5.

Экземпляр TTestIndPower должен быть создан, тогда мы можем вызватьsolve_power ()с нашими аргументами, чтобы оценить размер выборки для эксперимента.

Полный пример приведен ниже.

При выполнении примера вычисляется и печатается примерное количество образцов для эксперимента как 25. Это будет рекомендуемое минимальное количество образцов, необходимое для получения эффекта желаемого размера.

Мы можем пойти еще дальше и рассчитать кривые мощности.

функция plot_power ()может быть использован для создания кривых мощности. Зависимая переменная (ось x) должна быть указана по имени в ‘dep_var‘Аргумент. Массивы значений могут быть указаны для размера выборки (Nobs), размер эффекта (effect_size) и значение (альфа) параметры. Затем будет построена одна или несколько кривых, показывающих влияние на статистическую мощность.

Например, мы можем принять значение 0,05 (значение по умолчанию для функции) и исследовать изменение размера выборки между 5 и 100 при низких, средних и высоких эффектах.

Полный пример приведен ниже.

При выполнении примера создается график, показывающий влияние на статистическую мощность (ось Y) для трех разных размеров эффекта (эс), поскольку размер выборки (ось X) увеличивается.

Мы можем видеть, что, если мы заинтересованы в большом эффекте, точка снижения доходности с точки зрения статистической мощности возникает в пределах 40-50 наблюдений.

Что такое статистическая мощность эксперимента. Смотреть фото Что такое статистическая мощность эксперимента. Смотреть картинку Что такое статистическая мощность эксперимента. Картинка про Что такое статистическая мощность эксперимента. Фото Что такое статистическая мощность эксперимента

Полезно, statsmodels имеетклассы для выполнения анализа мощностис другими статистическими тестами, такими как F-тест, Z-тест и критерий хи-квадрат.

расширения

В этом разделе перечислены некоторые идеи по расширению учебника, которые вы, возможно, захотите изучить.

Если вы исследуете какое-либо из этих расширений, я хотел бы знать.

Дальнейшее чтение

Этот раздел предоставляет больше ресурсов по теме, если вы хотите углубиться.

документы

книги

статьи

Резюме

В этом уроке вы обнаружили статистическую мощность теста гипотез и способы расчета анализа мощности и кривых мощности как части экспериментального проекта.

В частности, вы узнали:

У вас есть вопросы?
Задайте свои вопросы в комментариях ниже, и я сделаю все возможное, чтобы ответить.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *