Что такое статистическая погрешность

Погрешности в статистике.

Историческая статистика и методы математико-статистического анализа.

1. Статистика как наука. Историческая статистика и статистические погрешности.

2. Материалы статистики как исторический источник.

3. Статистические сводки, группировки и способы представления статистического материала (таблицы, графики, диаграммы и др.).

4. Основные методы математико-статистического анализа (выборочный метод, статистический анализ динамических рядов, методы многомерного статистического анализа и др.).

5. Количественные методы анализа социально-политических и историко-культурных явлений.

Вопрос первый.

Статистика как наука. Термин и явление.

Стати́стика — отрасль знаний, наука, в которой излагаются общие вопросы сбора, измерения, мониторинга и анализа массовых статистических (количественных или качественных) данных; изучение количественной стороны массовых общественных явлений в числовой форме.

Слово «статистика» происходит от латинского status — состояние дел. В науку термин «статистика» ввёл немецкий учёный Готфрид Ахенвалль в 1746 году, предложив заменить название курса «Государствоведение», преподававшегося в университетах Германии, на «Статистику», положив тем самым начало развитию статистики как науки и учебной дисциплины. Несмотря на это, статистический учёт вёлся намного раньше: проводились переписи населения в Древнем Китае, осуществлялось сравнение военного потенциала государств, вёлся учёт имущества граждан в Древнем Риме и тому подобное.

Статистика разрабатывает специальную методологию исследования и обработки материалов: массовые статистические наблюдения, метод группировок, средних величин, индексов, балансовый метод, метод графических изображений и другие методы анализа статистических данных.

Историческая статистика.

Статистические погрешности.

Что есть погрешность.

Погрешность измерения — отклонение измеренного значения величины от её истинного (действительного) значения. Погрешность измерения является характеристикой точности измерения.

Выяснить с абсолютной точностью истинное значение измеряемой величины, как правило, невозможно, поэтому невозможно и указать величину отклонения измеренного значения от истинного. Это отклонение принято называть ошибкой измерения.

Возможно лишь оценить величину этого отклонения, например, при помощи статистических методов.

1. По форме представления

а) абсолютная погрешность

б) относительная погрешность

2. По причине возникновения

а) Инструментальные / приборные погрешности — погрешности, которые определяются погрешностями применяемых средств измерений и вызываются несовершенством принципа действия, неточностью градуировки шкалы, ненаглядностью прибора.

б) Методические погрешности — погрешности, обусловленные несовершенством метода, а также упрощениями, положенными в основу методики.

в) Субъективные / операторные / личные погрешности

3. По характеру проявления

а) случайная погрешность

б) Систематическая погрешность

в) Прогрессирующая (дрейфовая) погрешность

г) Грубая погрешность (промах)

4. По способу измерения

а) погрешность прямых измерений

б) погрешность косвенных воспроизводимых измерений

в) Погрешность косвенных невоспроизводимых измерений

Погрешности в статистике.

Статистическая погрешность — это та неопределенность в оценке истинного значения измеряемой величины, которая возникает из-за того, что несколько повторных измерений тем же самым инструментом дали различающиеся результаты. Возникает она, как правило, из-за того, что результаты измерения в микромире не фиксированы, а вероятностны. Она тесно связана с объемом статистики: обычно чем больше данных, тем меньше статистическая погрешность и тем точнее результат измерения. Среди всех типов погрешностей она, пожалуй, самая безобидная: понятно, как ее считать, и понятно, как с ней бороться.

Статистические источники характеризуются своим созданием на основе научно-обоснованной программы, количественной (описательно-цифровой) информацией, массовым характером изучаемых объектов, определением критериев и принципов сбора и группировки материала, комплексным характером сведений; чертами, присущими массовым источникам.

Следует заметить, что именно наличие вышеназванной программы статистического обследования не всегда позволяет безоговорочно применять к нему методы математической статистики. На уровне программы под влиянием идеологических и других факторов могут быть заложены такие искажения, которые отнюдь не будут являться погрешностями вычислений.

Источник

Статистическая погрешность

Статистическая погрешность — это та неопределенность в оценке истинного значения измеряемой величины, которая возникает из-за того, что несколько повторных измерений тем же самым инструментом дали различающиеся результаты. Возникает она, как правило, из-за того, что результаты измерения в микромире не фиксированы, а вероятностны. Она тесно связана с объемом статистики: обычно чем больше данных, тем меньше статистическая погрешность и тем точнее результат измерения. Среди всех типов погрешностей она, пожалуй, самая безобидная: понятно, как ее считать, и понятно, как с ней бороться.

Статистическая погрешность: чуть подробнее

Предположим, что ваш детектор может очень точно измерить какую-то величину в каждом конкретном столкновении. Это может быть энергия или импульс какой-то родившейся частицы, или дискретная величина (например, сколько мюонов родилось в событии), или вообще элементарный ответ «да» или «нет» на какой-то вопрос (например, родилась ли в этом событии хоть одна частица с импульсом больше 100 ГэВ).

Это конкретное число, полученное в одном столкновении, почти бессмысленно. Скажем, взяли вы одно событие и выяснили, что в нём хиггсовский бозон не родился. Никакой научной пользы от такого единичного факта нет. Законы микромира вероятностны, и если вы организуете абсолютно такое же столкновение протонов, то картина рождения частиц вовсе не обязана повторяться, она может оказаться совсем другой. Если бозон не родился сейчас, не родился в следующем столкновении, то это еще ничего не говорит о том, может ли он родиться вообще и как это соотносится с теоретическими предсказаниями. Для того, чтобы получить какое-то осмысленное число в экспериментах с элементарными частицами, надо повторить эксперимент много раз и набрать статистику одинаковых столкновений. Всё свое рабочее время коллайдеры именно этим и занимаются, они накапливают статистику, которую потом будут обрабатывать экспериментаторы.

В каждом конкретном столкновении результат измерения может быть разный. Наберем статистику столкновений и усредним по ней результат. Этот средний результат, конечно, тоже не фиксирован, он может меняться в зависимости от статистики, но он будет намного стабильнее, он не будет так сильно прыгать от одной статистической выборки к другой. У него тоже есть некая неопределенность (в статистическом анализе она так и называется: «неопределенность среднего»), но она обычно небольшая. Вот эта величина и называется статистической погрешностью измерения.

Итак, когда экспериментаторы предъявляют измерение какой-то величины, то они сообщают результат усреднения этой величины по всей набранной статистике столкновений и сопровождают его статистической погрешностью. Именно такие средние значения имеют физический смысл, только их может предсказывать теория.

Есть, конечно, и иной источник статистической погрешности: недостаточный контроль условий эксперимента при повторном измерении. Если в физике частиц этот источник можно попытаться устранить, по крайней мере, в принципе, то в других разделах естественных наук он выходит на первый план; например, в медицинских исследованиях каждый человек отличается от другого по большому числу параметров.

Как считать статистическую погрешность?

Существует теория расчета статистической погрешности, в которую мы, конечно, вдаваться не будем. Но есть одно очень простое правило, которое легко запомнить и которое срабатывает почти всегда. Пусть у вас есть статистическая выборка из N столкновений и в ней присутствует n событий какого-то определенного типа. Тогда в другой статистической выборке из N событий, набранной в тех же условиях, можно ожидать примерно n ± √n таких событий. Поделив это на N, мы получим среднюю вероятность встретить такое событие и погрешность среднего: n/N ± √n/N. Оценка истинного значения вероятности такого типа события примерно соответствует этому выражению.

Сразу же, впрочем, подчеркнем, что эта простая оценка начинает сильно «врать», когда количество событий очень мало. В науке обсчета маленькой статистики есть много дополнительных тонкостей.

Более серьезное (но умеренно краткое) введение в методы статистической обработки данных в применении к экспериментам на LHC см. в лекциях arXiv.1307.2487.

Пример 1

Объем статистики имеет значение!

Продолжим этот пример. Предположим, вам такая точность показалась недостаточной, вам хочется уменьшить статистическую погрешность. В ситуации, когда и детектор, и методика отбора уже работают идеально, это можно сделать только одним способом — накопить побольше статистики.

Именно поэтому эксперименты в физике элементарных частиц стараются оптимизировать не только по энергии, но и по светимости. Ведь чем больше светимость, тем больше столкновений будет произведено — значит, тем больше будет статистическая выборка. И уже это позволит сделать измерения более точными — даже без каких-либо улучшений в эксперименте. Примерная зависимость тут такая: если вы увеличите статистику в k раз, то относительные статистические погрешности уменьшатся примерно в √k раз.

Пример 2

Если речь идет не просто о подсчетах событий, а об измерении непрерывной величины, то там статистическая погрешность тоже присутствует, но вычисляется она чуть сложнее.

Предположим, вы хотите измерить массу какой-то новой, только что открытой частицы. Частица эта рождается редко, и у вас из всей статистики набралось лишь четыре события рождения этой частицы. В каждом событии вы измерили ее массу, и у вас получилось четыре результата (мы здесь намеренно опускаем возможные систематические погрешности): 755 МэВ, 805 МэВ, 770 МэВ, 730 МэВ. Теперь можно взять область масс от 700 до 850 МэВ и поставить на ней эти четыре точки (рис. 1). Поскольку каждая точка отвечает одному событию с данной массой, мы каждой точке присваиваем погрешность ±1 событие. То, что массы разные, — совершенно нормально, поскольку у нестабильных частиц есть некая «размазка» по массе. Поэтому, согласно теории, ожидается некая плавная кривая, и когда физики говорят про массу нестабильной частицы, они имеют в виду положение максимума этой кривой. Она тоже показана на рис. 1, но только положение и ширина этой кривой заранее неизвестны, они определяются по наилучшему соответствию с данными.

Что такое статистическая погрешность. Смотреть фото Что такое статистическая погрешность. Смотреть картинку Что такое статистическая погрешность. Картинка про Что такое статистическая погрешность. Фото Что такое статистическая погрешность

Рис. 1. Данные из примера в виде «экспериментального» графика. Каждая точка отвечает одному событию при данной массе. Пунктирная кривая показывает типичное теоретическое ожидание для распределения «экспериментальных» точек

Из-за того что данных очень мало, мы можем провести эту кривую так, как показано на рисунке, а можем и немножко сместить ее в стороны — и так, и эдак будет осмысленное совпадение. Вычислив среднее значение массы, можно получить положение пика этой кривой, а также его неопределенность: 765 ± 15 МэВ. Эта неопределенность целиком и полностью обязана разным результатам измерений, она и является статистической погрешностью измерения.

Что такое статистическая погрешность. Смотреть фото Что такое статистическая погрешность. Смотреть картинку Что такое статистическая погрешность. Картинка про Что такое статистическая погрешность. Фото Что такое статистическая погрешность

Рис. 2. То же, что на рис. 1, но уже на статистике в 60 «экспериментальных» точек

Если мы наберем побольше событий рождения и распада этой частицы, мы сможем увеличить статистику. На рис. 2 показано, как мог бы выглядеть тот же график, если бы у нас уже было 60 событий. Распределение событий по массе начинает приобретать какую-то форму, которая действительно отдаленно напоминает широкий пик, спадающий по краям.

Что такое статистическая погрешность. Смотреть фото Что такое статистическая погрешность. Смотреть картинку Что такое статистическая погрешность. Картинка про Что такое статистическая погрешность. Фото Что такое статистическая погрешность

Рис. 3. Сечение процесса e + e – → π + π – в области энергий от 700 до 850 МэВ, в которой четко проступают ρ-мезон и ω-мезон. Здесь собраны данные восьми экспериментов, изучавших этот процесс. Статистические погрешности измерений детектора BaBar едва заметны глазом. Изображение из статьи arXiv:1010.4180

Сейчас этот процесс изучен вдоль и поперек, статистика набрана огромная (миллионы событий), а значит, и масса ρ-мезона сейчас определена несравнимо точнее. На рис. 3 показано современное состояние дел в этой области масс. Если ранние эксперименты еще имели какие-то существенные погрешности, то сейчас они практически неразличимы глазом. Огромная статистика позволила не только измерить массу (примерно равна 775 МэВ с точностью в десятые доли МэВ), но и заметить очень странную форму этого пика. Такая форма получается потому, что практически в том же месте на шкале масс находится и другой мезон, ω(782), который «вмешивается» в процесс и искажает форму ρ-мезонного пика.

Другой, гораздо более реальный пример влияния статистики на процесс поиска и изучения хиггсовского бозона обсуждался в новости Анимации показывают, как в данных LHC зарождался хиггсовский сигнал.

Источник

Статистическая погрешность

Статистическая погрешность — это та неопределенность в оценке истинного значения измеряемой величины, которая возникает из-за того, что несколько повторных измерений тем же самым инструментом дали различающиеся результаты. Возникает она, как правило, из-за того, что результаты измерения в микромире не фиксированы, а вероятностны. Она тесно связана с объемом статистики: обычно чем больше данных, тем меньше статистическая погрешность и тем точнее результат измерения. Среди всех типов погрешностей она, пожалуй, самая безобидная: понятно, как ее считать, и понятно, как с ней бороться.

Статистическая погрешность: чуть подробнее

Предположим, что ваш детектор может очень точно измерить какую-то величину в каждом конкретном столкновении. Это может быть энергия или импульс какой-то родившейся частицы, или дискретная величина (например, сколько мюонов родилось в событии), или вообще элементарный ответ «да» или «нет» на какой-то вопрос (например, родилась ли в этом событии хоть одна частица с импульсом больше 100 ГэВ).

Это конкретное число, полученное в одном столкновении, почти бессмысленно. Скажем, взяли вы одно событие и выяснили, что в нём хиггсовский бозон не родился. Никакой научной пользы от такого единичного факта нет. Законы микромира вероятностны, и если вы организуете абсолютно такое же столкновение протонов, то картина рождения частиц вовсе не обязана повторяться, она может оказаться совсем другой. Если бозон не родился сейчас, не родился в следующем столкновении, то это еще ничего не говорит о том, может ли он родиться вообще и как это соотносится с теоретическими предсказаниями. Для того, чтобы получить какое-то осмысленное число в экспериментах с элементарными частицами, надо повторить эксперимент много раз и набрать статистику одинаковых столкновений. Всё свое рабочее время коллайдеры именно этим и занимаются, они накапливают статистику, которую потом будут обрабатывать экспериментаторы.

В каждом конкретном столкновении результат измерения может быть разный. Наберем статистику столкновений и усредним по ней результат. Этот средний результат, конечно, тоже не фиксирован, он может меняться в зависимости от статистики, но он будет намного стабильнее, он не будет так сильно прыгать от одной статистической выборки к другой. У него тоже есть некая неопределенность (в статистическом анализе она так и называется: «неопределенность среднего»), но она обычно небольшая. Вот эта величина и называется статистической погрешностью измерения.

Итак, когда экспериментаторы предъявляют измерение какой-то величины, то они сообщают результат усреднения этой величины по всей набранной статистике столкновений и сопровождают его статистической погрешностью. Именно такие средние значения имеют физический смысл, только их может предсказывать теория.

Есть, конечно, и иной источник статистической погрешности: недостаточный контроль условий эксперимента при повторном измерении. Если в физике частиц этот источник можно попытаться устранить, по крайней мере, в принципе, то в других разделах естественных наук он выходит на первый план; например, в медицинских исследованиях каждый человек отличается от другого по большому числу параметров.

Как считать статистическую погрешность?

Существует теория расчета статистической погрешности, в которую мы, конечно, вдаваться не будем. Но есть одно очень простое правило, которое легко запомнить и которое срабатывает почти всегда. Пусть у вас есть статистическая выборка из N столкновений и в ней присутствует n событий какого-то определенного типа. Тогда в другой статистической выборке из N событий, набранной в тех же условиях, можно ожидать примерно n ± √n таких событий. Поделив это на N, мы получим среднюю вероятность встретить такое событие и погрешность среднего: n/N ± √n/N. Оценка истинного значения вероятности такого типа события примерно соответствует этому выражению.

Сразу же, впрочем, подчеркнем, что эта простая оценка начинает сильно «врать», когда количество событий очень мало. В науке обсчета маленькой статистики есть много дополнительных тонкостей.

Более серьезное (но умеренно краткое) введение в методы статистической обработки данных в применении к экспериментам на LHC см. в лекциях arXiv.1307.2487.

Пример 1

Объем статистики имеет значение!

Продолжим этот пример. Предположим, вам такая точность показалась недостаточной, вам хочется уменьшить статистическую погрешность. В ситуации, когда и детектор, и методика отбора уже работают идеально, это можно сделать только одним способом — накопить побольше статистики.

Именно поэтому эксперименты в физике элементарных частиц стараются оптимизировать не только по энергии, но и по светимости. Ведь чем больше светимость, тем больше столкновений будет произведено — значит, тем больше будет статистическая выборка. И уже это позволит сделать измерения более точными — даже без каких-либо улучшений в эксперименте. Примерная зависимость тут такая: если вы увеличите статистику в k раз, то относительные статистические погрешности уменьшатся примерно в √k раз.

Пример 2

Если речь идет не просто о подсчетах событий, а об измерении непрерывной величины, то там статистическая погрешность тоже присутствует, но вычисляется она чуть сложнее.

Предположим, вы хотите измерить массу какой-то новой, только что открытой частицы. Частица эта рождается редко, и у вас из всей статистики набралось лишь четыре события рождения этой частицы. В каждом событии вы измерили ее массу, и у вас получилось четыре результата (мы здесь намеренно опускаем возможные систематические погрешности): 755 МэВ, 805 МэВ, 770 МэВ, 730 МэВ. Теперь можно взять область масс от 700 до 850 МэВ и поставить на ней эти четыре точки (рис. 1). Поскольку каждая точка отвечает одному событию с данной массой, мы каждой точке присваиваем погрешность ±1 событие. То, что массы разные, — совершенно нормально, поскольку у нестабильных частиц есть некая «размазка» по массе. Поэтому, согласно теории, ожидается некая плавная кривая, и когда физики говорят про массу нестабильной частицы, они имеют в виду положение максимума этой кривой. Она тоже показана на рис. 1, но только положение и ширина этой кривой заранее неизвестны, они определяются по наилучшему соответствию с данными.

Рис. 1. Данные из примера в виде «экспериментального» графика. Каждая точка отвечает одному событию при данной массе. Пунктирная кривая показывает типичное теоретическое ожидание для распределения «экспериментальных» точек

Из-за того что данных очень мало, мы можем провести эту кривую так, как показано на рисунке, а можем и немножко сместить ее в стороны — и так, и эдак будет осмысленное совпадение. Вычислив среднее значение массы, можно получить положение пика этой кривой, а также его неопределенность: 765 ± 15 МэВ. Эта неопределенность целиком и полностью обязана разным результатам измерений, она и является статистической погрешностью измерения.

Рис. 2. То же, что на рис. 1, но уже на статистике в 60 «экспериментальных» точек

Если мы наберем побольше событий рождения и распада этой частицы, мы сможем увеличить статистику. На рис. 2 показано, как мог бы выглядеть тот же график, если бы у нас уже было 60 событий. Распределение событий по массе начинает приобретать какую-то форму, которая действительно отдаленно напоминает широкий пик, спадающий по краям.

Рис. 3. Сечение процесса e + e – → π + π – в области энергий от 700 до 850 МэВ, в которой четко проступают ρ-мезон и ω-мезон. Здесь собраны данные восьми экспериментов, изучавших этот процесс. Статистические погрешности измерений детектора BaBar едва заметны глазом. Изображение из статьи arXiv:1010.4180

Сейчас этот процесс изучен вдоль и поперек, статистика набрана огромная (миллионы событий), а значит, и масса ρ-мезона сейчас определена несравнимо точнее. На рис. 3 показано современное состояние дел в этой области масс. Если ранние эксперименты еще имели какие-то существенные погрешности, то сейчас они практически неразличимы глазом. Огромная статистика позволила не только измерить массу (примерно равна 775 МэВ с точностью в десятые доли МэВ), но и заметить очень странную форму этого пика. Такая форма получается потому, что практически в том же месте на шкале масс находится и другой мезон, ω(782), который «вмешивается» в процесс и искажает форму ρ-мезонного пика.

Другой, гораздо более реальный пример влияния статистики на процесс поиска и изучения хиггсовского бозона обсуждался в новости Анимации показывают, как в данных LHC зарождался хиггсовский сигнал.

Источник

Статистическая погрешность результатов и культура представления данных в маркетинге

Проблема качества маркетинговых исследований стоит перед разработчиками рекламных стратегий достаточно остро и, как правило, сводится к соответствию получаемых в результате данных реальному положению дел. Однако мало кто задумывается над тем, что те цифры, на основе которых будут приниматься судьбоносные для рекламной кампании решения, не являются величинами абсолютными, и чтобы действительно ориентироваться в ситуации, опираясь на исследования, необходимо учитывать погрешность измерений. Предлагаемая автором методика позволяет подойти к статистике со всей серьезностью и научиться за цифрами видеть то, что недоступно невооруженному взгляду неспециалиста.

Маркетинг для России — сравнительно новая прикладная наука. Здесь, в основном, работают представители «смежных» профессий — социологи, психологи, экономисты и т.д.

Смешение профессиональных культур тормозит развитие собственной культуры проведения маркетинговых исследований (в дальнейшем — МИ) и представления их результатов, на основании которых заказчик исследований должен принимать решения и вести свой бизнес.

Рассмотрим частный вопрос о статистической погрешности количественных МИ и о том, как в связи с наличием данной погрешности целесообразно представлять результаты.

Проводя количественные (или статистические) измерения различных параметров рынка, исследователь получает конкретные результаты, выраженные в цифрах, — проценты, рейтинги и т.д. Данные цифры, оформленные в виде системы таблиц, графиков и т.п., сопровожденные выводами и рекомендациями, представляются заказчику.

Здесь есть одна проблема, скорее всего не известная заказчику, но о которой исследователь должен знать.

Все представленные в отчете цифры — есть только оценка измеряемого параметра, сделанная исследователем на основании проведенных статистических измерений. Оценка в принципе не точна, хотя бы потому, что имеет т.н. «статистическую погрешность» (в принципе данные могут иметь иные виды погрешности, например, связанные с ошибками исследователя при проектировании и организации самого процесса исследования, неправильной постановки задачи и т.д. Мы их здесь не рассматриваем).

Иными словами, предоставленные цифры имеют свои %.

Естественно, чем больше величины выборки статистических измерений, тем меньше статистическая погрешность.

Исследователь является профессионалом, поэтому, скорее всего, знает о величине статистической погрешности в представленных заказчику данных. Исследователь в отчете указывает, как правило, величину статистической погрешности.

Но заказчик может и не знать, что означает указанная исследователем в отчете статистическая погрешность, а главное, что с этой погрешностью делать, как ее учитывать при проектировании своей дальнейшей деятельности.

Ниже рассмотрим два основных вопроса:

Пример. Фрагмент отчета по статистике заболеваемости населения Москвы.

Вопрос: «Вы болели гриппом последнее время?»

При проведении выборочного опроса ответы распределились следующим образом (в абсолютных цифрах):

Величина статистических погрешностей

Допустим, мы хотим оценить некий параметр р рынка. С этой целью мы проводим статистическое измерение на выборке n.

Отметим, что число р есть абсолютно точное значение искомого параметра, которое нам неизвестно и не может быть известно в принципе, но которое нам надо оценить методом статистических измерений.

Доверительная вероятность и соответствующий ей интервал

Проводя статистическое измерение, мы можем получить оценку р* нашего искомого параметра р.

Наша оценка р* будет находиться где-то вблизи истинного значения параметра р, и, скорее всего, не будет точно равна р.

Распределение возможных значений оценок значения искомого параметра f(p*), подчиняется, в общем случае, нормальному (Гауссовому) закону — рис.1.

рис.1.
Что такое статистическая погрешность. Смотреть фото Что такое статистическая погрешность. Смотреть картинку Что такое статистическая погрешность. Картинка про Что такое статистическая погрешность. Фото Что такое статистическая погрешность
Здесь Что такое статистическая погрешность. Смотреть фото Что такое статистическая погрешность. Смотреть картинку Что такое статистическая погрешность. Картинка про Что такое статистическая погрешность. Фото Что такое статистическая погрешность=3,14159.

Что такое статистическая погрешность. Смотреть фото Что такое статистическая погрешность. Смотреть картинку Что такое статистическая погрешность. Картинка про Что такое статистическая погрешность. Фото Что такое статистическая погрешность— т.н. среднеквадратичное отклонение (СКО), величина, зависимая от объема выборки n: чем больше выборка, тем меньше отклонение.

Площадь, ограниченная гауссовой кривой и горизонтальной осью, равна 1.

Рассмотрим процент А% площади под кривой вблизи р в границах от р-х до р+х. (рис. 2)

рис.2.
Что такое статистическая погрешность. Смотреть фото Что такое статистическая погрешность. Смотреть картинку Что такое статистическая погрешность. Картинка про Что такое статистическая погрешность. Фото Что такое статистическая погрешность

С вероятностью А% полученная оценка р* будет находиться в границах от р-х до р+х.

Вероятность А% называют доверительной вероятностью. Говорят: с вероятностью А% наша оценка р* будет находиться в интервале между нижней границей р-х и верхней границей р+х вблизи р.

Или сокращенно — «р%х».

Принята стандартная величина доверительной вероятности А=95%, в этом случае наш интервал будет иметь границы %2Что такое статистическая погрешность. Смотреть фото Что такое статистическая погрешность. Смотреть картинку Что такое статистическая погрешность. Картинка про Что такое статистическая погрешность. Фото Что такое статистическая погрешность вблизи р. Или — р%2Что такое статистическая погрешность. Смотреть фото Что такое статистическая погрешность. Смотреть картинку Что такое статистическая погрешность. Картинка про Что такое статистическая погрешность. Фото Что такое статистическая погрешность (рис.3).

рис.3.
Что такое статистическая погрешность. Смотреть фото Что такое статистическая погрешность. Смотреть картинку Что такое статистическая погрешность. Картинка про Что такое статистическая погрешность. Фото Что такое статистическая погрешность

Правдоподобие

В предыдущем разделе вопрос стоял о том, где вблизи истинного значения параметра р может находиться наша оценка р*.

В жизни — наоборот. Мы не знаем истинного значения р, но, проведя статистические измерения, находим оценку р*.

Вопрос о погрешности нашей оценки ставится следующим образом: каков тот интервал вблизи р*, где может находиться (с вероятностью А%) истинное значение параметра р?

Иными словами, р% сколько? при данной выборке n.

Рассмотрим этот вопрос.

Итак, мы имеем оценку р*. Мы вправе выдвинуть гипотезу: «истинное значение параметра р есть р1 (рис. 4)», либо гипотезу: «истинное значение параметра р есть р2», либо «истинное значение параметра р есть р3», см рис.4.

рис.4.
Что такое статистическая погрешность. Смотреть фото Что такое статистическая погрешность. Смотреть картинку Что такое статистическая погрешность. Картинка про Что такое статистическая погрешность. Фото Что такое статистическая погрешность

ПРАВДОПОДОБИЕ гипотезы относительно истинного значения параметра р равно условной вероятности того, что мы получим оценку р*, если на самом деле истинное значение параметра равно р.

Иными словами, мы предполагаем, что знаем параметр р (условие). И мы смотрим, какова условная вероятность появления оценки р*:

Реально значение р нам не известно. Мы предполагаем (выдвигаем гипотезу), что, допустим, оно равно р1. Напомню, мы, проведя статистические измерения, получили число р* в качестве оценки параметра р.

Условная вероятность при гипотетическом значении р1 появления нашей оценки р*, иными словами, правдоподобие гипотезы р1, иными словами, W(p* | p), есть — рис.5.

рис. 5.
Что такое статистическая погрешность. Смотреть фото Что такое статистическая погрешность. Смотреть картинку Что такое статистическая погрешность. Картинка про Что такое статистическая погрешность. Фото Что такое статистическая погрешность

Строго говоря, вероятность есть площадь под кривой рис.5., поэтому вероятность получения данной конкретной оценки р* при гипотезе р1 есть бесконечно малое число.

Но это число все-таки меньше, чем вероятность получения нашей оценки р*, если мы примем гипотезу р3 = р*. (рис.6)

рис.6.
Что такое статистическая погрешность. Смотреть фото Что такое статистическая погрешность. Смотреть картинку Что такое статистическая погрешность. Картинка про Что такое статистическая погрешность. Фото Что такое статистическая погрешность

Удобно использовать отношение правдоподобий.

Что такое статистическая погрешность. Смотреть фото Что такое статистическая погрешность. Смотреть картинку Что такое статистическая погрешность. Картинка про Что такое статистическая погрешность. Фото Что такое статистическая погрешность

При условии, что в числителе и в знаменателе дроби бесконечно малые величины, отношение правдоподобий есть конкретная ненулевая величина, что делает отношение правдоподобий весьма практичным для решения многих задач.

В нашем случае наиболее правдоподобной будет гипотеза, что истинное значение параметра р равно нашей оценке р*. Однако весьма правдоподобной выглядит гипотеза, что истинное, но неизвестное нам, значение параметра р чуть больше, либо чуть меньше чем р*.

Граничному отношению правдоподобия соответствуют границы интервала вблизи р*, (назовем их ргр), верхняя и нижняя, которые и определяют интервал статистической точности нашей оценки р*.

Граничное отношение правдоподобий

рис.7.
Что такое статистическая погрешность. Смотреть фото Что такое статистическая погрешность. Смотреть картинку Что такое статистическая погрешность. Картинка про Что такое статистическая погрешность. Фото Что такое статистическая погрешность

Правдоподобие при ргр: W(p* | p=ргр)

Граничное отношение правдоподобий (для А=95%):

Что такое статистическая погрешность. Смотреть фото Что такое статистическая погрешность. Смотреть картинку Что такое статистическая погрешность. Картинка про Что такое статистическая погрешность. Фото Что такое статистическая погрешность

Итак, для интервала, в пределах которого, вблизи р*, в условиях доверительной вероятности А=95%, может находиться истинное значение параметра р, иными словами — для интервала погрешности статистических измерений характерно следующее правило:
На границах данного интервала отношение правдоподобий равно 7,4; внутри интервала — меньше, вне — больше, чем 7,4.

Вычисление интервалов погрешности

Объем выборки, напомню, n.

Предположим, r из них подходят под условия параметра.

Что такое статистическая погрешность. Смотреть фото Что такое статистическая погрешность. Смотреть картинку Что такое статистическая погрешность. Картинка про Что такое статистическая погрешность. Фото Что такое статистическая погрешность(1)

Если исследуемый параметр р достаточно большая величина, т.е. в пределах 5-95%, возможные значения оценок р* подчиняются биномиальному закону. Границы интервала статистической погрешности находим из уравнения:

Что такое статистическая погрешность. Смотреть фото Что такое статистическая погрешность. Смотреть картинку Что такое статистическая погрешность. Картинка про Что такое статистическая погрешность. Фото Что такое статистическая погрешность

Что такое статистическая погрешность. Смотреть фото Что такое статистическая погрешность. Смотреть картинку Что такое статистическая погрешность. Картинка про Что такое статистическая погрешность. Фото Что такое статистическая погрешность

Решая уравнение численным методом, вычисляем границы интервалов статистической погрешности для каждого значения р*, лежащего в пределах 5-95%, для различных значений n.

Если исследуемый параметр р мал, лежит в пределах до 5%, то применим закон Пуассона:

Что такое статистическая погрешность. Смотреть фото Что такое статистическая погрешность. Смотреть картинку Что такое статистическая погрешность. Картинка про Что такое статистическая погрешность. Фото Что такое статистическая погрешность

Что такое статистическая погрешность. Смотреть фото Что такое статистическая погрешность. Смотреть картинку Что такое статистическая погрешность. Картинка про Что такое статистическая погрешность. Фото Что такое статистическая погрешность

Результаты расчетов верхней и нижней границ интервалов статистической погрешности для различных значений оценок р* при разных выборках n представлены ниже в виде графиков на рис. 8.

Что такое статистическая погрешность. Смотреть фото Что такое статистическая погрешность. Смотреть картинку Что такое статистическая погрешность. Картинка про Что такое статистическая погрешность. Фото Что такое статистическая погрешность

Основные комментарии

1. На графиках представлен интервал возможных значений р* от 0% до 50% для экономии места. Графики симметричны относительно линии 50%.

Погрешность оценки (верхняя и нижняя границы интервалов), скажем, для р*=60% равна погрешности (соответственно, нижней и верхней границ интервалов) оценки р*=40%.

2.Чем меньше оценка р*, тем меньше погрешность статистических измерений. Максимальная погрешность измерений будет при оценках в районе 50%. При дальнейшем увеличении значения оценки погрешность статистических измерений снова уменьшается.

3. Интервал погрешности несимметричен. Например, при объеме выборки n=100 и получившейся оценке параметра р*=30% интервал погрешности будет от 30—8% до 30+9%.

Пример. (продолжение)

В таблице, приведенной ранее, добавим столбцы, в которых:

Отметим следующие факты:

Иными словами, на основании представленных данных, можно сделать вывод что «тех, кто болел гриппом в последние 3 месяца больше, чем тех, кто болел гриппом в последний 1 месяц». Но этот вывод будет недостоверен.

Погрешность измерений и представление результатов

На практике часто случается, что объем выборки — не круглое число, при вычислении оценки параметра р* по формуле:

Что такое статистическая погрешность. Смотреть фото Что такое статистическая погрешность. Смотреть картинку Что такое статистическая погрешность. Картинка про Что такое статистическая погрешность. Фото Что такое статистическая погрешность

вполне может оказаться, что оценка р* будет не слишком «удобна»:

Как корректно округлить результат?

Рассмотрим, как задачу округления результатов решают инженеры.

Допустим, при измерении некого напряжения в некой сети, имеющийся вольтметр показал результат: 36,3 В

Однако любой прибор несовершенен, т.е. его показания неточны, имеют погрешности. Величина погрешности прибора обычно указывается в его паспорте и на панели.

Если наш вольтметр имеет погрешность +-1 В, то в протокол измерений инженер записывает цифру: 36 В

Таким образом, инженер округляет показания прибора до ближайшей 1, в соответствии с паспортной погрешностью прибора.

Иными словами, в протокол измерений записывается результат, округленный до последней достоверной цифры.

Погрешность прибора +-1 В, следовательно, десятки в цифре 36,3 достоверны, единицы — достоверны, а десятые доли вольта — недостоверны. Погрешность прибора не позволяет измерять десятые доли.

Поэтому десятые доли округляются до ближайшей 1 — в соответствии с арифметическими правилами округления.

Если бы вольтметр имел погрешность измерений +-0,5 В, то, получив результат 36,3 В, в протокол измерений мы должны занести 36,5 В.

Представлять в протоколе измерений только достоверные цифры — так понимается корректность работы с количественными данными любого типа.

Наш «прибор» — количественные статистические измерения. Погрешность нашего прибора зависит от объема выборки — см. рис. 8.

Профессиональная культура требует, чтобы в отчете представлялись только достоверные результаты:

Пример. (Продолжение)

Окончательный вид таблицы в отчете, с представлением математически корректных результатов:

Внимание! При округлении результатов следует иметь в виду: может получиться так, что сумма всех цифр не будет равна 100,0% (последняя строка в таблице).

Группа выводов 1

Группа выводов 2

Представление математически корректных данных в отчете не избавляет от необходимости отдельно указывать статистическую погрешность проведенных статистических измерений.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *