Что такое биномиальное распределение
Биномиальное распределение
Материал из MachineLearning.
Функция вероятности | |
Функция распределения | |
Параметры | — число «испытаний» — вероятность «успеха» |
Носитель | |
Функция вероятности | |
Функция распределения | |
Математическое ожидание | |
Медиана | одно из |
Мода | |
Дисперсия | |
Коэффициент асимметрии | |
Коэффициент эксцесса | |
Информационная энтропия | |
Производящая функция моментов | |
Характеристическая функция |
Содержание
Определение
Биномиальное распределение — дискретное распределение вероятностей случайной величины принимающей целочисленные значения с вероятностями:
Данное распределение характеризуется двумя параметрами: целым числом 0,» alt= «n>0,» /> называемым числом испытаний, и вещественным числом называемом вероятностью успеха в одном испытании. Биномиальное распределение — одно из основных распределений вероятностей, связанных с последовательностью независимых испытаний. Если проводится серия из независимых испытаний, в каждом из которых может произойти «успех» с вероятностью то случайная величина, равная числу успехов во всей серии, имеет указанное распределение. Эта величина также может быть представлена в виде суммы независимых слагаемых, имеющих распределение Бернулли.
Основные свойства
Асимптотические приближения при больших
Если значения велики, то непосредственное вычисление вероятностей событий, связанных с данной случайной величиной, технически затруднительно. В этих случаях можно использовать приближения биномиального распределения распределением Пуассона и нормальным (приближение Муавра-Лапласа).
Приближение Пуассона
Приближение распределением Пуассона применяется в ситуациях, когда значения большие, а значения близки к нулю. При этом биномиальное распределение аппроксимируется распределением Пуассона с параметром
Строгая формулировка: если и таким образом, что то
Более того, справедлива следующая оценка. Пусть — случайная величина, имеющая распределение Пуассона с параметром Тогда для произвольного множества справедливо неравенство:
Доказательство и обзор более точных результатов, касающихся точности данного приближения, можно найти в [1, гл. III, §12].
Нормальное приближение
Приближение нормальным распределением используется в ситуациях, когда а фиксировано. Это приближение можно рассматривать как частный случай центральной предельной теоремы, применение которой основано на представлении в виде суммы слагаемых. Приближение основано на том, что при указанных условиях распределение нормированной величины
близко к стандартному нормальному.
Локальная теорема Муавра-Лапласа
Данная теорема используется для приближенного вычисления вероятностей отдельных значений биномиального распределения. Она утверждает [1, гл. I, §6], что равномерно по всем значениям таким что имеет место
где — плотность стандартного нормального распределения.
Интегральная теорема Муавра-Лапласа
На практике необходимость оценки вероятностей отдельных значений, которую дает локальная теорема Муавра-Лапласа, возникает нечасто. Гораздо более важно оценивать вероятности событий, включающих в себя множество значений. Для этого используется интегральная теорема, которую можно сформулировать в следующем виде [1, гл. I, §6]:
где случайная величина имеет стандартное нормальное распределение и аппроксимирующая вероятность определяется по формуле
где — функция распределения стандартного нормального закона:
Есть ряд результатов, позволяющих оценить скорость сходимости. В [1, гл. I, §6] приводится следующий результат, являющийся частным случаем теоремы Берри-Эссеена:
где — функция распределения случайной величины На практике решение о том, насколько следует доверять нормальному приближению, принимают исходя из величины Чем она больше, тем меньше будет погрешность приближения.
Заметим, что асимптотический результат не изменится, если заменить строгие неравенства на нестрогие и наоборот. Предельная вероятность от такой замены также не поменяется, так как нормальное распределение абсолютно непрерывно и вероятность принять любое конкретное значение для него равна нулю. Однако исходная вероятность от такой замены может измениться, что вносит в формулу некоторую неоднозначность. Для больших значений изменение будет невелико, однако для небольших это может внести дополнительную погрешность.
Для устранения этой неоднозначности, а также повышения точности приближения рекомендуется задавать интересующие события в виде интервалов с полуцелыми границами. При этом приближение получается точнее. Это связано с тем интуитивно понятным соображением, что аппроксимация кусочно-постоянной функции (функции распределения биномиального закона) с помощью непрерывной функции дает более точные приближения между точками разрыва, чем в этих точках.
Пример
Точная вероятность рассматриваемого события равна
Применим нормальное приближение с той расстановкой неравенств, которая дана выше (снизу строгое, сверху нестрогое):
Теперь построим приближение, используя интервал с концами в полуцелых точках:
Ошибка приближения равна — примерно в 5 раз меньше, чем в предыдущем подходе.
Литература
1. Ширяев А.Н. Вероятность. — М.: МЦНМО, 2004.
Биномиальное распределение случайной величины
Не все явления измеряются в количественной шкале типа 1, 2, 3 … 100500 … Не всегда явление может принимать бесконечное или большое количество различных состояний. Например, пол у человека может быть либо М, либо Ж. Стрелок либо попадает в цель, либо не попадает. Голосовать можно либо «За», либо «Против» и т.д. и т.п. Другими словами, такие данные отражают состояние альтернативного признака – либо «да» (событие наступило), либо «нет» (событие не наступило). Наступившее событие (положительный исход) еще называют «успехом».
Эксперименты с такими данными называются схемой Бернулли, в честь известного швейцарского математика, который установил, что при большом количестве испытаний соотношение положительных исходов и общего количества испытаний стремится к вероятности наступления этого события.
Переменная альтернативного признака
Для того, чтобы в анализе задействовать математический аппарат, результаты подобных наблюдений следует записать в числовом виде. Для этого положительному исходу присваивают число 1, отрицательному – 0. Другими словами, мы имеем дело с переменной, которая может принимать только два значения: 0 или 1.
Какую пользу отсюда можно извлечь? Вообще-то не меньшую, чем от обычных данных. Так, легко подсчитать количество положительных исходов – достаточно просуммировать все значения, т.е. все 1 (успехи). Можно пойти далее, но для этого потребуется ввести парочку обозначений.
Первым делом нужно отметить, что положительные исходы (которые равны 1) имеют некоторую вероятность появления. Например, выпадение орла при подбрасывании монеты равно ½ или 0,5. Такая вероятность традиционно обозначается латинской буквой p. Следовательно, вероятность наступления альтернативного события равна 1 — p, которую еще обозначают через q, то есть q = 1 – p. Указанные обозначения можно наглядно систематизировать в виде таблички распределения переменной X.
Мы получили перечень возможных значений и их вероятности. Можно рассчитать математическое ожидание и дисперсию. Матожидание – это сумма произведений всех возможных значений на соответствующие им вероятности:
Вычислим матожидание, используя обозначения в таблицы выше.
Получается, что математическое ожидание альтернативного признака равно вероятности этого события – p.
Теперь определим, что такое дисперсия альтернативного признака. Дисперсия – есть средний квадрат отклонений от математического ожидания. Общая формула (для дискретных данных) имеет вид:
Отсюда дисперсия альтернативного признака:
Нетрудно заметить, что эта дисперсия имеет максимум 0,25 (при p=0,5).
Стандартное отклонение – корень из дисперсии:
Максимальное значение не превышает 0,5.
Как видно, и математическое ожидание, и дисперсия альтернативного признака имеют очень компактный вид.
Биномиальное распределение случайной величины
Рассмотрим ситуацию под другим углом. Действительно, кому интересно, что среднее выпадение орлов при одном бросании равно 0,5? Это даже невозможно представить. Интересней поставить вопрос о числе выпадения орлов при заданном количестве бросков.
Другими словами, исследователя часто интересует вероятность наступления некоторого числа успешных событий. Это может быть количество бракованных изделий в проверяемой партии (1- бракованная, 0 — годная) или количество выздоровлений (1 – здоров, 0 – больной) и т.д. Количество таких «успехов» будет равно сумме всех значений переменной X, т.е. количеству единичных исходов.
Случайная величина B называется биномиальной и принимает значения от 0 до n (при B = 0 – все детали годные, при B = n – все детали бракованные). Предполагается, что все значения x независимы между собой. Рассмотрим основные характеристики биномиальной переменной, то есть установим ее математическое ожидание, дисперсию и распределение.
Матожидание биномиальной переменной получить очень легко. Математическое ожидание суммы величин есть сумма математических ожиданий каждой складываемой величины, а оно у всех одинаковое, поэтому:
Например, математическое ожидание количества выпавших орлов при 100 подбрасываниях равно 100 × 0,5 = 50.
Теперь выведем формулу дисперсии биномиальной переменной. Дисперсия суммы независимых случайных величин есть сумма дисперсий. Отсюда
Стандартное отклонение, соответственно
Для 100 подбрасываний монеты стандартное отклонение количества орлов равно
И, наконец, рассмотрим распределение биномиальной величины, т.е. вероятности того, что случайная величина B будет принимать различные значения k, где 0≤ k ≤n. Для монеты эта задача может звучать так: какова вероятность выпадения 40 орлов при 100 бросках?
Чтобы понять метод расчета, представим, что монета подбрасывается всего 4 раза. Каждый раз может выпасть любая из сторон. Мы задаемся вопросом: какова вероятность выпадения 2 орлов из 4 бросков. Каждый бросок независим друг от друга. Значит, вероятность выпадения какой-либо комбинации будет равна произведению вероятностей заданного исхода для каждого отдельного броска. Пусть О – это орел, Р – решка. Тогда, к примеру, одна из устраивающих нас комбинаций может выглядеть как ООРР, то есть:
Вероятность такой комбинации равняется произведению двух вероятностей выпадения орла и еще двух вероятностей не выпадения орла (обратное событие, рассчитываемое как 1 — p), т.е. 0,5×0,5×(1-0,5)×(1-0,5)=0,0625. Такова вероятность одной из устраивающих нас комбинации. Но вопрос ведь стоял об общем количестве орлов, а не о каком-то определенном порядке. Тогда нужно сложить вероятности всех комбинаций, в которых присутствует ровно 2 орла. Ясно, все они одинаковы (от перемены мест множителей произведение не меняется). Поэтому нужно вычислить их количество, а затем умножить на вероятность любой такой комбинации. Подсчитаем все варианты сочетаний из 4 бросков по 2 орла: РРОО, РОРО, РООР, ОРРО, ОРОР, ООРР. Всего 6 вариантов.
Следовательно, искомая вероятность выпадения 2 орлов после 4 бросков равна 6×0,0625=0,375.
Однако подсчет подобным образом утомителен. Уже для 10 монет методом перебора получить общее количество вариантов будет очень трудно. Поэтому умные люди давно изобрели формулу, с помощью которой рассчитывают количество различных сочетаний из n элементов по k, где n – общее количество элементов, k – количество элементов, варианты расположения которых и подсчитываются. Формула сочетания из n элементов по k такова:
Подобные вещи проходят в разделе комбинаторики. Всех желающих подтянуть знания отправляю туда. Отсюда, кстати, и название биномиального распределения (формула выше является коэффициентом в разложении бинома Ньютона).
Формулу для определения вероятности легко обобщить на любое количество n и k. В итоге формула биномиального распределения имеет следующий вид.
Количество подходящих под условие комбинаций умножить на вероятность одной из них.
Для практического использования достаточно просто знать формулу биномиального распределения. А можно даже и не знать – ниже показано, как определить вероятность с помощью Excel. Но лучше все-таки знать.
Рассчитаем по этой формуле вероятность выпадения 40 орлов при 100 бросках:
Или всего 1,08%. Для сравнения вероятность наступления математического ожидания этого эксперимента, то есть 50 орлов, равна 7,96%. Максимальная вероятность биномиальной величины принадлежит значению, соответствующему математическому ожиданию.
Расчет вероятностей биномиального распределения в Excel
Если использовать только бумагу и калькулятор, то расчеты по формуле биномиального распределения, несмотря на отсутствие интегралов, даются довольно тяжело. К примеру значение 100! – имеет более 150 знаков. Раньше, да и сейчас тоже, для вычисления подобных величин использовали приближенные формулы. В настоящий момент целесообразно использовать специальное ПО, типа MS Excel. Таким образом, любой пользователь (даже гуманитарий по образованию) вполне может вычислить вероятность значения биномиально распределенной случайной величины.
Для закрепления материала задействуем Excel пока в качестве обычного калькулятора, т.е. произведем поэтапное вычисление по формуле биномиального распределения. Рассчитаем, например, вероятность выпадения 50 орлов. Ниже приведена картинка с этапами вычислений и конечным результатом.
Как видно, промежуточные результаты имеют такой масштаб, что не помещаются в ячейку, хотя везде и используются простые функции типа: ФАКТР (вычисление факториала), СТЕПЕНЬ (возведение числа в степень), а также операторы умножения и деления. Более того, этот расчет довольно громоздок, во всяком случаен не является компактным, т.к. задействовано много ячеек. Да и разобраться с ходу трудновато.
В общем в Excel предусмотрена готовая функция для вычисления вероятностей биномиального распределения. Функция называется БИНОМ.РАСП.
Синтаксис функции состоит из 4 аргументов:
Поля имеют следующие назначения:
Число успехов – количество успешных испытаний. У нас их 50.
Число испытаний – количество бросков: 100 раз.
Вероятность успеха – вероятность выпадения орла при одном подбрасывании 0,5.
Интегральная – указывается либо 1, либо 0. Если 0, то рассчитается вероятность P(B=k); если 1, то рассчитается функция биномиального распределения, т.е. сумма всех вероятностей от B=0 до B=k включительно.
Нажимаем ОК и получаем тот же результат, что и выше, только все рассчиталось одной функцией.
Очень удобно. Эксперимента ради вместо последнего параметра 0 поставим 1. Получим 0,5398. Это значит, что при 100 подкидываниях монеты вероятность выпадения орлов в количестве от 0 до 50 равна почти 54%. А поначалу то казалось, что должно быть 50%. В общем, расчеты производятся легко и быстро.
Настоящий аналитик должен понимать, как ведет себя функция (каково ее распределение), поэтому произведем расчет вероятностей для всех значений от 0 до 100. То есть зададимся вопросом: какова вероятность, что не выпадет ни одного орла, что выпадет 1 орел, 2, 3, 50, 90 или 100. Расчет приведен в следующей картинке. Синяя линия – само биномиальное распределение, красная точка – вероятность для конкретного числа успехов k.
Кто-то может спросить, а не похоже ли биномиальное распределение на… Да, очень похоже. Еще Муавр (в 1733 г.) говорил, что биномиальное распределение при больших выборках приближается к нормальному закону (не знаю, как это тогда называлось), но его никто не слушал. Только Гаусс, а затем и Лаплас через 60-70 лет вновь открыли и тщательно изучили нормальной закон распределения. На графике выше отлично видно, что максимальная вероятность приходится на математическое ожидание, а по мере отклонения от него, резко снижается. Также, как и у нормального закона.
Биномиальное распределение имеет большое практическое значение, встречается довольно часто. С помощью Excel расчеты проводятся легко и быстро.
Биномиальный закон распределения
Краткая теория
Для биномиального распределения известны готовые формулы для математического ожидания и дисперсии:
$$M(X)=np, \quad D(X)=npq, \quad \sigma(X)=\sqrt
А теперь перейдем к примерам и разберем «на пальцах», что за испытания и события имеются в виду, и как применять формулы, приведенные выше.
Примеры решенных задач
Задача 1. В городе 4 коммерческих банка. У каждого риск банкротства в течение года составляет 20%. Составьте ряд распределения числа банков, которые могут обанкротиться в течение следующего года.
Задача 2. Контрольная работа состоит из трех вопросов. На каждый вопрос приведено четыре варианта ответа, один из которых правильный. Составить закон распределения числа правильных ответов при простом угадывании. Найти M(X), D(X).
Задача 4. Наблюдение за районом осуществляется тремя радиолокационными станциями (РЛС). В район наблюдений попал объект, который обнаруживается любой радиолокационной станцией с вероятностью 0,2.
Построить ряд распределения, найти функцию распределения, математическое ожидание и среднее квадратичное отклонение числа РЛС, обнаруживших объект.
Найти вероятность того, что их будет не менее двух.
Задача 6. Стрелок производит 4 выстрела по мишени. Вероятность попадания в мишень при каждом выстреле равна 0,3. За каждое попадание стрелку засчитывается 10 очков. Найти закон распределения числа засчитанных очков.
Задача 7. Опыт состоит из трех независимых подбрасываний одновременно трех монет, каждая из которых с одинаковой вероятностью падает гербом или цифрой вверх.
Построить ряд распределения, найти функцию распределения, математическое ожидание и среднее квадратичное отклонение числа одновременного выпадения двух гербов.
Найти вероятность того, что два герба одновременно выпадут хотя бы один раз.
Задача 10. Производится три независимых опыта, в каждом из которых событие А появляется с вероятностью 0,6. Построить ряд распределения и функцию распределения случайной величины X числа появления события А в трех опытах. Найти числовые характеристики этой случайной величины X.
Решебник по терверу
Нужны еще решения? Более 11000 подробно решенных и оформленных задач. Найди в решебнике сейчас:
Биномиальное распределение
Все знают и любят нормальное распределение. Оно используется в инвестиционном моделировании, A/B-тестах и улучшении производственных процессов (шесть сигм). Но мало кто хорошо знаком с биномиальным распределением. Между тем, результаты бросков монеты следуют биномиальному распределению.
Важно, что здесь работает закон больших чисел. Я также должен сказать, что если мы многократно выполняем один и тот же набор экспериментов (подбрасывая монетку 10 раз) снова и снова, то число решек, наблюдаемых во всех экспериментах, следует биномиальному распределению.
Биномиальное распределение
Дадим более техническое определение. Биномиальное распределение — это распределение вероятностей в последовательности экспериментов, где эксперимент даёт двоичный результат. При этом результаты независимы друг от друга.
Бросок монеты — эксперимент с бинарным результатом. Для ясности уточню: результаты не обязательно должны быть одинаково вероятными, как с бросками симметричной монеты. Условия ниже также соответствуют предварительным требованиям биномиального распределения:
Одна вещь, которая может смутить новичков в теории вероятности и статистике — идея распределения. Мы склонны мыслить детерминистически: «Я подбросил монету 10 раз и получил 6 решек». Результат — 6. Где же распределение?
Распределение происходит из дисперсии. Если мы подбросим 10 монет, то, вероятно, получим разные результаты. Эта дисперсия (неопределенность) создает распределение. Оно сообщает, какие результаты вероятнее, а какие — нет.
Прежде чем писать симуляцию, определимся с переменными.
Симуляция на Python
Генерируем случайное число n раз и записываем результаты в списки. Если число равно 0,5 или больше, то считать его решкой, если нет — орлом. И повторим это много раз, в нашем примере 1000.
Результат выполнения кода на гистограмме:
Изменим график так, чтобы он отображал распределение. Используем stats.binom из scipy :
На графике ниже показано моделируемое распределение синим цветом и фактическое — красным. Вывод: биномиальное распределение — достаточно хорошее приближение к реальности. Поэтому вместо того, чтобы тратить время на подбрасывание и записывать результаты, мы можем просто использовать биномиальное распределение!
Если мы хотим смоделировать результат последовательности из n экспериментов, то могли бы сделать это, используя биномиально распределенную случайную переменную, например:
Наконец, ответим на наш вопрос о монетках:
Это также соответствует первой гистограмме.
Реалистичный пример
Хорошо, а есть что-то кроме монет? Конечно! Представьте себе, что мы аналитики, которым поручено повышение возврата инвестиций в call-центр компании. Сотрудники звонят потенциальным клиентам и продают продукт. Вы посмотрели исторические данные и обнаружили:
Выполнив код, вы увидите что-то вроде этого:
Прибыль в сравнении с расходами невелика. Но посмотрим, как изменяется дневной доход на 1000 симуляций.
Высока вероятность потерь. Что делать? Результаты каждого сотрудника соответствуют биномиальному распределению, поэтому вот, что можно сделать:
Нам не нужен A/B-тест, чтобы понять, что прибыли будет больше. Красная гистограмма — результат после улучшений.