Что такое распределение вероятности

Распределения вероятностей

Случайная переменная — это величина, которая может принимать любое из набора взаимоисключающих значений с определенной вероятностью.

Распределение вероятности показывает вероятности всех возможных значений случайной переменной. Это теоретическое распределение, которое выражено математически и имеет среднее и дисперсию — аналоги среднего и дисперсии в эмпирическом распределении.

Каждое распределение вероятности определяется некоторыми параметрами, параметры служат обобщающими величинами (например среднее, дисперсия), характеризующими данное распределение (т.e. их знание позволит подробно описать распределение).

С помощью соответствующей статистики можно произвести оценку этих параметров в выборке В зависимости от того, является ли случайная переменная дискретной или непрерывной, распределение вероятности может быть либо дискретным, либо непрерывным.

Дискретные распределения

Моделируют вероятность наступления дискретных событий, например, выпадение герба или решки (распределение Бернулли), число выпадений герба или решки при многократном бросании монеты (биномиальное распределение), выпадения определенного числа очков при бросании игральной кости (полиномиальное или мультиномиальное распределение).

Примеры дискретных величин самые разнообразные: число телефонных звонков за день, количество перевезенных пассажиров, количество дефектов в партии продукции, количество распавшихся атомов за определенный промежуток, число квантов света, попавших на сетчатку глаза и множество других в физике, технике, биологии, медицине, экономике, транспорте, телефонии.

Источник

Типичные распределения вероятности: шпаргалка data scientist-а

У data scientist-ов сотни распределений вероятности на любой вкус. С чего начать?

Data science, чем бы она там не была – та ещё штука. От какого-нибудь гуру на ваших сходках или хакатонах можно услышать:«Data scientist разбирается в статистике лучше, чем любой программист». Прикладные математики так мстят за то, что статистика уже не так на слуху, как в золотые 20е. У них даже по этому поводу есть своя несмешная диаграмма Венна. И вот, значит, внезапно вы, программист, оказываетесь совершенно не у дел в беседе о доверительных интервалах, вместо того, чтобы привычно ворчать на аналитиков, которые никогда не слышали о проекте Apache Bikeshed, чтобы распределённо форматировать комментарии. Для такой ситуации, чтобы быть в струе и снова стать душой компании – вам нужен экспресс-курс по статистике. Может, не достаточно глубокий, чтобы вы всё понимали, но вполне достаточный, чтобы так могло показаться на первый взгляд.

Вероятностные распределения – это основа статистики, так же как структуры данных – основа computer science. Если хотите говорить языком data scientist-а – надо начинать с их изучения. В принципе можно, если повезёт, делать простые анализы, используя R или scikit-learn вообще без понимания распределений, так же как можно написать программу на Java без понимания хэшфункций. Но рано или поздно это закончится слезами, ошибками, ложными результатами или — гораздо хуже – охами и выпученными глазами от старших статистиков.

Существуют сотни различных распределений, некоторые из которых на слух звучат как чудовища средневековых легенд, типа Muth или Lomax. Тем не менее, на практике более-менее часто используются около 15. Каковы они, и какие умные фразы о них требуется запомнить?

Итак, что такое распределение вероятности?

Всё время что-то происходит: кидаются кубики, идёт дождь, подъезжают автобусы. После того, как это что-то произошло, можно быть уверенным в некотором исходе: кубики выпали на 3 и 4, выпало 2.5 см дождя, автобус подъехал через 3 минуты. Но до этого момента мы можем говорить только о том, насколько каждый исход возможен. Распределения вероятности описывают то, как мы видим вероятность каждого исхода, что, зачастую, гораздо интереснее, чем знать только один, наиболее возможный, исход. Распределения бывают разных форм, но строго одного размера: сумма всех вероятностей в распределении — всегда 1.

Например, подбрасывание правильной монетки имеет два исхода: она упадёт либо орлом, либо решкой (предполагая, что она не приземлится на ребро и её не стащит в воздухе чайка). Перед броском мы верим, что с шансом 1 к 2 или с вероятностью 0.5 она упадёт орлом. Точно так же, как и решкой. Это распределение вероятности двух исходов броска, и, если вы внимательно прочитали это предложение, то вы уже поняли распределение Бернулли.

Несмотря на экзотические названия, распространённые распределения связаны друг с другом достаточно интуитивными и интересными способами, позволяющими легко их вспоминать и уверенно о них рассуждать. Некоторые естественно следуют, например, из распределения Бернулли. Время показать карту этих связей.

Что такое распределение вероятности. Смотреть фото Что такое распределение вероятности. Смотреть картинку Что такое распределение вероятности. Картинка про Что такое распределение вероятности. Фото Что такое распределение вероятности

Распечатайте, отрежьте по пунктирной линии и носите с собой в кошельке. Это — ваш путеводитель в стране распределений и их родственников.

Бернулли и равномерное

Вы уже встретились с распределением Бернулли выше, с двумя исходами – орлом или решкой. Представьте его теперь как распределение над 0 и 1, 0 – орёл, 1 – решка. Как уже понятно, оба исхода равновероятны, и это отражено на диаграмме. ФПР Бернулли содержит две линии одинаковой высоты, представляющие 2 равновероятных исхода: 0 и 1 соответственно.

Распределение Бернулли может представлять и неравновероятные исходы, типа броска неправильной монетки. Тогда вероятность орла будет не 0.5, а какая-то другая величина p, а вероятность решки – 1-p. Как и многие другие распределения, это на самом деле целое семейство распределений, задаваемых определёнными параметрами, как p выше. Когда будете думать «Бернулли» – думайте про «бросок (возможно, неправильной) монетки».

Отсюда весьма небольшой шаг до того, чтобы представить распределение поверх нескольких равновероятных исходов: равномерное распределение, характеризуемое плоской ФПР. Представьте правильный игральный кубик. Его исходы 1-6 равновероятны. Его можно задать для любого количества исходов n, и даже в виде непрерывного распределения.

Думайте о равномерном распределении как о «правильном игральном кубике».

Биномиальное и гипергеометрическое

Биномиальное распределение можно представить как сумму исходов тех вещей, которые следуют распределению Бернулли.

Киньте честную монету два раза – сколько раз будет орёл? Это число, подчиняющееся биномиальному распределению. Его параметры – n, число испытаний, и p – вероятность «успеха» (в нашем случае – орла или 1). Каждый бросок – распределённый по Бернулли исход, или испытание. Используйте биномиальное распределение, когда считаете количество успехов в вещах типа броска монеты, где каждый бросок не зависит от других и имеет одинаковую вероятность успеха.

Или представьте урну с одинаковым количество белых и чёрных шаров. Закройте глаза, вытащите шар, запишите его цвет и верните назад. Повторите. Сколько раз вытащился чёрный шар? Это число также подчиняется биномиальному распределению.

Эту странную ситуацию мы представили, чтобы было легче понять смысл гипергеометрического распределения. Это распределение того же числа, но в ситуации если бы мы не возвращали шары обратно. Оно, безусловно, двоюродный брат биномиального распределения, но не такое же, так как вероятность успеха изменяется с каждым вытащенным шаром. Если количество шаров достаточно велико по сравнению с количеством вытаскиваний – то эти распределения практически одинаковы, так как шанс успеха изменяется с каждым вытаскиванием крайне незначительно.

Когда где-то говорят о вытаскивании шаров из урн без возврата, практически всегда безопасно ввернуть «да, гипергеометрическое распределение», потому что в жизни я ещё не встречал никого, кто реально наполнял бы урны шарами и потом вытаскивал их и возвращал, или наоборот. У меня даже знакомых нет с урнами. Ещё чаще это распределение должно всплывать при выборе значимого подмножества некоторой генеральной совокупности в качестве выборки.

Тут может быть не очень понятно, а раз туториал и экспресс-курс для новичков — надо бы разъяснить. Генеральная совокупность — есть нечто, что мы хотим статистически оценить. Для оценки мы выбираем некоторую часть (подмножество) и производим требуемую оценку на ней (тогда это подмножество называется выборкой), предполагая, что для всей совокупности оценка будет похожей. Но чтобы это было верно, часто требуются дополнительные ограничения на определение подмножества выборки (или наоборот, по известной выборке нам надо оценить, описывает ли она достаточно точно совокупность).

Практический пример — нам нужно выбрать от компании в 100 человек представителей для поездки на E3. Известно, что в ней 10 человек уже ездили в прошлом году (но никто не признаётся). Сколько минимум нужно взять, чтобы в группе с большой вероятностью оказался хотя бы один опытный товарищ? В данном случае генеральная совокупность — 100, выборка — 10, требования к выборке — хотя бы один, уже ездивший на E3.

В википедии есть менее забавный, но более практичный пример про бракованные детали в партии.

Пуассон

Что насчёт количества заказчиков, звонящих по горячей линии в техподдержку каждую минуту? Это исход, чьё распределение на первый взгляд биномиальное, если считать каждую секунду как испытание Бернулли, в течение которой заказчик либо не позвонит (0), либо позвонит (1). Но электроснабжающие организации прекрасно знают: когда выключают электричество – за секунду могут позвонить двое или даже больше сотни людей. Представить это как 60000 миллисекундных испытаний тоже не поможет – испытаний больше, вероятность звонка в миллисекунду меньше, даже если не учитывать двух и более одновременно, но, технически – это всё ещё не испытание Бернулли. Тем не менее, срабатывает логическое рассуждение с переходом к бесконечности. Пусть n стремится к бесконечности, а p – к 0, и так, чтобы np было постоянным. Это как делить на всё более малые доли времени со всё менее малой вероятностью звонка. В пределе мы получим распределение Пуассона.

Так же, как и биномиальное, распределение Пуассона – это распределение количества: количества раз того, как что-то произойдёт. Оно параметризуется не вероятностью p и количеством испытаний n, но средней интенсивностью λ, что, в аналогии с биномиальным, просто постоянное значение np. Распределение Пуассона – то, о чём надо вспоминать, когда идёт речь о подсчёте событий за определённое время при постоянной заданной интенсивности.

Когда есть что-то, типа прихода пакетов на роутер или появления покупателей в магазине или что-то, ожидающее в очереди – думайте «Пуассон».

Геометрическое и отрицательное биномиальное

Из простых испытаний Бернулли появляется другое распределение. Сколько раз монетка выпадет решкой, прежде, чем выпасть орлом? Число решек подчиняется геометрическому распределению. Как и распределение Бернулли, оно параметризуется вероятностью успешного исхода, p. Оно не параметризуется числом n, количеством бросков-испытаний, потому что число неудачных испытаний как раз и есть исход.

Если биномиальное распределение это «сколько успехов», то геометрическое это «Сколько неудач до успеха?».

Отрицательное биномиальное распределение – простое обобщение предыдущего. Это количество неудач до того, как будет r, а не 1, успехов. Поэтому оно дополнительно параметризуется этим r. Иногда его описывают как число успехов до r неудач. Но, как говорит мой лайф-коуч: «Ты сам решаешь, что есть успех, а что — неудача», так что это тоже самое, если при этом не забыть, что вероятность p тоже должна правильной вероятностью успеха или неудачи соответственно.

Если нужна будет шутка для снятия напряжения, можно упомянуть, что биномиальное и гипергеометрическое распределение – это очевидная пара, но и геометрическое и отрицательное биномиальное так же весьма похожи, после чего заявить «Ну и кто же так их все называет, а?»

Экспоненциальное и Вейбула

Снова о звонках в техподдержку: сколько пройдёт до следующего звонка? Распределение этого времени ожидания как будто бы геометрическое, потому что каждая секунда, пока никто не звонит – это как неуспех, до секунды, пока, наконец, звонок не произойдёт. Количество неудач –это как количество секунд, пока никто не звонил, и это практически время до следующего звонка, но «практически» нам недостаточно. Суть в том, что это время будет суммой целых секунд, и, таким образом, не получится посчитать ожидание внутри этой секунды до непосредственно звонка.

Ну и, как и раньше, переходим в геометрическом распределении к пределу, относительно временных долей – и вуаля. Получаем экспоненциальное распределение, которое точно описывает время до звонка. Это непрерывное распределение, первое такое у нас, потому что исход не обязательно в целых секундах. Как и распределение Пуассона, оно параметризуется интенсивностью λ.

Повторяя связь биномиального с геометрическим, Пуассоновское «сколько событий за время?» связано с экспоненциальным «сколько до события?». Если есть события, количество которых на единицу времени подчиняется распределению Пуассона, то время между ними подчиняется экспоненциальному распределению с тем же параметром λ. Это соответствие между двумя распределениями необходимо отмечать, когда обсуждается любое из них.

Экспоненциальное распределение должно приходить на ум при размышлении о «времени до события», возможно, «времени до отказа». По факту, это такая важная ситуация, что существуют более обобщённые распределения чтобы описать наработку-на-отказ, типа распределения Вейбула. В то время, как экспоненциальное распределение подходит, когда интенсивность — износа, или отказов, например – постоянна, распределение Вейбула может моделировать увеличивающуюся (или уменьшающуюся) со временем интенсивность отказов. Экспоненциальное, в общем-то, частный случай.

Думайте «Вейбул» когда разговор заходит о наработке-на-отказ.

Нормальное, логнормальное, Стьюдента и хи-квадрат

Нормальное, или гауссово, распределение, наверное, одно из важнейших. Его колоколообразная форма узнаётся сразу. Как и e, это особенно любопытная сущность, которая проявляется везде, даже из внешне самых простых источников. Возьмите набор значений, подчиняющихся одному распределению – любому! – и сложите их. Распределение их суммы подчиняется (приблизительно) нормальному распределению. Чем больше вещей суммируется – тем ближе их сумма соответствует нормальному распределению (подвох: распределение слагаемых должно быть предсказуемым, быть независимым, оно стремится только к нормальному). То, что это так, несмотря на исходное распределение – это потрясающе.

Меня удивило, что автор не пишет про необходимость сопоставимого масштаба суммируемых распределений: если одно существенно доминирует надо остальными — сходиться будет крайне плохо. И, в общем-то, абсолютная взаимная независимость необязательна, достаточна слабая зависимость.

Ну сойдёт, наверное, для вечеринок, как он написал.

Это называется «центральная предельная теорема», и надо знать, что это, почему так названо и что означает, иначе моментально засмеют.

В её разрезе, нормальное связано со всеми распределениями. Хотя, в основном, его связывают с распределениями всяких сумм. Сумма испытаний Бернулли следует биномиальному распределению и, с увеличением количества испытаний, это биномиальное распределение становится всё ближе в нормальному распределению. Аналогично и его двоюродный брат – гипергеометрическое распределение. Распределение Пуассона – предельная форма биномиального – так же приближается к нормальному с увеличением параметра интенсивности.

Исходы, которые подчиняются логнормальному распределению, дают значения, логарифм которых нормально распределён. Или по-другому: экспонента нормально распределённого значения логнормально распределена. Если суммы – нормально распределены, то запомните так же, что произведения распределены логнормально.

t-Распределение Стьюдента – это основа t-теста, который многие нестатистики изучают в других областях. Оно используется для предположений о среднем нормального распределения и так же стремится к нормальному распределению с увеличением своего параметра. Отличительная особенность t-распределения – его хвосты, которые толще, чем у нормального распределения.

Если толстохвостый анекдот недостаточно раскачал вашего соседа – переходите в довольно забавной байке про пиво. Больше 100 лет назад Гиннесс использовал статистику, чтобы улучшить свой стаут. Тогда Вильям Сили Госсет и изобрёл полностью новую статистическую теорию для улучшенного выращивания ячменя. Госсет убедил босса, что другие пивовары не поймут, как использовать его идеи, и получил разрешение на публикацию, но под псевдонимом «Стьюдент». Самое известное достижение Госсета – как раз это самое t-распределение, которое, можно сказать, названо в честь него.

Наконец, распределение хи-квадрат – распределение сумм квадратов нормально-распределенных величин. На этом распределении построен тест хи-квадрат, который сам основан на сумме квадратов разниц, которые должны быть нормально распределены.

Гамма и бета

В этом месте, если вы уже заговорили о чём-то хи-квадратном, разговор начинается всерьёз. Вы уже, возможно, говорите с настоящими статистиками, и, наверное, стоит уже откланиваться, поскольку могут всплыть вещи типа гамма-распределения. Это обобщение и экспоненциального, и хи-квадрат распределения. Как и экспоненциальное распределение, оно используется для сложных моделей времен ожидания. Например, гамма-распределение появляется, когда моделируется время до следующих n событий. Оно появляется в машинном обучении как «сопряжённое априорное распределение» к парочке других распределений.

Не вступайте в разговор об этих сопряжённых распределениях, но если всё-таки придётся, не забудьте сказать о бета-распределении, потому что оно сопряжённое априорное к большинству упомянутых здесь распределений. Data-scientist-ы уверены, что оно именно для этого и сделано. Упомяните об этом ненароком и идите к двери.

Начало мудрости

Распределения вероятности — это то, о чём нельзя знать слишком много. По настоящему заинтересованные могут обратиться к этой супердетализированной карте всех распределений вероятности. Надеюсь, этот шуточный путеводитель даст вам уверенность казаться «в теме» в современной технокультуре. Или, по крайней мере, способ с высокой вероятностью определить, когда надо идти на менее ботанскую вечеринку.

Шон Овен – директор Data Science в Cloudera, Лондон. До Клаудеры он основал Myrrix Ltd. (сейчас проект Oryx) для коммерционализации широкомасштабных рекомендательных систем в реальном времени на Hadoop. Он так же контрибьютор Apache Spark и соавтор O’Reilly Media’s Advanced Analytics with Spark

Источник

Основы статистики для веб-аналитика: 15 типов распределения вероятностей

Это — перевод статьи из блога Cloudera. Нам очень понравилось то, как Шон Оуэн с помощью простых примерах объяснил на первый взгляд сложные вещи.

За последние пять лет статистика превратилась в востребованную и набирающую популярность науку. Чтобы при упоминании ее методов не испытывать излишней неловкости, необходимо пройти интенсивный курс по статистике. Правда, далеко не у каждого найдется для этого достаточно времени и выдержки. Если вы хотите использовать статистику в веб-аналитике, вам достаточно разобраться в общих типах распределения вероятностей.

Распределения вероятностей — это такие же основы статистики, как структуры данных в информатике. Существуют сотни типов распределений вероятностей. Однако на практике используются только около 15 из них.

Что такое распределение вероятностей?

Ситуации, за которыми скрывается данное явление, происходят в нашей жизни постоянно: катятся ли по столу игральные кости, идет ли дождь, приезжают ли автобусы. Все эти процессы в конечном итоге имеют определенные результаты: на игральных костях оказались числа 3 и 4, в виде дождя сегодня выпало около 13 мм осадков, автобус приехал через 3 минуты. До этого момента мы могли лишь предполагать о том, какими будут результаты. Распределение вероятностей описывает то, каким, по нашему мнению, может оказаться каждый из результатов. Форм может быть много, но размер всегда один: вероятности всегда сводятся к 1.

Так, подбрасывание монеты вверх приведет к двум результатам: она упадет либо «орлом», либо «решкой» (допустим, она не сможет упасть на ребро). До момента подбрасывания монеты есть 1 шанс из 2, или вероятность в 0.5, что выпадет «орел». Тоже самое верно и для «решки». Это и есть распределение вероятностей, состоящих из двух результатов. Если вы в полной мере понимаете, о чем идет речь в данном примере с монетой, то вы уже овладели распределением Бернулли.

Что такое распределение вероятности. Смотреть фото Что такое распределение вероятности. Смотреть картинку Что такое распределение вероятности. Картинка про Что такое распределение вероятности. Фото Что такое распределение вероятностиКарта взаимосвязей распределений вероятности

Эта карта — ваш справочник по определению типов распределений и отношений между ними.

Что такое распределение вероятности. Смотреть фото Что такое распределение вероятности. Смотреть картинку Что такое распределение вероятности. Картинка про Что такое распределение вероятности. Фото Что такое распределение вероятности

Каждое из распределений проиллюстрировано соответствующим примером функции плотности распределения вероятностей. В этой статье рассматриваются только те распределения результатов, которые выражаются простыми числами. На каждой клеточке горизонтальной оси отмечено возможное число результатов. Вертикальная ось описывает вероятность результатов.

Некоторые распределения являются дискретными, результаты обозначаются целыми числами, такими, как 0 или 5. На графике они показаны редкими линиями, по одной для каждого результата. Высота линии соответствует вероятности этого результата. Некоторые из линий более плотные. Они отображают результаты, идущие под любым цифровым значением — 1.32 или 0.005. Области под кривыми — это и есть вероятности. Сумма высот линий и областей под кривыми всегда равна 1.

Что такое распределение вероятности. Смотреть фото Что такое распределение вероятности. Смотреть картинку Что такое распределение вероятности. Картинка про Что такое распределение вероятности. Фото Что такое распределение вероятностиРаспределение Бернулли и равномерное распределение

Распределение Бернулли уже упоминалось выше, когда приводился пример с двумя дискретными результатами — «орлом» и «решкой». Представьте его в числах 0 и 1: «решку» обозначаем 0, а «орла» — 1 (или наоборот). Оба результата обладают одинаковой вероятностью, что и показано на графике. Плотность распределения Бернулли характеризуется двумя линиями равной высоты.

Однако распределение Бернулли также может представлять исходы событий с неравной вероятностью, что, к примеру, происходит при нечестном «укладывании» монетки при подбрасывании. В этом случае вероятность того, что выпадет «орел» не 0.5, а некая другая величина p, а вероятность «решки» составляет 1- p.

Данная зацепка позволяет сразу выделить целый ряд распределений с равновероятными исходами: дискретное равномерное распределение отличает плоская функция его плотности. Теперь представьте, что брошены игральные кости (честно). Вероятность, что выпадет или 1, или 6 одинакова. Ее можно определить любым количеством исходов n или даже как непрерывное распределение.

Что такое распределение вероятности. Смотреть фото Что такое распределение вероятности. Смотреть картинку Что такое распределение вероятности. Картинка про Что такое распределение вероятности. Фото Что такое распределение вероятностиБиномиальное и гипергеометрическое распределения

Биномиальное распределение можно определить как сумму результатов действий, рассматриваемых в рамках распределения Бернулли. Подбросьте монету вверх 20 раз: сколько раз она упадет «орлом»? Подсчет количества требуемых результатов и будет биномиальным распределением.

Здесь параметрами являются величина n — количество испытаний и p — вероятность «успеха» (в данном случае «орла», или 1). Каждый переворот монеты в воздухе — это результат, имеющий отношение к распределению Бернулли, или испытание. Здесь же можно пойти по пути биномиального распределения и подсчитать количество «успешных» результатов таких действий, как все те же перевороты монеты в воздухе, где каждый из переворотов независим и имеет одинаковую вероятность успеха.

Или, представьте лотерейный барабан, в котором находится одинаковое количество белых и черных шариков. Закройте глаза и вытащите шарик. Посмотрите, черный он или нет, а затем положите его обратно. Повторите все сначала. Сколько раз вы вытянули черный шарик? Данная величина также относится к биномиальному распределению.

При гипергеометрическом распределении величина одна и та же, разница будет состоять лишь в том, что шарики не будут складываться обратно в лотерейный барабан. Вероятность успеха здесь отличается от биномиального типа. А все потому, что шариков в барабане с каждым испытанием становится все меньше. Хотя, если количество шариков большое, а число испытаний гораздо меньше, эти распределения будут одинаковы, так как шанс успешного исхода с каждым испытанием почти не меняется.

Что такое распределение вероятности. Смотреть фото Что такое распределение вероятности. Смотреть картинку Что такое распределение вероятности. Картинка про Что такое распределение вероятности. Фото Что такое распределение вероятностиРаспределение Пуассона

Как быть в ситуации, когда нужно посчитать количество звонков, поступающих каждую минуту на телефоны горячей линии службы поддержки? На первый взгляд здесь мы имеем дело с биномиальным распределением, если рассматривать каждую секунду, как действие по Бернулли — отсутствие звонка (0), звонок (1). Но на деле, если, к примеру, в каком-то городском районе отключат свет, на телефон энергетической компании будет поступать по 2, а то и по несколько сотен звонков ежесекундно. Можно разбить минуту на 60 000 миллисекунд и считать звонки, поступающие каждую миллисекунду. Но это не поможет. Все равно звонков будет больше, и вероятность успеха в этом случае будет меньше 1. То есть, технически, это не распределение Бернулли. Давайте рассуждать логически. Пусть n стремится к бесконечности, а p к нулю, чтобы величина np оставалась одной и той же. Это как «нашинковать» время на бесконечно малые промежутки, в которые вероятность звонка представляется бесконечно малой. Предельный результат — это распределение Пуассона.

Как и в случае с биномиальным распределением, Пуассон — это распределение, моделирующее величину, которая отображает количество раз, выпадающих на какое-то событие. В нем используются не только такие параметры, как p (вероятность успеха) и n (одинаковые независимые испытания), но и средний показатель λ, который по данной аналогии представляет собой постоянную величину np. Распределение Пуассона — это то, о чем вы должны подумать при попытке подсчитать количество событий, произошедших за определенное время.

Когда данные поступают на роутеры, или покупатели приходят в магазин, или образуетсячто-то, похожее на очередь, у вас в голове должно возникать слово «Пуассон».

Что такое распределение вероятности. Смотреть фото Что такое распределение вероятности. Смотреть картинку Что такое распределение вероятности. Картинка про Что такое распределение вероятности. Фото Что такое распределение вероятностиГеометрическое и отрицательное биномиальное распределения

Простые испытания Бернулли приводят к еще одному распределению. Сколько раз монета повернется «решкой» прежде, чем впервые выпадет «орел»? Количество выпавших до этого «решек» и составит геометрическое распределение. Здесь точно так же, как и в распределении Бернулли, задействован параметр p, использующийся для обозначения вероятности успешного завершения действия. А вот числа испытаний (или переворотов, как в случае с монетой) n нет, потому что количество неудачных испытаний само по себе является результатом.

Если в биномиальном распределении основной вопрос — это «сколько испытаний были успешными?», то в геометрическом он будет звучать так: «сколько было неудачных испытаний, пока не произошло успешное?».

Отрицательное биномиальное распределение представляет собой простую генерализацию. Это количество неудачных испытаний, произошедших до наступления r количества успехов, а не всего одного успеха. То есть, появляется еще один параметр — r. Иногда можно описать данное распределение немного в другом ключе: это число успехов, случившихся до наступления r количества неудач.

Что такое распределение вероятности. Смотреть фото Что такое распределение вероятности. Смотреть картинку Что такое распределение вероятности. Картинка про Что такое распределение вероятности. Фото Что такое распределение вероятностиЭкспоненциальное распределение и распределение Вейбулла

В качестве примера вернемся к звонкам в службу поддержки клиентов: сколько времени пройдет до звонка следующего клиента? Распределение времени ожидания можно было бы отнести к геометрическому типу, так как каждая секунда без звонка может означать неудачу до того момента, когда, наконец, позвонит клиент. Число неудач будет сопоставимо с количеством секунд, в течение которых никто не позвонил, а это, другими словами, почти время ожидания следующего звонка, но, все-таки, не совсем так. Эти секунды времени будут всегда выражаться в целых числах, но в реальности из подсчета будут выпадать некоторые отрезки времени, ведь звонки будут поступать не строго по истечению одной секунды за другой, но и в доли секунд.

И опять, задайте ограничение для геометрического распределения: пусть промежутки времени будут бесконечно малыми и будут стремиться к нулю. Вот тогда это сработает. Вы получите экспоненциальное распределение, которое точно будет описывать распределение времени до момента поступления телефонного звонка. Это непрерывное распределение, первое, с которым мы сталкиваемся в статье, потому что результат, выраженный во времени, не нужно обозначать в целых секундах. Так же, как и в распределении Пуассона, здесь используется параметр λ.

По своей сути распределение Пуассона перекликается с биномиально-геометрическими отношениями. Точно так же, пуассоновский вопрос «сколько событий произошло за определенное время?» соотносится с экспоненциальным вопросом «сколько времени осталось до наступления события?». События, количество которых за определенное время моделируется по распределению Пуассона, и время между событиями, которое моделируется по экспоненциальному распределению, подчиняются одному и тому же параметру λ. Такое соответствие (и одновременно различие) между двумя типами распределений имеет существенное значение.

Нужно вспомнить об экспоненциальном распределении, если кажется, что речь идет о «времени до наступления события», которое может оказаться на самом деле «временем до не наступления события (до отказа)». Чувствовать эту разницу чрезвычайно важно. По этой причине имеются даже более общие типы распределений, которые описывают «наработку до отказа». Например, распределение Вейбулла. Экспоненциальное распределение больше подходит к той ситуации, когда, например, количество износа или отказа техники является постоянной величиной. Распределение Вейбулла моделирует увеличение (или уменьшение) величины отказов в течение какого-то времени. Экспоненциальное распределение — это просто частный случай.

Что такое распределение вероятности. Смотреть фото Что такое распределение вероятности. Смотреть картинку Что такое распределение вероятности. Картинка про Что такое распределение вероятности. Фото Что такое распределение вероятностиТипы распределений: нормальное, логарифмически-нормальное, Стьюдента и хи-квадрат

Наиболее важным среди распределений остается нормальное распределение, или распределение Гаусса. Его сразу можно узнать по кривой, напоминающей колокол. Как и e, это чрезвычайно интересная, независимая величина, которая появляется из кажущихся простыми источников. Возьмите целый набор параметров из какого-нибудь одного распределения (любого типа) и сложите их вместе. Распределение их сумм имеет нормальное распределение. Чем больше в такой сумме будет слагаемых, тем ближе эта сумма будет к нормальному распределению (важное пояснение, распределение должно быть: а) удобным для анализа, б) независимым, в) должно стремиться к нормальному распределению). Это утверждение верно во всех случаях, не важно какое из распределений имеется в виду.

Теперь мы подошли вплотную к центральной предельной теореме. Важно знать, что это такое, и как это называется, иначе в разговоре вас тут же собьют с толку.

Она соотносится со всеми распределениями. Но, если точнее, то данная теорема имеет отношение к распределениям сумм независимых случайных величин. Сумма испытаний Бернулли имеет биномиальное распределение. Так как число испытаний возрастает, биномиальное распределение становится ближе к нормальному распределению. Это верно и в отношении гипергеометрического распределения. Распределение Пуассона, как крайнее проявление биномиального, также приближается к нормальному распределению при возрастании параметра.

Результат действия, которое попадает под логнормальное распределение, описывается величинами, распределенными логарифмически-нормально. Если суммы величин нормально распределены, то помните о том, что результаты действий с величинами распределены логарифмически-нормально.

Распределение Стьюдента основывается на t-критерии Стьюдента, который изучают многие специалисты, не связанные со статистикой. Оно используется в обосновании среднего значения нормального распределения и так же приближается к нормальному распределению по мере увеличения параметра. Отличительная черта t-распределения заключается в его хвостах — они «толще», чем у нормального распределения.

И, наконец, распределение хи-квадрат, представляющее собой распределение суммы квадратов нормально распределенных величин. Оно построено вокруг критерия согласия хи-квадрат, которое, в свою очередь, базируется на сумме квадратов разностей, которые, как предполагается, должны быть нормально распределены.

Что такое распределение вероятности. Смотреть фото Что такое распределение вероятности. Смотреть картинку Что такое распределение вероятности. Картинка про Что такое распределение вероятности. Фото Что такое распределение вероятностиГамма и бета распределения

Гамма распределение — не что иное, как генерализация и экспоненциального, и хи-квадратного распределения. Со стороны экспоненциального распределения оно используется в качестве усложненной модели периодов ожидания. Например, можно говорить о гамма распределении при моделировании времени до момента наступления следующих n-событий.

Ни в коем случае не развивайте эту тему дальше! Однако если вы уже в это влипли, то постарайтесь медленно перевести разговор на бета-распределение, потому что «бета» априори сопряжена практически с любым из распределений, которые упоминаются в этой статье. А вообще, все эти заморочки как раз и созданы специально для того, чтобы статистикам было чем заниматься. Между делом выскажите эту мысль и тут же шагайте к выходу.Там, где начинается мудрость

Распределения вероятностей — это тема, которую невозможно изучить вдоль и поперек. Если ваш интерес еще не испарился, советуем вам ознакомиться с очень подробной картой всех одномерных распределений. Мы надеемся, что это руководство поможет вам сохранить лицо в суровом технологическом мире и не вызвать шквал критики со стороны продвинутых в вопросах статистики коллег. Или же, прочитав и усвоив материал, изложенный в этой статье, вы, по крайней мере, научитесь с большой степенью вероятности выбирать для себя наименее нудные вечеринки.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *