Что такое выборочное распределение
ВЫБОРОЧНЫЕ РАСПРЕДЕЛЕНИЯ
Одна из целей выборки состоит в том, чтобы получить оценки различных параметров, такие, как средняя, стандартное отклонение или доля определенных единиц. Для оценки неизвестных значений этих параметров используются выборочные статистики. Нам нужно знать, как статистики могут быть использованы наилучшим образом для оценивания и какова надежность оценок, полученных таким образом.
Предположим, что выборка, полученная как простая случайная выборка, произведена много раз. Хотя каждый раз производится случайный отбор, конкретные результаты различаются. Большое значение имеют вероятностные распределения выборочных статистики, которые мы используем. Эти распределения могут быть сконструированы в принципе так, как было описано выше.
Мы произвели выборку объема а единиц из совокупности объема N. Для этой выборки мы определим значение статистики, соответствующее тому параметру, в оценке которого мы заинтересованы.
Произведем вторую выборку того же размера и определим ту же статистику, что и прежде. Скорее всего численные значения статистики в двух выборках будут различными. Если мы затем произведем третью и четвертую выборки того же размера, то получим еще одни значения статистики. Однако если мы будем продолжать производить дальнейшие выборки, то некоторые значения статистики будут повторяться. Продолжая производить все возможные выборки размером п единиц из нашей совокупности, в результате мы сможем построить частотное распределение для полученных значений статистики. Соответствующее относительное частотное распределение является вероятностным распределением статис-
120 Ч. 2. Анализ данных как составная часть принятия решений
тики. Это частотное распределение выборочной статистики называется выборочным распределением.
Например, если мы произведем все возможные выборки размером п = 5 единиц из совокупности 50 единиц, то будем иметь 2118760 различных выборок. (Это вычисляется как число комбинаций, потому что нас не интересует порядок, в котором производится отбор).
Для каждой выборки в 5 единиц мы вычисляем выборочную среднюю и выборочное стандартное отклонение. Частотное распределение всех 2118760 выборочных средних представляет выборочное распределение средних выборок по 5 единиц из этой совокупности. Точно также получение всех выборочных стандартных отклонений дает выборочное распределение выборочных стандартных отклонений для выборок размером 5 единиц из совокупности. Если 50 единиц могут быть разделены, например, на хорошие и плохие, тогда можно вычислить долю хороших единиц в каждой выборке из 5 единиц и получить графики выборочного распределения выборочных долей хороших единиц. Каждое из этих распределений будет отличным. Формы будут зависеть от совокупности, размера выборки и от статистики, которую мы измеряем. Пример, приведенный ниже, иллюстрирует сказанное для совсем малой совокупности.
С2 = 15 различных выборок.
Таблица 4.1. Выборочныесредние, п-2
Возможные выборки размера п = 2 | Выборочная средняя х х = (х, +xJ/2 | Возможные выборки размера п = 2 | Выборочная средняя х х = (xt +xJ/2 |
4, 8 | 8,24 | ||
4, 12 | 12, 16 | ||
4, 16 | 12,20 | ||
4, 20 | 12,24 | ||
4, 24 | 16,20 | ||
8, 12 | 16,24 | ||
8, 16 | 20, 24 | ||
8,20 |
Гл. 4. Выборка и выборочные распределения
Получаем выборочное распределение средних этих выборок:
Таблица 4.2. Выборочное распределение
Выборочная средняя, х размер выборки п = 2 | Частота, f |
Итого |
Хотя выборочное распределение могло бы быть построено для любой статистики, ниже будет показано, что два из них наиболее полезны — выборочно^ распределение выборочных средних и выборочное распределение выборочных дисперсий.
Статистическая процедура, которая рассматривается в следующих главах, направлена на установление связей между выборочным распределен** ем и генеральной совокупностью. В этой книге мы не пытаемся дать полное теоретическое обоснование этих соотношений, однако, выборка позволяет сделать те заключения, которые нам необходимо использовать. Как только соотношение между выборочным распределением и генеральной совокупностью установлено в целом, м*» 1 можем взять одну единственную выборку и использовать выведенное соотношение для того, чтобы сделать заключение о неизвестной генеральной совокупности, из которой эта выборка была взята. Во всех случаях мы предполагаем, что генеральная совокупность является нормальной или приблизительно нормальной и что требуемые выборочные статистики известны. Таким образом мы можем, например, определить, что генеральная средняя ц вероятно равна какому-то значению или то, что она лежит в определенных пределах, которые мы ожидаем с учетом ее дисперсии о
Выборочное распределение
Опубликовано 22.06.2021 · Обновлено 22.06.2021
Что такое Выборочное распределение?
Краткая справка
Понимание распределения выборки
Многие данные, собранные и используемые академиками, статистиками, исследователями, маркетологами, аналитиками и т. Д., На самом деле являются выборками, а не совокупностями. Выборка – это подмножество населения. Например, медицинский исследователь, который хотел сравнить средний вес всех детей, родившихся в Северной Америке с 1995 по 2005 год, с теми, кто родился в Южной Америке в течение того же периода времени, не может в разумные сроки получить данные для всего населения более миллиона родов, произошедших за десятилетний период. Вместо этого он будет использовать вес, скажем, 100 младенцев на каждом континенте, чтобы сделать вывод. В качестве выборки использовался вес 200 младенцев, а рассчитанный средний вес – это среднее значение выборки.
Теперь предположим, что вместо того, чтобы брать только одну выборку из 100 новорожденных с массой тела с каждого континента, медицинский исследователь берет повторяющиеся случайные выборки из общей популяции и вычисляет среднее значение выборки для каждой группы выборки. Итак, для Северной Америки он извлекает данные о 100 весах новорожденных, зарегистрированных в США, Канаде и Мексике, следующим образом: четыре 100 образца из избранных больниц США, пять 70 образцов из Канады и три 150 записей из Мексики, в сумме 1200 гирь новорожденных, сгруппированных в 12 наборов. Он также собирает выборочные данные о 100 весах при рождении из каждой из 12 стран Южной Америки.
Краткая справка
Каждая выборка имеет собственное выборочное среднее, и распределение выборочных средних известно как выборочное распределение.
Знание того, насколько различаются средние значения каждого из наборов выборок друг от друга и от среднего значения генеральной совокупности, даст представление о том, насколько близко среднее значение выборки к среднему значению совокупности. Стандартная ошибка распределения выборки уменьшается с увеличением размера выборки.
Особые соображения
Следуя нашему примеру, средний вес детей в популяции в Северной Америке и Южной Америке имеет нормальное распределение, потому что некоторые дети будут иметь недостаточный вес (ниже среднего) или избыточный (выше среднего), при этом большинство младенцев попадают в промежуточное положение (около среднего). ). Если средний вес новорожденных в Северной Америке составляет семь фунтов, средний вес выборки в каждом из 12 наборов выборочных наблюдений, зарегистрированных для Северной Америки, также будет близок к семи фунтам.
Однако если вы построите график каждого из средних значений, рассчитанных в каждой из 1200 групп выборок, полученная форма может привести к равномерному распределению, но трудно с уверенностью предсказать, какой окажется фактическая форма. Чем больше выборок использует исследователь из населения, насчитывающего более миллиона весовых фигур, тем больше график начнет формировать нормальное распределение.
Что такое выборочное распределение
1. Задачи математической статистики.
4. Статистическое распределение выборки.
5. Эмпирическая функция распределения.
6. Полигон и гистограмма.
7. Числовые характеристики вариационного ряда.
8. Статистические оценки параметров распределения.
9. Интервальные оценки параметров распределения.
1. Задачи и методы математической статистики
Пусть требуется изучить совокупность однородных объектов относительно некоторого качественного или количественного признака, характеризующего эти объекты. Например, если имеется партия деталей, то качественным признаком может служить стандартность детали, а количественным- контролируемый размер детали.
Иногда проводят сплошное исследование, т.е. обследуют каждый объект относительно нужного признака. На практике сплошное обследование применяется редко. Например, если совокупность содержит очень большое число объектов, то провести сплошное обследование физически невозможно. Если обследование объекта связано с его уничтожением или требует больших материальных затрат, то проводить сплошное обследование не имеет смысла. В таких случаях случайно отбирают из всей совокупности ограниченное число объектов (выборочную совокупность) и подвергают их изучению.
Основная задача математической статистики заключается в исследовании всей совокупности по выборочным данным в зависимости от поставленной цели, т.е. изучение вероятностных свойств совокупности: закона распределения, числовых характеристик и т.д. для принятия управленческих решений в условиях неопределенности.
Генеральная совокупность – это совокупность объектов, из которой производится выборка.
Выборочная совокупность (выборка) – это совокупность случайно отобранных объектов.
Если из 1000 деталей отобрано для обследования 100 деталей, то объем генеральной совокупности N = 1000, а объем выборки n = 100.
При составлении выборки можно поступить двумя способами: после того, как объект отобран и над ним произведено наблюдение, он может быть возвращен либо не возвращен в генеральную совокупность. Т.о. выборки делятся на повторные и бесповторные.
Повторной называют выборку, при которой отобранный объект (перед отбором следующего) возвращается в генеральную совокупность.
Бесповторной называют выборку, при которой отобранный объект в генеральную совокупность не возвращается.
На практике обычно пользуются бесповторным случайным отбором.
Для того, чтобы по данным выборки можно было достаточно уверенно судить об интересующем признаке генеральной совокупности, необходимо, чтобы объекты выборки правильно его представляли. Выборка должна правильно представлять пропорции генеральной совокупности. Выборка должна быть репрезентативной (представительной).
В силу закона больших чисел можно утверждать, что выборка будет репрезентативной, если ее осуществлять случайно.
Если объем генеральной совокупности достаточно велик, а выборка составляет лишь незначительную часть этой совокупности, то различие между повторной и бесповторной выборками стирается; в предельном случае, когда рассматривается бесконечная генеральная совокупность, а выборка имеет конечный объем, это различие исчезает.
В американском журнале «Литературное обозрение» с помощью статистических методов было проведено исследование прогнозов относительно исхода предстоящих выборов президента США в 1936 году. Претендентами на этот пост были Ф.Д. Рузвельт и А. М. Ландон. В качестве источника для генеральной совокупности исследуемых американцев были взяты справочники телефонных абонентов. Из них случайным образом были выбраны 4 миллиона адресов., по которым редакция журнала разослала открытки с просьбой высказать свое отношение к кандидатам на пост президента. Обработав результаты опроса, журнал опубликовал социологический прогноз о том, что на предстоящих выборах с большим перевесом победит Ландон. И … ошибся: победу одержал Рузвельт.
Этот пример можно рассматривать, как пример нерепрезентативной выборки. Дело в том, что в США в первой половине двадцатого века телефоны имела лишь зажиточная часть населения, которые поддерживали взгляды Ландона.
На практике применяются различные способы отбора, которые можно разделить на 2 вида:
1. Отбор не требует расчленения генеральной совокупности на части (а) простой случайный бесповторный; б) простой случайный повторный).
2. Отбор, при котором генеральная совокупность разбивается на части. (а) типичный отбор; б) механический отбор; в) серийный отбор).
Простым случайным называют такой отбор, при котором объекты извлекаются по одному из всей генеральной совокупности (случайно).
Типичным называют отбор, при котором объекты отбираются не из всей генеральной совокупности, а из каждой ее «типичной» части. Например, если деталь изготавливают на нескольких станках, то отбор производят не из всей совокупности деталей, произведенных всеми станками, а из продукции каждого станка в отдельности. Таким отбором пользуются тогда, когда обследуемый признак заметно колеблется в различных «типичных» частях генеральной совокупности.
Механическим называют отбор, при котором генеральную совокупность «механически» делят на столько групп, сколько объектов должно войти в выборку, а из каждой группы отбирают один объект. Например, если нужно отобрать 20 % изготовленных станком деталей, то отбирают каждую 5-ую деталь; если требуется отобрать 5 % деталей- каждую 20-ую и т.д. Иногда такой отбор может не обеспечивать репрезентативность выборки (если отбирают каждый 20-ый обтачиваемый валик, причем сразу же после отбора производится замена резца, то отобранными окажутся все валики, обточенные затупленными резцами).
Серийным называют отбор, при котором объекты отбирают из генеральной совокупности не по одному, а «сериями», которые подвергают сплошному обследованию. Например, если изделия изготавливаются большой группой станков-автоматов, то подвергают сплошному обследованию продукцию только нескольких станков.
На практике часто применяют комбинированный отбор, при котором сочетаются указанные выше способы.
4. Статистическое распределение выборки
Если количество вариант велико или выборка производится из непрерывной генеральной совокупности, то вариационный ряд составляется не по отдельным точечным значениям, а по интервалам значений генеральной совокупности. Такой вариационный ряд называется интервальным. Длины интервалов при этом должны быть равны.
Статистическим распределением выборки называется перечень вариант и соответствующих им частот или относительных частот.
Статистическое распределение можно задать также в виде последовательности интервалов и соответствующих им частот (суммы частот, попавших в этот интервал значений)
Точечный вариационный ряд частот может быть представлен таблицей:
Конспект курса «Основы статистики»
1. Введение
Способы формирования репрезентативной выборки:
Простая случайная выборка (simple random sample)
Стратифицированная выборка (stratified sample)
Групповая выборка (cluster sample)
Типы переменных:
непрерывные (рост в мм)
дискретные (количество публикаций у учёного)
Ранговые (успеваемость студентов)
Гистограмма частот:
Позволяет сделать первое впечатление о форме распределения некоторого количественного признака.
Описательные статистики:
Меры центральной тенденции (узкий диапазон, высокие значения признака):
( используется для среднего значения из выборки, а для генеральной совокупности латинская буква
)
Свойства среднего:
Если к каждому значению выборки прибавить определённое число, то и среднее значение увеличится на это число.
Если к каждому значению выборки прибавить определённое число, то и среднее значение увеличится на это число.
Если для каждого значения выборки, рассчитать такой показатель как его отклонение от среднего арифметического, то сумма этих отклонений будет равняться нулю.
Меры изменчивости (широкий диапазон, вариативность признака):
При добавлении сильно отличающегося значения данные меняются сильно и могут быть некорректные.
Дисперсия генеральной совокупности:
(среднеквадратическое отклонение генеральной совокупности)
(среднеквадратическое отклонение выборки)
Свойства дисперсии:
Квартили распределения и график box-plot
Нормальное распределение
Отклонения наблюдений от среднего подчиняются определённому вероятностному закону.
Стандартизация
Правило «двух» и «трёх» сигм
Центральная предельная теорема
Есть признак, распределенный КАК УГОДНО* с некоторым средним и некоторым стандартным отклонением. Тогда, если выбирать из этой совокупности выборки объема n, то их средние тоже будут распределены нормально со средним равным среднему признака в ГС и стандартным отклонением .
30″ alt=»SE = \frac
Доверительные интервалы для среднего
Доверительный интервал является показателем точности измерений. Это также показатель того, насколько стабильна полученная величина, то есть насколько близкую величину (к первоначальной величине) вы получите при повторении измерений (эксперимента).
Идея статистического вывода
2. Сравнение средних
T-распределение
Если число наблюдений невелико и \sigma неизвестно (почти всегда), используется распределение Стьюдента (t-distribution).
Унимодально и симметрично, но: наблюдения с большей вероятностью попадают за пределы от
«Форма» распределения определяется числом степеней свободы ().
С увеличением числа распределение стремится к нормальному.
t-распределение используется не потому что у нас маленькие выборки, а потому что мы не знаем стандартное отклонение в генеральной совокупности.
Сравнение двух средних; t-критерий Стьюдента
Критерий, который позволяет сравнивать средние значения двух выборок между собой, называется t-критерий Стьюдента.
Условия для корректности использования t-критерия Стьюдента:
Две независимые группы
Формула стандартной ошибки среднего:
Формула числа степеней свободы:
Формула t-критерия Стьюдента:
Переход к p-критерию:
Проверка распределения на нормальность, QQ-Plot
Однофакторный дисперсионный анализ
Часто в исследованиях необходимо сравнить несколько групп между собой. В таком случае применятся однофакторный дисперсионный анализ.
Группы:
Нулевая гипотеза:
Альтернативная гипотеза:
Среднее значение всех наблюдений:
Общая сумма квадратов (Total sum of sqares):
Показатель, который характеризует насколько высока изменчивость данных, без учёта разделения их на группы.
Число степеней свободы:
— Межгрупповая сумма квадратов (Sum of sqares between groups)
— Внутригрупповая сумма квадратов (Sum of sqares within groups)
F-значение (основной статистический показатель дисперсионного анализа):
При делении значения межгрупповой суммы квадратов на число степеней свободы, полученный показатель усредняется.
Поэтому формула F-значения часто записывается:
Множественные сравнения в ANOVA
Проблема множественных сравнений:
Поправка Бонферрони
Самый простой (и консервативный) метод: P-значения умножаются на число выполненных сравнений.
Критерий Тьюки
Критерий Тьюки используется для проверки нулевой гипотезы против альтернативной гипотезы
, где индексы
и
обозначают любые две сравниваемые группы.
Указанные сравнения выполняются при помощи критерия Тьюки, который представляет собой модифицированный критерий Стьюдента:
где — рассчитываемая в ходе дисперсионного анализа внутригрупповая дисперсия.
Многофакторный ANOVA
При применении двухфакторного дисперсионного анализа исследователь проверяет влияние двух независимых переменных (факторов) на зависимую переменную. Может быть изучен также эффект взаимодействия двух переменных.
Исследуемые группы называют эффектами обработки. Схема двухфакторного дисперсионного анализа имеет несколько нулевых гипотез: одна для каждой независимой переменной и одна для взаимодействия.
Условия применения двухмерного дисперсионного анализа:
Генеральные совокупности, из которых извлечены выборки, должны быть нормально распределены.
Выборки должны быть независимыми.
Дисперсии генеральных совокупностей, из которых извлекались выборки, должны быть равными.
Группы должны иметь одинаковый объем выборки.
АБ тесты и статистика
3. Корреляция и регрессия
Понятие корреляции
Коэффициент корреляции – это статистическая мера, которая вычисляет силу связи между относительными движениями двух переменных.
Принимает значения [-1, 1]
— показатель силы и направления взаимосвязи двух количественных переменных.
Знак коэффициента корреляции показывает направление взаимосвязи.
Коэффициент детерминации
— показывает, в какой степени дисперсия одной переменной обусловлена влиянием другой переменной.
Равен квадрату коэффициента корреляции.
Принимает значения [0, 1]
Условия применения коэффициента корреляции
Для применения коэффициента корреляции Пирсона, необходимо соблюдать следующие условия:
Сравниваемые переменные должны быть получены в интервальной шкале или шкале отношений.
Распределения переменных и
должны быть близки к нормальному.
Число варьирующих признаков в сравниваемых переменных и
должно быть одинаковым.
Коэффициент корреляции Спирмена
Регрессия с одной независимой переменной
Уравнение прямой:
— (intersept) отвечает за то, где прямая пересекает ось y.
— (slope) отвечает за направление и угол наклона, образованный с осью x.
Метод наименьших квадратов
Формула нахождения остатка:
— остаток
— реальное значение
— значение, которое предсказывает регрессионная прямая
Сумма квадратов всех остатков:
Параметры линейной регрессии:
Гипотеза о значимости взаимосвязи и коэффициент детерминации
Коэффициенты линейной регрессии
Коэффициенты регрессии (β) — это коэффициенты, которые рассчитываются в результате выполнения регрессионного анализа. Вычисляются величины для каждой независимой переменной, которые представляют силу и тип взаимосвязи независимой переменной по отношению к зависимой.
Коэффициент детерминации
— доля дисперсии зависимой переменной (Y), объясняем регрессионной моделью.
— сумма квадратов остатков
— сумма квадратов общая
Условия применения линейной регрессии с одним предиктором
Линейная взаимосвязь и
Нормальное распределение остатков
Регрессионный анализ с несколькими независимыми переменными
Множественная регрессия (Multiple Regression)
Множественная регрессия позволяет исследовать влияние сразу нескольких независимых переменных на одну зависимую.
Требования к данным
линейная зависимость переменных
нормальное распределение остатков
проверка на мультиколлинеарность
нормальное распределение переменных (желательно)