Что такое достоверность выборки
Выборка. Типы выборок. Расчет ошибки выборки
Калькуляторы
Генеральная совокупность
Суммарная численность объектов наблюдения (люди, домохозяйства, предприятия, населенные пункты и т.д.), обладающих определенным набором признаков (пол, возраст, доход, численность, оборот и т.д.), ограниченная в пространстве и времени. Примеры генеральных совокупностей
Выборка (Выборочная совокупность)
Часть объектов из генеральной совокупности, отобранных для изучения, с тем чтобы сделать заключение обо всей генеральной совокупности. Для того чтобы заключение, полученное путем изучения выборки, можно было распространить на всю генеральную совокупность, выборка должна обладать свойством репрезентативности.
Репрезентативность выборки
Свойство выборки корректно отражать генеральную совокупность. Одна и та же выборка может быть репрезентативной и нерепрезентативной для разных генеральных совокупностей.
Пример:
В то же время, указанные выборки (при соблюдении прочих условий) могут отлично репрезентировать москвичей-автовладельцев, небольшие и средние российские предприятия и покупателей, совершающих покупки на рынках соответственно.
Важно понимать, что репрезентативность выборки и ошибка выборки – разные явления. Репрезентативность, в отличие от ошибки никак не зависит от размера выборки.
Пример:
Как бы мы не увеличивали количество опрошенных москвичей-автовладельцев, мы не сможем репрезентировать этой выборкой всех москвичей.
Ошибка выборки (доверительный интервал)
Отклонение результатов, полученных с помощью выборочного наблюдения от истинных данных генеральной совокупности.
Ошибка выборки бывает двух видов – статистическая и систематическая. Статистическая ошибка зависит от размера выборки. Чем больше размер выборки, тем она ниже.
Пример:
Для простой случайной выборки размером 400 единиц максимальная статистическая ошибка (с 95% доверительной вероятностью) составляет 5%, для выборки в 600 единиц – 4%, для выборки в 1100 единиц – 3% Обычно, когда говорят об ошибке выборки, подразумевают именно статистическую ошибку.
Систематическая ошибка зависит от различных факторов, оказывающих постоянное воздействие на исследование и смещающих результаты исследования в определенную сторону.
Пример:
В некоторых случаях, когда известны истинные распределения, систематическую ошибку можно нивелировать введением квот или перевзвешиванием данных, но в большинстве реальных исследований даже оценить ее бывает достаточно проблематично.
Типы выборок
Выборки делятся на два типа:
1. Вероятностные выборки
1.1 Случайная выборка (простой случайный отбор)
Такая выборка предполагает однородность генеральной совокупности, одинаковую вероятность доступности всех элементов, наличие полного списка всех элементов. При отборе элементов, как правило, используется таблица случайных чисел.
1.2 Механическая (систематическая) выборка
Разновидность случайной выборки, упорядоченная по какому-либо признаку (алфавитный порядок, номер телефона, дата рождения и т.д.). Первый элемент отбирается случайно, затем, с шагом ‘n’ отбирается каждый ‘k’-ый элемент. Размер генеральной совокупности, при этом – N=n*k
1.3 Стратифицированная (районированная)
Применяется в случае неоднородности генеральной совокупности. Генеральная совокупность разбивается на группы (страты). В каждой страте отбор осуществляется случайным или механическим образом.
1.4 Серийная (гнездовая или кластерная) выборка
При серийной выборке единицами отбора выступают не сами объекты, а группы (кластеры или гнёзда). Группы отбираются случайным образом. Объекты внутри групп обследуются сплошняком.
2.Невероятностные выборки
Отбор в такой выборке осуществляется не по принципам случайности, а по субъективным критериям – доступности, типичности, равного представительства и т.д..
2.1. Квотная выборка
Изначально выделяется некоторое количество групп объектов (например, мужчины в возрасте 20-30 лет, 31-45 лет и 46-60 лет; лица с доходом до 30 тысяч рублей, с доходом от 30 до 60 тысяч рублей и с доходом свыше 60 тысяч рублей) Для каждой группы задается количество объектов, которые должны быть обследованы. Количество объектов, которые должны попасть в каждую из групп, задается, чаще всего, либо пропорционально заранее известной доле группы в генеральной совокупности, либо одинаковым для каждой группы. Внутри групп объекты отбираются произвольно. Квотные выборки используются в маркетинговых исследованиях достаточно часто.
2.2. Метод снежного кома
Выборка строится следующим образом. У каждого респондента, начиная с первого, просятся контакты его друзей, коллег, знакомых, которые подходили бы под условия отбора и могли бы принять участие в исследовании. Таким образом, за исключением первого шага, выборка формируется с участием самих объектов исследования. Метод часто применяется, когда необходимо найти и опросить труднодоступные группы респондентов (например, респондентов, имеющих высокий доход, респондентов, принадлежащих к одной профессиональной группе, респондентов, имеющих какие-либо схожие хобби/увлечения и т.д.)
2.3 Стихийная выборка
Опрашиваются наиболее доступные респонденты. Типичные примеры стихийных выборок – опросы в газетах/журналах, анкеты, отданные респондентам на самозаполнение, большинство интернет-опросов. Размер и состав стихийных выборок заранее не известен, и определяется только одним параметром – активностью респондентов.
2.4 Выборка типичных случаев
Отбираются единицы генеральной совокупности, обладающие средним (типичным) значением признака. При этом возникает проблема выбора признака и определения его типичного значения.
Курс лекций по теории статистики
Калькулятор расчета ошибки и размера выборки (для простой случайной выборки)
Пояснения к полям:
Доверительная вероятность
Вероятность того, что доверительный интервал накроет неизвестное истинное значение параметра, оцениваемого по выборочным данным. В практике исследований чаще всего используют 95%-ую доверительную вероятность
Ошибка выборки (доверительный интервал)
Интервал, вычисленный по выборочным данным, который с заданной вероятностью (доверительной) накрывает неизвестное истинное значение оцениваемого параметра распределения.
Доля признака
Ожидаемая доля признака, для которого рассчитывается ошибка. В случае, если данные о доле признака отсутствуют, необходимо использовать значение равное 50, при котором достигается максимальная ошибка.
Калькулятор расчета статистической значимости различий
Оставить свои комментарии по затронутой теме Вы можете на наших страницах в Facebook и Вконтакте.
Выборка в социологическом исследовании или как получать достоверную информацию быстро и надежно (часть 2)
Авторы статьи — А.М. Степанов, социолог отдела аналитических и социологических исследований, М.В. Иванов, начальник отдела аналитических и социологических исследований МАУ «ИРСИ».
Параметры расчета выборочной совокупности
Вне зависимости от метода расчета выборки нужно помнить о ключевых параметрах, влияющих на объем выборочной совокупности. Таких параметров мы выделим три – это общий объём, однородность и абсолютная ошибка.
Общий объем генеральной совокупности. Чем больше изучаемая генеральная совокупность, тем больший объем выборки нам может понадобиться для репрезентативного исследования. Однако это утверждение касается лишь определенного числового диапазона! Увеличение выборки идет не пропорционально увеличению генеральной совокупности. Ведь если речь пойдет о генеральной совокупности как о малочисленной величине, исчисляемой десятками и сотнями единиц, то целесообразно предположить, что чем больше будет объем выборки, тем точнее данные. В идеале можно и нужно стремиться, чтобы в таком случае выборка составляла не менее 50%, а то и 2/3 изучаемой генеральной совокупности. Если же (а чаще всего это так и есть) мы имеем дело с генеральными совокупностями, исчисляемыми десятками, сотнями тысяч и миллионами (например, население крупного города, региона, страны), то, конечно же, мы не будем опрашивать ни 50%, ни 25%, ни 10%. Нам понадобится значительно меньшее число участников опроса (респондентов). Стоит отметить, что при сравнении выборки при объеме генеральной совокупности в 100 тысяч и 1 миллион человек, разница в объеме выборки может составить всего несколько десятков респондентов (см. таблицу).
+ В этих случаях достаточным будет более 50% от объема выборки.
Источник: Мангейм Дж.Б., Рич Р.К. Политология: Методы исследования. – М., 1997. С.517.
Однородность генеральной совокупности. В данном случае речь идёт об однородности признаков у единиц генеральной совокупности. То есть чем более схожи между собой единицы генеральной совокупности, тем меньше потребуется объем выборки для представления репрезентативных результатов исследования. Причем под однородностью рассматриваемых признаков мы можем понимать и социально-демографические характеристики (пол, возраст, уровень образования, район проживания, социальное положение), ценностные и социально-политические ориентации, культурно-языковые различия, материальный достаток и т.д.
Размер ошибки (погрешности) выборки. Задачи и характер исследования определяют допустимый размер погрешности полученных данных. Самым оптимальным и часто используемым вариантом при расчете выборки является ошибка в 5%, она позволяет получить данные с высокой степенью репрезентативности и при этом не затратить много ресурсов на опрос излишнего числа респондентов. Для прикладного исследования нормальной будет выборка с ошибкой 4–5%. Ошибка выборки, рассчитываемой ВЦИОМ, ФОМ (для федеральных исследований), находится на уровне не ниже 2,5%. Стандартные выборки МАУ ИРСИ по г. Ярославлю обеспечивает ошибку выборки в диапазоне от 3,6 до 4,8%. Если говорить простым языком о том, что собой представляет ошибка выборки в 5%, то можно представить, что в случае проведения 100 одинаковых исследований по одной и той же теме и с одинаковым объемом выборки в 95 случаях из 100 результаты исследования будут совпадать с мнением всей генеральной совокупности. Однако в определенных случаях требуется снижение ошибки выборки, которое чаще всего производится посредством наращивания объема выборочной совокупности.
В зависимости от имеющихся ресурсов и задач исследования для формирования выборки существует несколько способов. В первую очередь нужно понимать, что отбор единиц в выборочную совокупность может происходить как случайным образом, так и неслучайным. Случайной или вероятностной выборкой можно назвать только ту выборочную совокупность, в которой соблюдается принцип равной вероятности для каждой единицы генеральной совокупности попасть в выборку. Такой способ формирования выборки наиболее актуален для небольшого объема генеральной совокупности, поскольку при изучении больших групп принцип равной вероятности для всех элементов генеральной совокупности соблюсти крайне затруднительно или нецелесообразно, с точки зрения высоких затрат ресурсов. Для соблюдения принципа равной вероятности случайной выборки зачастую используют механический отбор, такой отбор возможен только при наличии полного списка единиц генеральной совокупности, которые можно упорядочить по определенному признаку. В рамках механического отбора из списка выбирается случайным образом первый элемент, который служит отправной точкой, и каждый последующий выбирается через определенный шаг. Размер шага определяется частным размера генеральной совокупности и размера предполагаемой выборки K(шаг) = N(генеральная совокупность)/n(выборочная совокупность).
Другим способом для соблюдения принципа случайности в выборке может быть стратифицированный (районированный) отбор. Данный метод полезен в случае неоднородной генеральной совокупности и подразумевает разделение единиц генеральной совокупности, на более мелкие группы по определенным признакам. Внутри каждой выделенной группы производится отбор единиц в выборочную совокупность случайным образом или при помощи механического отбора. Наиболее корректно использовать этот метод в том случае, когда в результате разделения на группы по выбранным признакам внутри каждой группы образуется небольшое количество единиц, или когда существует полный список единиц каждой выделенной группы, что позволяет в дальнейшем отборе соблюсти принцип равной возможности для каждой единицы попасть в выборку.
Кластерный (гнездовой) отбор является еще одним методом при формировании случайной выборки, в рамках данного метода производиться случайным образом отбор целых групп (кластеров) из генеральной совокупности. Впоследствии производится отбор единиц из кластеров в выборочную совокупность, в зависимости от объема кластера это могут быть как и все единицы кластера, так и часть из них, отобранная случайным образом. Например, в случае отбора по территориальному признаку кластером могут служить населенные пункты, отобранные в случайном порядке. В зависимости от количества населения производится опрос всех жителей или только жителей, отобранных случайным образом. При наличии полного списка единиц в каждом кластере возможен отбор единиц с применением механического отбора.
В исследованиях, где в качестве генеральной совокупности выступают тысячи или даже миллионы людей, наиболее удобно использовать выборки с неслучайным отбором, где отбор производится по заранее заготовленной схеме или стихийным образом. Стихийная выборка подразумевает опрос по принципу «всех подряд» из наиболее доступных респондентов. Здесь, как правило, производится опрос наиболее удобных для интервьюера респондентов. Зачастую стихийная выборка страдает слабой репрезентативностью по причине несоответствия некоторых признаков выборочной совокупности признакам генеральной. Происходит это вследствие упущения в ходе исследования некоторых значимых категорий респондентов, которые являются труднодоступными для интервьюера. Поэтому данный способ формирования выборки может использоваться в условиях ограниченности ресурсов.
Наиболее предпочтительным выглядит вариант с использованием квотной выборки. Суть данного метода сводится к тому, чтобы выделить несколько интересующих социальных групп по признакам, обусловленным задачами исследования. Далее необходимо рассчитать объем респондентов для опроса в каждой группе, то есть объем квоты для каждой группы, руководствуясь сохранением пропорций признаков генеральной совокупности в выборке. На примере гендерной характеристики можем представить, что если в генеральной совокупности соотношение женщин и мужчин 55% на 45%, то именно такое же соотношение женщин и мужчин должно быть в рамках выборочной совокупности.
Аналогичным образом составляются квоты и по другим признакам. Целью данного подхода является максимальное повторение в рамках выборки свойств и особенностей генеральной совокупности. Иногда для упрощения поиска респондентов, подходящих под критерии отбора, может использоваться метод «снежного кома». Особенность «снежного кома» во многом объясняется названием метода и подразумевает поиск контактов подходящих для опроса людей у респондентов, уже участвовавших в опросе. Как правило, это выглядит следующим образом: по завершении опроса интервьюер интересуется у респондента, нет ли среди его друзей и знакомых, подходящих под параметры исследования, и просит дать контакты подходящих людей. Данная процедура повторяется до тех пор, пока не будет опрошено необходимое количество респондентов. Основной минус данного метода отбора респондентов заключается в предъявлении высоких требований к коммуникативным навыкам интервьюеров, поскольку контакты родственников и друзей являются персональными данными, и многие респонденты отказываются их давать, особенно если интервьюеру не удается расположить собеседника к себе.
Еще одним методом отбора для построения неслучайной выборки является метод основного массива, который подразумевает отбор единиц, имеющих наибольшую удельную значимость, по мнению исследователя; и если существует возможность, то отбирается абсолютное большинство единиц из генеральной совокупности. Данный метод может быть полезен, когда объектом для изучения являются узкая категория людей, специалисты той или иной отрасли. В случае необходимости проведения опроса, например среди медработников в регионе, отбирается несколько наиболее крупных медицинских учреждений как имеющих наибольший вес, и проводится опрос медработников данных учреждений. Но если количество медучреждений не столь велико, и возможен охват абсолютного большинства медработников, то проводится опрос более 50% медицинских работников региона.
Существует еще несколько вариантов составления выборочной совокупности, некоторые методы являются комбинированием уже перечисленных, но хотелось бы рассмотреть применение наиболее оптимальных методов построения выборки на примере населения г. Ярославля. Золотым стандартом, на наш взгляд, при проведении исследования, где в качестве генеральной совокупности выступают все жители Ярославля, является применение квотной выборки. Мы используем при расчете квот трехмерное распределение, а именно распределение по половому признаку, возрасту и району проживания, что позволяет в рамках выборочной совокупности повторить пропорции генеральной совокупности по указанным признакам. Такой подход позволяет учесть мнение всех категорий жителей Ярославля: мужчин и женщин, молодежи, работающего населения, пенсионеров, жителей всех районов города. При этом сохраняется удельная значимость каждой из указанных категорий так же, как в генеральной совокупности. Как это выглядит? Например, если в Ярославле в Дзержинском районе проживает гораздо больше жителей города, чем в Кировском районе города, то мнение жителей Дзержинского района имеют гораздо большее влияние на формирование мнения всего населения города, чем мнение жителей Кировского района. Наша задача состоит в том, чтобы сохранить подобную пропорциональность генеральной совокупности в рамках выборки. Если говорить о конкретных цифрах, то для репрезентативных результатов мнения жителей города с населением более чем 600 тыс. при использовании квотной выборки и соблюдением ошибки не более 5% достаточно опросить 400 человек. В случае, когда проблема исследования носит более дифференцированный характер, и предполагается, что данная проблема может затрагивать различные категории жителей по-разному, целесообразно расширить объем выборки до 500-600 человек.
В случае, когда проблема исследования носит общий или даже глобальный характер, и предполагается, что дифференциация по полу и возрасту, району проживания вряд ли может серьезно оказывать влияние на мнение респондента, может использоваться метод стихийной выборки. Метод стихийного отбора позволяет существенно сократить время и ресурсы на проведение исследования, однако в таком случае рекомендуется расширить объем выборки до 600, а в некоторых случаях до 750 или даже 1000 человек, чтобы минимизировать вероятность потери какой-либо категории респондентов в процессе проведения опроса.
Использование случайных методов формирования выборки для проведения опроса среди населения достаточно крупного города выглядит нерационально и порой даже нереалистично. Ведь жители Ярославля в качестве генеральной совокупности есть величина непостоянная, поскольку ежедневно жители города как приезжают, так и покидают город, и в таких условия обеспечить принцип равного шанса попадания в выборку для всех жителей Ярославля проблематично. Использование механического отбора требует полного списка всех жителей Ярославля с контактными данными, получение которого не представляется возможным в силу федерального закона «О персональных данных», а также выглядит нецелесообразным ввиду высокой трудоемкости процесса и больших временных затрат на построение выборки.
Подводя итог, хочется сказать о том, что грамотно составленная выборка на сегодняшний день — это ключ к оперативному получению достоверной и актуальной информации, которая поможет в принятии правильных управленческих решений. Главное достоинство использования выборки — это, конечно же, экономия времени и трудовых ресурсов. Получаемая информация с течением времени и в зависимости от происходящих процессов в обществе может быстро терять актуальность и уже не отражать полной картины социальной реальности, что в свою очередь может повлечь принятие ошибочных решений. Отсюда можно сделать вывод о том, что исследование, задачей которого является получение объективной информации о текущем положении дел, проведенное в кротчайшие сроки с использованием грамотно составленной выборки, даст более актуальную информацию и объективную картину, чем исследование с большим охватом опроса в 6, 10, 15 и более тысяч человек. Исследование с бОльшим охватом респондентов требует бОльшего времени для проведения опроса, за этот период положение дел может значительно измениться, и ответы, полученные в начале исследования, могут к его окончанию стать устаревшими и неактуальными; как итог — будет потерян весь смысл такого исследования. Желаете получить достоверную, актуальную и надежную информацию по вашей проблеме в результате проведения социологического исследования? Специалисты МАУ ИРСИ помогут вам в этом!
Как определить размер выборки?
Статистика знает все. И Ильф и Е. Петров, «12 Стульев»
Представьте себе, что вы строите крупный торговый центр и желаете оценить автомобильный поток въезда на территорию парковки. Нет, давайте другой пример… они все равно этого никогда не будут делать. Вам необходимо оценить вкусовые предпочтения посетителей вашего портала, для чего необходимо провести среди них опрос. Как увязать количество данных и возможную погрешность? Ничего сложного — чем больше ваша выборка, тем меньше погрешность. Однако и здесь есть нюансы.
Теоретический минимум
Не будет лишним освежить память, эти термины нам пригодятся далее.
Уже в самих определениях ошибки первого и второго рода имеется простор для дебатов и толкований. Как с ними определиться и какую выбрать в качестве нулевой? Если вы исследуете уровень загрязнения почвы или вод, то как сформулируете нулевую гипотезу: загрязнение присутствует, или нет загрязнения? А ведь от этого зависит объем выборки из общей популяции объектов.
Исходная популяция, также как и выборка может иметь любое распределение, однако среднее значение имеет нормальное или гауссово распределение благодаря Центральной Предельной Теореме.
Относительно параметров распределения и среднего значения в частности возможно несколько типов умозаключений. Первое из них называется доверительным интервалом. Он указывает на интервал возможных значений параметра, с указанным коэффициентом доверия. Так например 100(1-α)% доверительный интервал для μ будет таким (Ур. 1).
Второе из умозаключений — проверка гипотезы. Оно может быть примерно таким.
Если нам нужно проверить значение μ для одной выборки из общей совокупности, то критерий обретет вид.
Как видим погрешность действительно уменьшается вместе с ростом количества входных данных. Откуда легко вывести искомое (Ур. 4).
Практика — считаем с R
Проверим гипотезу о том, что среднее значение данной выборки количества насекомых в ловушке равно 1.
и наконец получаем критический интервал для среднего значения: 1.05 — 2.22.
В итоге, следует отбраковать H0 и принять H1 так как с вероятностью 95%, μ > 1.
Поправка на ветер
На самом деле нет никаких причин, полагать, что нам будет известна σ (дисперсия), в то время как μ (среднее) нам еще только предстоит оценить. Из-за этого уравнение 4 имеет мало практической пользы, кроме особо рафинированных примеров из области комбинаторики, а реалистичное уравнение для n несколько сложнее при неизвестной σ (Ур. 5).
Обратите внимание, что σ в последнем уравнении не с шапкой (^), а тильдой (
). Это следствие того, что в самом начале у нас нет даже оценочного стандартного отклонения случайной выборки — , и вместо нее мы используем запланированное —
. Откуда же мы берем последнее? Можно сказать, что с потолка: экспертная оценка, грубые прикидки, прошлый опыт и т. д.
А что на счет второго слагаемого правой стороны 5-го уравнения, откуда оно взялось? Так как , необходима поправка Гюнтера.
Помимо уравнений 4 и 5 есть еще несколько приблизительно-оценочных формул, но это уже заслуживает отдельного поста.