Что такое статистическая вариация
ВАРИАЦИОННАЯ СТАТИСТИКА
Вариационная статистика — часть математической статистики, используемая при изучении эмпирических распределений количественных признаков в статистической совокупности.
Методы Вариационной статистики широко применяются в медицине и здравоохранении для обработки количественно выраженных данных в пределах качественно однородных групп (результатов антропометрических измерений, клинико-физиологических исследований, экспериментальных и лабораторных наблюдений, данных о сети и деятельности органов здравоохранения и медицинских учреждений) и являются мощным средством их научного статистического анализа.
Математической основой Вариационной статистики является теория вероятностей (см. Вероятностей теория) и закон больших чисел (см. Больших чисел закон), в частности теоремы Бернулли, Чебышева и Ляпунова. В общей форме смысл этих теорем сводится к доказательству того, что точность результатов статистического измерения зависит от числа наблюдений. В совокупности единиц, однородных в определенном отношении, встречаются признаки, количественно различные у отдельных индивидуумов (напр., дети одного пола, возраста и этнической группы имеют различные величины роста, веса, окружности груди и т.п.). Такого рода признаки называются варьирующими. Отдельное числовое значение варьирующего признака называется вариантой (v).
Числа, показывающее, как часто встречается каждая варианта в данной совокупности, носят название частот (р).
Статистический ряд чисел, состоящий из вариант и частот, называется вариационным рядом, или рядом распределения (табл. 1, графы 1, 2 и 3).
Вариационные ряды могут быть представлены графически с помощью гистограммы (рис. 1), полигона, или кривой распределения (рис. 2). В ряде случаев в процессе анализа вариационного ряда применяют построение ряда накопленных частот, что графически изображается кумулятой, или огивой (рис. 3), а также кривой нормального распределения (рис. 4).
Вариация количественных признаков может быть дискретной и непрерывной. Дискретной называется вариация, при к-рой отдельные значения признака (варианты) отличаются друг от друга на нек-рую конечную величину (как правило, целое число). Напр., число коек в больнице, число дней временной нетрудоспособности, число ударов пульса в одну минуту и т. д. Непрерывной называется вариация, при к-рой значения признака могут отличаться друг от друга на сколь угодно малую величину (процент выполнения плана, возраст, длина тела, вес тела или величина любого другого антропометрического признака, уровень гемоглобина в крови и т. д.).
Важнейшей обобщающей характеристикой вариационного ряда являются средние величины М или X. С помощью средних величин можно одним числом охарактеризовать любой количественно выраженный признак изучаемой совокупности.
В В. с. применяются различные средние величины: средняя арифметическая, средняя геометрическая, средняя квадратическая, средняя гармоническая и др. Кроме того, определяются мода (Мо), наиболее часто встречающаяся в данном вариационном ряду варианта, являющаяся в некоторых случаях типичной величиной для исследуемого явления, а также медиана (Me) — варианта, в обе стороны от к-рой находится одинаковое число вариант. Средняя геометрическая и средняя гармоническая сравнительно редко употребляются в сан. статистике.
Наиболее простой и общепринятой сводной характеристикой вариационного ряда является его средняя арифметическая величина М (Х), равная сумме произведений вариант (у) на частоты (р), деленная на сумму частот (N). Формула этого вычисления: M = (∑vp)N. В вариационном ряду со сгруппированными вариантами v соответствует срединной варианте, равной в случае непрерывной вариации полусумме начальных вариант данной и следующей групп (графа 2 табл. 1). Основной мерой изменчивости (вариабельности) вариационного ряда служит его среднее квадратическое отклонение (а), равное корню квадратному из суммы произведений квадратов отклонений каждой варианты от средней величины ряда на соответствующие частоты, деленной на сумму частот:
Отклонением (d) называется разность между вариантой и средней арифметической (v — М). Ход вычислений — см. в графах 4, 5, 6, 7 табл. 1.
В нормальных вариационных рядах распределение частот вокруг М(X) соответствует схеме, представленной в табл. 2.
Имеются упрощенные приемы вычисления М и а, излагаемые в специальных руководствах.
При равенстве прочих условий величина о зависит от размеров входящих в нее отклонений и будет тем меньше, чем меньше эти отклонения. Поэтому, чем меньше а, тем теснее сгруппированы варианты вокруг М и тем, следовательно, лучше, точнее характеризует средняя арифметическая вариационный ряд.
Вариационная статистика позволяет установить точность средней величины эмпирического распределения, а также существенность (статистическую значимость) различий между сравниваемыми средними значениями изучаемых признаков. Мерой точности средней величины является ее средняя ошибка.
Если разность между средними величинами М1—М2 превосходит свою среднюю ошибку не менее чем в 2—3 раза, то различие между ними является существенным и вызвано систематически действующими факторами. Критерий достоверности различий (t) определяется по формуле
Критерий достоверности различии оценивается но общепринятым правилам: если t≥2, то различия следует считать достоверными, т. е. они соответствуют вероятности безошибочного прогноза в 95% и более, если же t Источник: Большая Медицинская Энциклопедия (БМЭ), под редакцией Петровского Б.В., 3-е издание
Вариация (статистика)
Вариа́ция — различие значений какого-либо признака у разных единиц совокупности за один и тот же промежуток времени. Причиной возникновения вариации являются различные условия существования разных единиц совокупности. Вариация — необходимое условие существования и развития массовых явлений. [1] Определение вариации необходимо при организации выборочного наблюдения, статистическом моделировании и планировании экспертных опросов. По степени вариации можно судить об однородности совокупности, устойчивости значений признака, типичности средней, о взаимосвязи между какими-либо признаками. [2]
Содержание
Показатели вариации
Абсолютные показатели
где — выборочное среднее.
где ,
— первый (нижний) и третий (верхний) квартили соответственно,
— медиана (второй или серединный квартиль).
Относительные показатели
Известно, что коэффициент вариации может быть записан посредством долей [4] :
где .
где — математическое ожидание. Эта формула применяется для вероятностных моделей.
Примечания
Описательная статистика |
| ||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Статистический вывод и проверка гипотез |
| ||||||||||||
Корреляция | Коэффициент корреляции Пирсона · Ранг корреляций (Коэффициент Спирмана для ранга корреляций, Коэффициент тау Кендалла для ранга корреляций) · Переменная смешивания | ||||||||||||
Линейные модели | Основная линейная модель · Обобщённая линейная модель · Анализ вариаций · Ковариационный анализ | ||||||||||||
Регрессия | Линейная · Нелинейная · Непараметрическая регрессия · Полупараметрическая регрессия · Логистическая регрессия |
ПолезноеСмотреть что такое «Вариация (статистика)» в других словарях:Статистика — Гистограмма (метод графических изображений) У этого термина существуют и другие значения, с … Википедия статистика — ▲ измерение ↑ масса, явление статистика измерение массовых явлений. выборка группа испытуемых представителей. на выборку (взять #). дисперсия. рассеяние. вариация разброс значений. варианта. | закон распределения. медиана. | биометрия: ковариация … Идеографический словарь русского языка ВАРИАЦИОННАЯ СТАТИСТИКА — ВАРИАЦИОННАЯ СТАТИСТИКА, термин, объединяющий группу приемов статистического анализа, применяющихся преимущественно в естественных науках. Во второй половине XIX в. Кетле (Quetelet, «Anthro pometrie ou mesure des differentes facultes de 1… … Большая медицинская энциклопедия Мода (статистика) — У этого термина существуют и другие значения, см. Мода (значения). Мода значение во множестве наблюдений, которое встречается наиболее часто. Случайная величина может не иметь моды. Иногда в совокупности встречается более чем одна мода (например … Википедия Медиана (статистика) — В этой статье не хватает ссылок на источники информации. Информация должна быть проверяема, иначе она может быть поставлена под сомнение и удалена. Вы можете … Википедия Среднеквадратическое отклонение — (синонимы: среднеквадратичное отклонение, квадратичное отклонение; близкие термины: стандартное отклонение, стандартный разброс) в теории вероятностей и статистике наиболее распространённый показатель рассеивания значений случайной величины … Википедия ГОСТ Р 50779.11-2000: Статистические методы. Статистическое управление качеством. Термины и определения — Терминология ГОСТ Р 50779.11 2000: Статистические методы. Статистическое управление качеством. Термины и определения оригинал документа: 3.4.3 (верхняя и нижняя) границы регулирования Граница на контрольной карте, выше которой верхняя граница,… … Словарь-справочник терминов нормативно-технической документации Корреляция — (Correlation) Корреляция это статистическая взаимосвязь двух или нескольких случайных величин Понятие корреляции, виды корреляции, коэффициент корреляции, корреляционный анализ, корреляция цен, корреляция валютных пар на Форекс Содержание… … Энциклопедия инвестора t-критерий Стьюдента — t критерий Стьюдента общее название для класса методов статистической проверки гипотез (статистических критериев), основанных на распределении Стьюдента. Наиболее частые случаи применения t критерия связаны с проверкой равенства средних… … Википедия Вариация, размах, межквартильный размах, среднее линейное отклонениеВ этой статье мы приступим к изучению показателей вариации: размах вариации, межквартильный размах, среднее линейное отклонение. В математической статистике вариация занимает одно из центральных мест. Что же такое вариация? Это изменчивость. Вариация показателя – изменчивость показателя. Показатели вариации дают очень важную характеристику процессам и явлениям. Они отражают устойчивость процессов и однородность явлений. Чем меньше показатель вариации, тем более процесс устойчивый, а значит, и более предсказуемый. Показатели вариации отражают не отдельно взятые значения, а дают характеристику некоторому явлению или процессу в целом. Имея в наличии показатели среднего значения и вариации, можно получить первичное представление о характере данных. Средняя – это обобщающий уровень, а вариация характеризует, насколько среднее значение (или другой показатель) хорошо обобщает значения некоторой совокупности данных. Если показатель вариации незначительный, то значения совокупности находятся близко к среднему, следовательно, среднее значение хорошо обобщает совокупность. Если вариация большая, то среднее значение плохо обобщает данные (значения разбросаны далеко друг от друга), и получается «средняя температура по больнице». Размах вариацииРазмах вариации – разница между максимальным и минимальным значением: Ниже приведена графическая интерпретация размаха вариации. Видно максимальное и минимальное значение, а также расстояние между ними, которое и соответствует размаху вариации. С одной стороны, показатель размаха может быть вполне информативным и полезным. К примеру, максимальная и минимальная стоимость квартиры в городе N, максимальная и минимальная зарплата по профессии в регионе и проч. С другой стороны, размах может быть очень широким и не иметь практического смысла, т.к. зависит лишь от двух наблюдений. Таким образом, размах вариации очень неустойчивая величина. Межквартильный размахВ статистике для анализа выборки часто прибегают к другому показателю вариации – межквартильному размаху. Квартиль – это то значение, которые делит ранжированные (отсортированные) данные на части, кратные одной четверти, или 25%. Так, 1-й квартиль – это значение, ниже которого находится 25% совокупности. 2-й квартиль делит совокупность данных пополам (то бишь медиана), ну и 3-й квартиль отделяет 25% наибольших значений. Так вот межквартильный размах – это разница между 3-м и 1-м квартилями. У данного показателя есть одно неоспоримое преимущество: он является робастным, т.е. не зависит от аномальных отклонений. Наглядное отображение размаха вариации и межкварительного расстояния производят с помощью диаграммы «ящик с усами». Среднее линейное отклонениеЕсть показатели вариации, которые учитывают сразу все значения, а не только отдельные наблюдения (типа максимума или минимума). Одним из таких является среднее линейное отклонение. Этот показатель характеризует меру разброса значений вокруг их среднего. В чем суть? Для того, чтобы показать меру разброса данных, нужно вначале определиться, относительно чего этот самый разброс будет считаться. Обычно это среднее арифметическое. Далее нужно посчитать, насколько каждое значение отклоняется от средней. Нас интересует среднее из таких отклонений. Однако напрямую складывать положительные и отрицательные отклонения нельзя, т.к. они взаимоуничтожатся и их сумма будет равна нулю. Поэтому все отклонения берутся по модулю. Средне линейное отклонение рассчитывается по формуле: a – среднее линейное отклонение, X – анализируемый показатель, X̅ – среднее значение показателя, n – количество значений в анализируемой совокупности данных. Рассчитанное по этой формуле значение показывает среднее абсолютное отклонение от средней арифметической. Наглядная картинка в помощь. Отклонения каждого наблюдения от среднего указаны маленькими стрелочками. Именно они берутся по модулю и суммируются. Потом все делится на количество значений. Для полноты картины нужно привести еще и пример. Допустим, имеется фирма по производству черенков для лопат. Каждый черенок должен быть 1,5 метра длиной, но, что еще важней, все должны быть одинаковыми или, по крайней мере, плюс-минус 5 см. Однако нерадивые работники то 1,2 м отпилят, то 1,8 м. Дачники недовольны. Решил директор провести статистический анализ длины черенков. Отобрал 10 штук и замерил их длину, нашел среднюю и рассчитал среднее линейное отклонение. Средняя получилась как раз, что надо – 1,5 м. А вот среднее линейное отклонение вышло 0,16 м. Вот и получается, что каждый черенок длиннее или короче, чем нужно, в среднем на 16 см. Есть, о чем поговорить с работниками. На этом сегодняшнюю заметку закончим. В следующей статье будут рассмотрены такие показатели вариации, как дисперсия, среднеквадратичное отклонение и коэффициент вариации. Статистическое изучение вариации
Тема 5 Основные вопросы: 1. Понятие вариации. 2. Показатели вариации. 3. Относительные показатели вариации. 1. Понятие вариации. При изучении совокупности явления нельзя ограничиваться только нахождением средней величины. Средние величины дают обобщенную характеристику варьирующего признака, показывают типичные характеристики для изучаемой совокупности. Однако в средней величине не проявляется степень колеблемости отдельных значений признаков вокруг среднего уровня. В зависимости от однородности в совокупности колеблемость признаков может быть большой или малой. Поэтому возникает необходимость в измерении вариации отдельных вариантов по отношению к средней величине. Определение: Вариация – это различие в значениях какого-либо признака у разных единиц данной совокупности в один и тот же период или момент времени. Вариация в переводе с латинского означает «колеблемость», «изменчивость», «непостоянство». Предполагая, что большинство социально-экономических явлений и процессов варьируют в некотором масштабе, статистика разработала методологию расчета показателей вариации, которые, в свою очередь, могут быть абсолютными, относительными и средними. Величины признаков колеблются, варьируют под действием различных причин и условий, которые в статистике называют факторами. Нередко эти факторы действуют в противоположных направлениях и сами, в свою очередь, варьируют. Среди них есть существенные факторы, определяющие величину вариантов данного признака у всех единиц совокупности. Но есть и несущественные, которые на одни единицы совокупности могут оказывать влияние, на другие нет. Например, вариация оценок студентов на экзамене в вузе вызывается, в частности, различными способностями студентов; временем, затраченным ими на самостоятельную работу; посещаемостью занятий; различием социально-бытовых условий и т.д. Но на оценку могут влиять и какие-либо привходящие, чисто случайные причины, например, временное недомогание. Вариация, порождаемая существенными факторами, носит систематический характер, то есть наблюдается последовательное изменение вариантов признака в определенном направлении. Такая вариация называется систематической. В систематической вариации проявляются взаимосвязи между явлениями, их признаками, в такой связи – один как причина, другой как следствие его действия. Вариация, обусловленная случайными факторами, называется случайной вариацией. Здесь не наблюдается систематического изменения вариантов зависимого признака от случайных факторов; все изменения носят хаотический характер, поскольку нет устойчивой связи этих факторов с единицами изучаемой совокупности. Вариация зависимого признака, образовавшаяся под действием всех без исключения влияющих на него факторов, называется общей вариацией. Следовательно, общая вариация слагается из систематической и случайной вариации. 2. Показатели вариации. К показателям вариации относятся: размах вариации, среднее линейное (абсолютное) отклонение (с.л.о.), дисперсия, среднее квадратическое отклонение (с.к.о.), коэффициент вариации. 1) Размах вариации – разность между максимальным и минимальным значением признака:
Он характеризует пределы изменения признака. Средний размах: Однако размах вариации показывает лишь крайние отклонения признака и не отражает отклонений всех вариантов в ряду. При изучении вариации нельзя ограничиваться только определением размаха. Для анализа вариации необходим показатель, который отражает все колебания варьирующего признака и дает обобщенную характеристику. Простейший показатель такого типа СЛО. 2). Среднее линейное отклонение (СЛО) – представляет собой среднюю арифметическую абсолютных значений отклонений отдельных вариантов от их средней арифметической (учитывает только крайние значения признака и не учитывает все промежуточные). – СЛО для несгруппированных данных: где Т.е. – СЛО для сгруппированных данных: где В формулах разности в числителе взяты по модулю, иначе в числителе всегда будет ноль – алгебраическая сумма отклонений вариантов от их средней арифметической. Поэтому СЛО применяют редко, только в случаях, когда суммирование показателей без учета знаков имеет экономический смысл. Например, анализ состава рабочих, ритмичность производства, оборот внешней торговли. 3) Дисперсия – это средний квадрат отклонений индивидуальных значений от средней арифметической (не имеет единиц измерения). В общем виде взвешенная дисперсия исчисляется по формуле: или простая дисперсия:
Дисперсия альтернативного признака: 4) Среднее квадратическое отклонение (СКО) ‑ это есть квадратный корень из среднего квадрата отклонений отдельных значений признака от средней арифметической:
3. Относительные показатели вариации (коэффициент вариации). В статистической практике часто возникает необходимость сравнения вариаций различных признаков. Например, большой интерес представляет сравнение вариаций возраста рабочих и их квалификации, стажа работы и размера заработной платы, себестоимости и прибыли, стажа работы и производительности труда и т.д. для подобных сопоставлений показатели абсолютной колеблемости признаков непригодны: нельзя сравнивать колеблемость стажа работы, выраженного в годах, с вариацией зарплаты, выраженной в рублях. Для осуществления такого сравнения, а также сравнения колеблемости одного и того же признака в нескольких совокупностях с различным средним арифметическим используют относительный показатель вариации – коэффициент вариации (КВ). КВ – представляет собой выраженное в процентах отношение СКО к средней арифметической.
это и есть коэффициент вариации. Это относительная мера вариации и позволяет сравнивать степень варьирования в разных вариационных рядах. Определение: Дисперсия – это средний квадрат отклонений всех значений признака ряда распределения от средней арифметической. 1) Дисперсия постоянной величины равна нулю ( 2) Дисперсия не меняется, если все варианты увеличить или уменьшить на одно и то же число ( 3) Если все варианты умножить на число 4) Дисперсия от средней меньше, чем средний квадрат отклонений от любого числа Использование свойств дисперсии позволяет упрощать ее расчеты, особенно в случаях, когда вариационный ряд составляет арифметическую прогрессию или имеет равные интервалы. В этих случаях сначала находят дисперсию от условного нуля, а затем используют 4-е свойство, переходят к дисперсии от средней. Виды дисперсий для сгруппированных данных, условия их применения в статистических исследованиях. Если совокупность данных сгруппирована на группы по какому-то признаку, то в этом случае выделяются 3 вида дисперсий: — Общая дисперсия – Средняя из внутригрупповых дисперсий — Межгрупповая дисперсия Общая Средняя из внутригрупповых дисперсий исчисляется где
Межгрупповая дисперсия Она измеряет вариацию, обусловленную признаком, положенным в основу группировки. Правило сложения дисперсий. Общий закон (правило) сложения дисперсий ‑ Общая дисперсия равна сумме средней из внутригрупповых дисперсий и межгрупповой дисперсии. Показывает значение фактора, положенного в основу группировки (из всей совокупности факторов). Коэффициент детерминации – есть квадрат эмпирического корреляционного отношения. Эмпирическое корреляционное отношение – есть корень квадратный из отношения межгрупповой дисперсии к общей:
|