Что такое размах вариации в статистике
Тема 9 Показатели вариации
Показатели вариации в анализе взаимосвязей
Для измерения степени колеблемости отдельных значений признака относительно средней исчисляют основные показатели вариации.
Информация о средних уровнях исследуемых показателей обычно бывает недостаточной для полного анализа изучаемого процесса или явления. Иногда совершенно непохожие по своему внутреннему строению совокупности могут иметь равные средние величины. Поэтому для более детального изучения того или иного явления необходимо учитывать разброс или вариацию значений отдельных единиц совокупности. Измерение вариации признаков имеет как теоретическое, так и практическое значение.
Так, например, для выявления наиболее стабильно работающего коллектива или предприятия наравне с другими показателями рассчитывают и основные показатели вариации. Эти показатели дают возможность количественно определить размеры устойчивости производительности труда, уровня квалификации, цен на основные виды выпускаемой продукции и т.п. Измерение размеров вариации такого показателя, как «выполнение работ в срок» имеет важное значение для принятия решений заказчиками и инвесторами, т.к. ситуация, в которой присутствует изменчивость признака, часто содержит риск. Особое значение показатели вариации приобретают в анализе рынка ценных бумаг, где мера колеблемости отождествляется с мерой рискованности вложения денежных средств.
Основными показателями, характеризующими вариацию, являются:
1) Размах вариации
2) Среднее линейное отклонение исчисляют для того, чтобы дать обобщающую характеристику распределению отклонений:
где –абсолютные значения отклонений отдельных вариантов xi от средней арифметической ; fi – частота.
3. Дисперсия – это средняя арифметическая квадратов отклонений отдельных значений признака от их средней арифметической:
4. Среднее квадратическое отклонение – корень квадратный из дисперсии:
5. Коэффициент вариации – используется для сравнительной оценки вариации, а также для характеристики однородности совокупности:
Пример. Для иллюстрации расчетов воспользуемся данными нижеприведенной табл. 9.1:
Таблица 9.1 ‑ Данные о продаже основных марок холодильников:
Рассчитаем размах вариации.
R= 1200-460=740$
Пример вычисления размаха вариации
Размах вариации служит незаменимой мерой разброса экстремальных значений признака. Кроме характеристики границ разброса признака, размах вариации может быть использован для выявления ошибок. При наличии очень больших (или очень малых) ошибочно записанных значений признака размах вариации сразу резко возрастает, что требует проверки и корректировки исходных данных.
Недостатком данного показателя является то, что он оценивает только границы варьирующего признака и не отражает его колеблемость внутри этих границ. Вследствие этого размах вариации может неправильно характеризовать общую колеблемость признака.
Этого недостатка лишен другой показатель – дисперсия, рассчитываемый как средний квадрат отклонений значений признака от их средней величины.
Между индивидуальными отклонениями от средней и колеблемостью признака существует прямая зависимость: чем сильнее колеблемость признака, тем больше отклонения его значений от средней величины и менее устойчив изучаемый показатель.
Как и средняя величина этот показатель может быть рассчитан в двух формах: взвешенной и невзвешенной
По приведенным выше данным определим средневзвешенную цену холодильника:
Далее рассчитаем дисперсию:
. Следует отметить, что дисперсия еще не дает представления об однородности совокупности, и этому показателю трудно дать экономическую интерпретацию, т.к. он рассчитан в квадратных единицах. Поэтому следующим шагом в исследовании однородности совокупности является расчет среднего квадратического отклонения, показывающего, насколько в среднем отклоняются конкретные варианты признака от его среднего значения. Оно определяется как квадратный корень из дисперсии и имеет ту же размерность что и изучаемый признак. .
Рассчитаем среднее квадратическое отклонение
Рассмотренные показатели позволяют получить абсолютное значение вариации признака. Однако для сравнения разных совокупностей с точки зрения устойчивости какого-либо одного признака или для определения однородности совокупности рассчитывают относительные показатели.
Эти показатели вычисляются как отношение размаха вариации, среднего линейного отклонения или среднего квадратического отклонения к средней арифметической или медиане. Чаще всего эти показатели выражаются в процентах.
Определим значение показателя вариации по вышеприведенным данным таблицы
Совокупность считается однородной, если V не превышает 33%.
Если V 25% – вариация сильная.
Вывод: Рассчитанная величина свидетельствует о неоднородности цен на холодильники, т.к. однородной совокупность считается, если коэффициент вариации меньше 33% (для распределений близких к нормальному).
!! Следует отметить, что коэффициент вариации может быть более 100%, что, в частности, может быть при наличии значений сильно отличающихся от средней величины. Такой результат означает, что в исследуемой совокупности сильна вариация признаков по отношению к средней величине.
Изучая вариацию интересующего нас признака в пределах исследуемой совокупности и опираясь на общую среднюю в расчетах, трудно оценить степень воздействия на него какого-либо отдельного признака.
При проведении такого анализа исходная совокупность должна представлять собой множество единиц, каждая из которых характеризуется двумя признаками – факторным (оказывающим влияние на взаимосвязанный с ним признак) и результативным (подверженным влиянию).
Для выявления взаимосвязи исходная совокупность делится по факторному признаку на группы. Выводы о степени взаимосвязи базируются на анализе вариации результативного признака. Если статистическая совокупность разбита на группы по какому-либо признаку, то для оценки влияния различных факторов, определяющих вариацию индивидуальных значений признака, используют правило сложения дисперсий.
Общая дисперсия представляет собой сумму средней из виутригрупповой и межгрупповой и дисперсий:
Общая дисперсия характеризует вариацию признака по всей совокупности как результат влияния всех факторов, определяющих индивидуальные различия единиц совокупности.
Межгрупповая дисперсия характеризует вариацию, обусловленную влиянием фактора, положенного в основу группировки.
Средняя из внутригрупповых дисперсий отражает ту часть вариации результативного признака, которая обусловлена действием всех прочих неучтенных факторов, кроме фактора, по которому осуществлялась группировка. Другими словами внутригрупповая дисперсия отражает случайную вариацию. Внутригрупповая дисперсия рассчитывается отдельно по каждой j-ой группе.
Для всех групп в целом вычисляется средняя из внутригрупповых дисперсий, взвешенных на частоты соответствующих групп по формуле:
Взаимосвязь между тремя видами дисперсий получила название правила сложения дисперсий. Таким образом, зная два вида дисперсий всегда можно определить третий:
Из этого равенства следует, что общая дисперсия, как правило, будет больше средней из групповых дисперсий. Это обусловлено тем, что при расчленении общей совокупности единиц на части по какому-либо признаку образуются более или менее однородные группы, в результате чего сокращается колеблемость признаков в пределах каждой группы. Это приводит к тому, что средняя из групповых дисперсий оказывается меньше дисперсии признака по всей совокупности единиц, причем разница между этими показателями будет тем больше, чем однороднее получаются группы в результате расчленения общей совокупности.
Теснота связи между факторным и результативным признаками оценивается на основе эмпирического корреляционного отношения:
Данный показатель может принимать значения от 0 до 1. Чем ближе к 1 будет его величина, тем сильнее взаимосвязь между рассматриваемыми признаками.
Пример. На следующем условном примере исследуем зависимость объема выполненных работ от формы собственности проектно-изыскательских организаций.
Таблица 9.2. Выполнение работ проектно-изыскательскими организациями разной формы собственности
Форма собственности | Количество предприятий | Итого | |
Государственная | 4 | 10,30,20,40 | 100 |
Негосударственная | 6 | 20, 40, 60, 20, 50, 50 | 240 |
Итого | 10 | 340 |
1) Определим средний объем работ для предприятий двух форм собственности.
2) Определим средний объем работ для каждой формы собственности.
3) Рассчитаем общую и внутригрупповые (т.е. для каждой группы) дисперсии.
4) Определим среднюю из внутригрупповых и межгрупповую дисперсию. Для этого полученные ранее данные заносятся в таблицу расчета.
Таблица 9.3. – Вспомогательная таблица
Пример. Средняя из внутригрупповых дисперсий
Пример. Межгрупповая дисперсия
На последнем этапе решения задачи необходимо проверить тождество, отражающее закон сложения дисперсий:
Проверка закона сложения дисперсий: 54,0+189,8=243,8
Вывод: Таким образом, можно сделать вывод о том, что объем работ, выполненных проектно-изыскательскими организациями на 22% [(54,0/243,8) х 100%] зависит от фактора, положенного в основание группировки, т.е. от формы собственности, а на 78% [(189,8/243,8)х100%)] ‑ от прочих факторов.
Вывод о том, что объем выполненных работ в гораздо большей степени зависит от каких-либо других факторов, чем от формы собственности предприятий подтверждается и величиной эмпирического корреляционного отношения:
Вывод: Величина этого показателя свидетельствует о том, что зависимость объема работ от формы собственности предприятия невелика
Контрольные задания
Вычислить: а) размах вариации; б)среднее линейное отклонение; в) дисперсию; г) среднее квадратическое отклонение; относительные показатели вариации возраста студентов.
2. По данным статистических ежегодников постройте таблицу с рядом показателей и определите показатели вариации: а) размах; б) среднее линейное отклонение; в) среднее квадратическое отклонение; г) коэффициент вариации. Оцените количественную однородность совокупности.
Показатели вариации в статистике
7.1. Абсолютные и относительные показатели вариации
Рассмотрим две совокупности сотрудников рекламных агентств.
Распределение сотрудников первого агентства по уровню месячной заработной платы представлено в табл. 7.1.
Размер месячной заработной платы, руб. | Середина интервала, xi | Число сотрудников, чел., fi | xi*fi |
---|---|---|---|
4 000-6 000 | 5 000 | 10 | 50 000 |
6 000-8 000 | 7 000 | 6 | 42 000 |
8 000-10 000 | 9 000 | 19 | 171 000 |
10 000-12 000 | 11 000 | 26 | 286 000 |
14 000-16 000 | 15 000 | 10 | 150 000 |
16 000-18 000 | 17 000 | 5 | 85 000 |
Сумма | — | 95 | 1 031 000 |
Распределение сотрудников второго агентства по уровню месячной заработной платы представлено в табл. 7.2.
Размер месячной заработной платы, руб. | Середина интервала, xi | Число сотрудников, чел., fi | xi*fi |
---|---|---|---|
1 500-4 500 | 3 000 | 9 | 27 000 |
4 500-7 500 | 6 000 | 26 | 156 000 |
7 500-10 500 | 9 000 | 24 | 216 000 |
10 500-13 500 | 12 000 | 18 | 216 000 |
13 500-16 500 | 15 000 | 14 | 210 000 |
16 500-19 500 | 18 000 | 10 | 180 000 |
19 500-22 500 | 21 000 | 9 | 189 000 |
Сумма | — | 110 | 1 194 000 |
Рассчитаем средний уровень заработной платы:
Как видим, средние в двух совокупностях практически совпадают между собой (с разницей в 1 руб.). Однако если вы вдруг случайно встретите сотрудников этих агентств и поинтересуетесь уровнем оплаты их труда, то вас заверят, что платят у них вовсе не одинаково! Почему?! Оказывается, что разброс значений вокруг средней в этих совокупностях абсолютно разный. Значит, такой характеристики, как средняя, вовсе не достаточно, чтобы делать выводы о совокупности. Для этого используют показатели вариации.
Вариацией называется изменчивость значений признака у единиц статистической совокупности. Для измерения величины вариации используются абсолютные и относительные показатели вариации.
Размах вариации (R) вычисляется как разность между максимальным и минимальным значениями признака
( 7.1) |
Среднее линейное отклонение (d) представляет собой среднюю арифметическую величину из абсолютных значений отклонений отдельных значений признака от их средней. Если данные не сгруппированы, то рассчитывается невзвешенное среднее линейное отклонение
( 7.2) |
Для сгруппированных данных, представленных в виде вариационного ряда, используется взвешенное среднее линейное отклонение, где весами выступают частоты соответствующих вариант:
( 7.3) |
Дисперсией () называется средняя арифметическая величина, полученная из квадратов отклонений значений признака от их средней
( 7.4) |
( 7.5) |
Квадратный корень из дисперсии называется средним квадратическим отклонением (его называют также стандартным отклонением):
( 7.6) |
( 7.7) |
Для сравнения вариации одного и того же показателя в разных совокупностях (например, заработной платы двух рекламных агентств) или вариации разных показателей в одной совокупности (например, вариации заработной платы и возраста в одном рекламном агентстве) используют относительные показатели вариации. К ним относят:
Средние величины и показатели вариации
Понятие и виды средних величин
Существует 2 класса средних величин: степенные и структурные.
К структурным средним относятся мода и медиана, но наиболее часто применяются степенные средние различных видов.
Степенные средние величины
Степенные средние могут быть простыми и взвешенными.
Простая средняя величина рассчитывается при наличии двух и более несгруппированных статистических величин, расположенных в произвольном порядке по следующей общей формуле:
Взвешенная средняя величина рассчитывается по сгруппированным статистическим величинам с использованием следующей общей формулы:
Используя общие формулы простой и взвешенной средних при разных показателях степени m, получаем частные формулы каждого вида, которые будут далее подробно рассмотрены.
Средняя арифметическая
Например, студент сдал 4 экзамена и получил следующие оценки: 3, 4, 4 и 5. Рассчитаем средний балл по формуле средней арифметической простой: (3+4+4+5)/4 = 16/4 = 4.
Средняя арифметическая взвешенная имеет следующий вид:
Например, студент сдал 4 экзамена и получил следующие оценки: 3, 4, 4 и 5. Рассчитаем средний балл по формуле средней арифметической взвешенной: (3*1 + 4*2 + 5*1)/4 = 16/4 = 4.
Если значения X заданы в виде интервалов, то для расчетов используют середины интервалов X, которые определяются как полусумма верхней и нижней границ интервала. А если у интервала X отсутствует нижняя или верхняя граница (открытый интервал), то для ее нахождения применяют размах (разность между верхней и нижней границей) соседнего интервала X.
Средняя арифметическая применяется чаще всего, но бывают случаи, когда необходимо применение других видов средних величин. Рассмотрим такие случаи далее.
Средняя гармоническая
Средняя гармоническая применяется, когда исходные данные не содержат частот f по отдельным значениям X, а представлены как их произведение Xf. Обозначив Xf=w, выразим f=w/X, и, подставив эти обозначения в формулу средней арифметической взвешенной, получим формулу средней гармонической взвешенной:
Таким образом, средняя гармоническая взвешенная применяется тогда, когда неизвестны частоты f, а известно w=Xf. В тех случаях, когда все w=1, то есть индивидуальные значения X встречаются по 1 разу, применяется формула средней гармонической простой:
Средняя геометрическая
Средняя геометрическая применяется при определении средних относительных изменений, о чем сказано в теме Ряды динамики. Геометрическая средняя величина дает наиболее точный результат осреднения, если задача стоит в нахождении такого значения X, который был бы равноудален как от максимального, так и от минимального значения X.
Средняя квадратическая
Средняя квадратическая применяется в тех случая, когда исходные значения X могут быть как положительными, так и отрицательными, например при расчете средних отклонений.
Главной сферой применения квадратической средней является измерение вариации значений X, о чем пойдет речь позднее в этой лекции.
Средняя кубическая
Средняя кубическая применяется крайне редко, например, при расчете индексов нищеты населения для развивающихся стран (ИНН-1) и для развитых (ИНН-2), предложенных и рассчитываемых ООН.
Структурные средние величины
К наиболее часто используемым структурным средним относятся статистическая мода и статистическая медиана.
Статистическая мода
Если X задан дискретно, то мода определяется без вычисления как значение признака с наибольшей частотой. В статистической совокупности бывает 2 и более моды, тогда она считается бимодальной (если моды две) или мультимодальной (если мод более двух), и это свидетельствует о неоднородности совокупности.
Если X задан равными интервалами, то сначала определяется модальный интервал как интервал с наибольшей частотой f. Внутри этого интервала находят условное значение моды по формуле:
где Мо – мода;
ХНМо – нижняя граница модального интервала;
hМо – размах модального интервала (разность между его верхней и нижней границей);
fМо – частота модального интервала;
fМо-1 – частота интервала, предшествующего модальному;
fМо+1 – частота интервала, следующего за модальным.
Если размах интервалов h разный, то вместо частот f необходимо использовать плотности интервалов, рассчитываемые путем деления частот f на размах интервала h.
Статистическая медиана
Если X задан дискретно, то для определения медианы все значения нумеруются от 0 до N в порядке возрастания, тогда медиана при четном числе N будет лежать посередине между X c номерами 0,5N и (0,5N+1), а при нечетном числе N будет соответствовать значению X с номером 0,5(N+1).
Если X задан в виде равных интервалов, то сначала определяется медианный интервал (интервал, в котором заканчивается одна половина частот f и начинается другая половина), в котором находят условное значение медианы по формуле:
где Ме – медиана;
ХНМе – нижняя граница медианного интервала;
hМе – размах медианного интервала (разность между его верхней и нижней границей);
fМе – частота медианного интервала; fМе-1 – сумма частот интервалов, предшествующих медианному.
Также как и в случае с модой, при определении медианы если размах интервалов h разный, то вместо частот f необходимо использовать плотности интервалов, рассчитываемые путем деления частот f на размах интервала h.
Показатели вариации
Размах вариации
Размах вариации – это разность между максимальным и минимальным значениями X из имеющихся в изучаемой статистической совокупности:
Недостатком показателя H является то, что он показывает только максимальное различие значений X и не может измерять силу вариации во всей совокупности.
Cреднее линейное отклонение
Например, студент сдал 4 экзамена и получил следующие оценки: 3, 4, 4 и 5. Ранее уже была рассчитана средняя арифметическая = 4. Рассчитаем среднее линейное отклонение простое: Л = (|3-4|+|4-4|+|4-4|+|5-4|)/4 = 0,5.
Вернемся к примеру про студента, который сдал 4 экзамена и получил следующие оценки: 3, 4, 4 и 5. Ранее уже была рассчитана средняя арифметическая = 4 и среднее линейное отклонение простое = 0,5. Рассчитаем среднее линейное отклонение взвешенное: Л = (|3-4|*1+|4-4|*2+|5-4|*1)/4 = 0,5.
Линейный коэффициент вариации
С помощью линейного коэффициента вариации можно сравнивать вариацию разных совокупностей, потому что в отличие от среднего линейного отклонения его значение не зависит от единиц измерения X.
В рассматриваемом примере про студента, который сдал 4 экзамена и получил следующие оценки: 3, 4, 4 и 5, линейный коэффициент вариации составит 0,5/4 = 0,125 или 12,5%.
Дисперсия
В уже знакомом нам примере про студента, который сдал 4 экзамена и получил оценки: 3, 4, 4 и 5, ранее уже была рассчитана средняя арифметическая = 4. Тогда дисперсия простая Д = ((3-4) 2 +(4-4) 2 +(4-4) 2 +(5-4) 2 )/4 = 0,5.
В рассматриваемом примере про студента, который сдал 4 экзамена и получил следующие оценки: 3, 4, 4 и 5, рассчитаем дисперсию взвешенную: Д = ((3-4) 2 *1+(4-4) 2 *2+(5-4) 2 *1)/4 = 0,5.
Если преобразовать формулу дисперсии (раскрыть скобки в числителе, почленно разделить на знаменатель и привести подобные), то можно получить еще одну формулу для ее расчета как разность средней квадратов и квадрата средней:
В уже знакомом нам примере про студента, который сдал 4 экзамена и получил следующие оценки: 3, 4, 4 и 5, рассчитаем дисперсию методом разности средней квадратов и квадрата средней:
Д = (3 2 *1+4 2 *2+5 2 *1)/4-4 2 = 16,5-16 = 0,5.
.
Cреднее квадратическое отклонение
Выше уже было рассказано о формуле средней квадратической, которая применяется для оценки вариации путем расчета среднего квадратического отклонения, обозначаемое малой греческой буквой сигма:
Еще проще можно найти среднее квадратическое отклонение, если предварительно рассчитана дисперсия, как корень квадратный из нее:
В примере про студента, в котором выше рассчитали дисперсию, найдем среднее квадратическое отклонение как корень квадратный из нее:
.
Квадратический коэффициент вариации
В примере про студента, в котором выше рассчитали среднее квадратическое отклонение, найдем квадратический коэффициент вариации V = 0,707/4 = 0,177, что меньше критериального значения 0,333, значит вариация слабая и равна 17,7%.