Что такое накопленная частота

Статистическое изучение вариационных рядов и расчет средних величин

Поможем написать любую работу на аналогичную тему

Понятие вариационного ряда. Первым шагом систематизации материалов статистического наблюдения является подсчет числа единиц, обладающих тем или иным признаком. Расположив единицы в порядке возрастания или убывания их количественного признака и подсчитав число единиц с конкретным значением признака, получаем вариационный ряд. Вариационный ряд характеризует распределение единиц определенной статистической совокупности по какому–либо количественному признаку.

Вариационный ряд представляет собой две колонки, в левой колонке приводятся значения варьирующего признака, именуемые вариантами и обозначаемые (x), а в правой – абсолютные числа, показывающие, сколько раз встречается каждый вариант. Показатели этой колонки называются частотами и обозначаются (f).

Схематично вариационный ряд можно представить в виде табл.5.1:

Вид вариационного ряда

В правой колонке могут использоваться и относительные показатели, характеризующие долю частоты отдельных вариантов в общей сумме частот. Эти относительные показатели именуют частостями и условно обозначают через , т.е. . Сумма всех частостей равна единице. Частости могут быть выражены и в процентах, и тогда их сумма будет равна 100%.

Варьирующие признаки могут носить разный характер. Варианты одних признаков выражаются в целых числах, например, число комнат в квартире, число изданных книг и т.д. Эти признаки именуют прерывными, или дискретными. Варианты других признаков могут принимать любые значения в определенных пределах, как, например, выполнение плановых заданий, заработная плата и др. Эти признаки называют непрерывными.

Дискретный вариационный ряд. Если варианты вариационного ряда выражены в виде дискретных величин, то такой вариационный ряд называют дискретным, его внешний вид представлен в табл. 5.2:

Распределение студентов по оценкам, полученным на экзамене

Количество студентов (f)

В % к итогу ()

Характер распределения в дискретных рядах изображается графически в виде полигона распределения, рис.5.1.

Рис. 5.1. Распределение студентов по оценкам, полученным на экзамене.

Интервальный вариационный ряд. Для непрерывных признаков вариационные ряды строятся интервальные, т.е. значения признака в них выражаются в виде интервалов «от и до». При этом минимальное значение признака в таком интервале именуют нижней границей интервала, а максимальное – верхней границей интервала.

Интервальные вариационные ряды строят как для прерывных признаков (дискретных), так и для варьирующих в большом диапазоне. Интервальные ряды могут быть с равными и неравными интервалами. В экономической практике в большинстве своем применяются неравные интервалы, прогрессивно возрастающие или убывающие. Такая необходимость возникает особенно в тех случаях, когда колеблемость признака осуществляется неравномерно и в больших пределах.

Рассмотрим вид интервального ряда с равными интервалами, табл. 5.3:

Распределение рабочих по выработке

Кумулятивная частота (f´)

Интервальный ряд распределения графически изображается в виде гистограммы, рис.5.2.

Рис.5.2. Распределение рабочих по выработке

Накопленная (кумулятивная) частота. В практике возникает потребность в преобразовании рядов распределения в кумулятивные ряды, строящиеся по накопленным частотам. С их помощью можно определить структурные средние, которые облегчают анализ данных ряда распределения.

Накопленные частоты определяются путем последовательного прибавления к частотам (или частостям) первой группы этих показателей последующих групп ряда распределения. Для иллюстрации рядов распределения используются кумуляты и огивы. Для их построения на оси абсцисс отмечаются значения дискретного признака (или концы интервалов), а на оси ординат – нарастающие итоги частот (кумулята), рис.5.3.

Рис. 5.3. Кумулята распределения рабочих по выработке

Если шкалы частот и вариантов поменять местами, т.е. на оси абсцисс отражать накопленные частоты, а на оси ординат – значения вариантов, то кривая, характеризующая изменение частот от группы к группе, будет носит название огивы распределения, рис.5.4.

Рис. 5.4. Огива распределения рабочих по выработке

Вариационные ряды с равными интервалами обеспечивают одно из важнейших требований, предъявляемых к статистическим рядам распределения, обеспечение сравнимости их во времени и пространстве.

Плотность распределения. Однако частоты отдельных неравных интервалов в названных рядах непосредственно не сопоставимы. В подобных случаях для обеспечения необходимой сравнимости исчисляют плотность распределения, т.е. определяют, сколько единиц в каждой группе приходится на единицу величины интервала.

При построении графика распределения вариационного ряда с неравными интервалами высоту прямоугольников определяют пропорционально не частотам, а показателям плотности распределения значений изучаемого признака в соответствующих интервалах.

Составление вариационного ряда и его графическое изображение является первым шагом обработки исходных данных и первой ступенью анализа изучаемой совокупности. Следующим шагом в анализе вариационных рядов является определение основных обобщающих показателей, именуемых характеристиками ряда. Эти характеристики должны дать представление о среднем значении признака у единиц совокупности.

Средняя величина. Средняя величина представляет собой обобщенную характеристику изучаемого признака в исследуемой совокупности, отражающая ее типический уровень в расчете на единицу совокупности в конкретных условиях места и времени.

Средняя величина всегда именованная, имеет ту же размерность, что и признак у отдельных единиц совокупности.

Перед вычислением средних величин необходимо произвести группировку единиц исследуемой совокупности, выделив качественно однородные группы.

Средняя, рассчитанная по совокупности в целом называется общей средней, а для каждой группы – групповыми средними.

Существуют две разновидности средних величин: степенные (средняя арифметическая, средняя гармоническая, средняя геометрическая, средняя квадратическая); структурные (мода, медиана, квартили, децили).

Выбор средней для расчета зависит от цели.

Виды степенных средних и методы их расчета. В практике статистической обработки собранного материала возникают различные задачи, для решения которых требуются различные средние.

Математическая статистика выводит различные средние из формул степенной средней:

Однако вопрос о том, какой вид средней необходимо применить в каждом отдельном случае, разрешается путем конкретного анализа изучаемой совокупности.

Наиболее часто встречающимся в статистике видом средних величин является средняя арифметическая. Она исчисляется в тех случаях, когда объем осредняемого признака образуется как сумма его значений у отдельных единиц изучаемой статистической совокупности.

В зависимости от характера исходных данных средняя арифметическая определяется различными способами:

Если данные несгруппированные, то расчет ведется по формуле простой средней величины

Если значение признака встречается несколько раз, то среднюю величину находят по формуле для сгруппированных данных и средняя величина будет называться среднеарифметическая взвешенная.

Расчет средней арифметической в дискретном ряду происходит по формуле 3.4.

Расчет средней арифметической в интервальном ряду. В интервальном вариационном ряду, где за величину признака в каждой группе условно принимается середина интервала, средняя арифметическая может отличаться от средней, рассчитанной по несгруппированным данным. Причем, чем больше величина интервала в группах, тем больше возможные отклонения средней, вычисленной по сгруппированным данным, от средней, рассчитанной по несгруппированным данным.

При расчете средней по интервальному вариационному ряду для выполнения необходимых вычислений от интервалов переходят к их серединам. А затем рассчитывают среднюю величину по формуле средней арифметической взвешенной.

Свойства средней арифметической. Средняя арифметическая обладает некоторыми свойствами, которые позволяют упрощать вычисления, рассмотрим их.

1. Средняя арифметическая из постоянных чисел равна этому постоянному числу.

Если х = а. Тогда .

2. Если веса всех вариантов пропорционально изменить, т.е. увеличить или уменьшить в одно и то же число раз, то средняя арифметическая нового ряда от этого не изменится.

Если все веса f уменьшить в k раз, то .

3. Сумма положительных и отрицательных отклонений отдельных вариантов от средней, умноженных на веса, равна нулю, т.е.

Если , то . Отсюда .

Если все варианты уменьшить или увеличить на какое- либо число, то средняя арифметическая нового ряда уменьшится или увеличится на столько же.

Уменьшим все варианты x на a, т.е. x´ = x – a.

Тогда

Среднюю арифметическую первоначального ряда можно получить, прибавляя к уменьшенной средней ранее вычтенное из вариантов числа a, т.е. .

5. Если все варианты уменьшить или увеличить в k раз, то средняя арифметическая нового ряда уменьшится или увеличится во столько же, т.е. в k раз.

Пусть , тогда .

Отсюда , т.е. для получения средней первоначального ряда среднюю арифметическую нового ряда (с уменьшенными вариантами) надо увеличить в k раз.

Средняя гармоническая. Средняя гармоническая это величина обратная средней арифметической. Ее используют, когда статистическая информация не содержит частот по отдельным вариантам совокупности, а представлена как их произведение (М= xf). Средняя гармоническая будет рассчитываться по формуле 3.5

Практическое применение средней гармонической – для расчета некоторых индексов, в частности, индекса цен.

Средняя геометрическая. При применении средней геометрической индивидуальные значения признака представляют собой, как правило, относительные величины динамики, построенные в виде цепных величин, как отношение к предыдущему уровню каждого уровня в ряду динамики. Средняя характеризует, таким образом, средний коэффициент роста.

Средняя геометрическая величина используется также для определения равноудаленной величины от максимального и минимального значений признака. Например, страховая компания заключает договоры на оказание услуг автострахования. В зависимости конкретного страхового случая страховая выплата может колебаться от 10000 до 100000 долл. в год. Средняя сумма выплат по страховке составит долл.

Средняя геометрическая это величина, используемая как средняя из отношений или в рядах распределения, представленных в виде геометрической прогрессии, когда z = 0. Этой средней удобно пользоваться, когда уделяется внимание не абсолютным разностям, а отношениям двух чисел.

Формулы для расчета следующие

– для невзвешенных значений,

– взвешенная,

где – варианты осредняемого признака; – произведение вариантов; f – частота вариантов.

Средняя геометрическая используется в расчетах среднегодовых темпов роста.

Средняя квадратическая. Формула средней квадратической используется для измерения степени колеблемости индивидуальных значений признака вокруг средней арифметической в рядах распределения. Так, при расчете показателей вариации среднюю вычисляют из квадратов отклонений индивидуальных значений признака от средней арифметической величины.

Средняя квадратическая величина рассчитывается по формуле

В экономических исследованиях средняя квадратическая в измененном виде широко используется при расчете показателей вариации признака, таких как дисперсия, среднее квадратическое отклонение.

Правило мажорантности. Между степенными средними существует следующая зависимость – чем больше показатель степени, тем больше значение средней, табл.5.4:

Соотношение между средними величинами

Соотношение между средними

, если совокупность небольшая и мода отчетливо выражена.

Все рассмотренные формы степенной средней обладают важным свойством (в отличие от структурных средних) – в формулу определения средней входят все значения ряда т.е. на размеры средней оказывают влияние значение каждого варианта.

С одной стороны, это весьма положительное свойство т.к. в этом случае учитывается действие всех причин, воздействующих на все единицы изучаемой совокупности. С другой стороны, даже одно наблюдение, попавшее в исходные данные случайно, может существенным образом исказить представление об уровне развития изучаемого признака в рассматриваемой совокупности (особенно в коротких рядах).

Квартили и децили. По аналогии с нахождением медианы в вариационных рядах можно отыскать значение признака у любой по порядку единицы ранжированного ряда. Так, в частности, можно найти значение признака у единиц, делящих ряд на 4 равные части, на 10 и т.п.

Квартили. Варианты, которые делят ранжированный ряд на четыре равные части, называют квартилями.

При этом различают: нижний (или первый) квартиль (Q1) – значение признака у единицы ранжированного ряда, делящей совокупность в соотношении ¼ к ¾ и верхний (или третий) квартиль(Q3) – значение признака у единицы ранжированного ряда, делящий совокупность в соотношении ¾ к ¼.

Второй квартиль, есть медиана Q2 = Ме. Нижний и верхний квартили в интервальном ряду рассчитываются по формуле аналогично медиане.

Для нижнего квартиля .

Для верхнего квартиля .

где – нижняя граница интервала, содержащего соответственно нижний и верхний квартиль;

– накопленная частота интервала, предшествующего интервалу, содержащему нижний или верхний квартиль;

– частоты квартильных интервалов (нижнего и верхнего)

Интервалы, в которых содержатся Q1 и Q3 определяют по накопленным частотам (или частостям).

Децили. Кроме квартилей рассчитывают децили – варианты, делящие ранжированный ряд на 10 равных частей.

Обозначаются они через D, первый дециль D1 делит ряд в соотношении 1/10 и 9/10, второй D2 – 2/10 и 8/10 и т.д. Вычисляются они по той же схеме, что и медиана и квартили.

первый дециль.

второй дециль и т.д.

И медиана, и квартили, и децили принадлежат к так называемым порядковым статистикам, под которым понимают вариант, занимающий определенное порядковое место в ранжированном ряду.

Источник

Ряды распределения

Понятие о рядах распределения

Среди простых группировок особо выделяют ряды распределения.

Рядом распределения в статистике называется упорядоченное распределение единиц совокупности на группы по какому-либо признаку.

В зависимости от признака положенного в основание ряда распределения различают атрибутивные и вариационные ряды распределения.

Ряды распределения, построенные по описательному признаку, называются атрибутивными рядами.

Пример атрибутивного ряда распределения приведен по данным таблицы 3.5 в таблице 5.1.

Ряд распределения сельскохозяйственных предприятий региона по их организационноправовой форме хозяйствования

Группы предприятий по организационноправовой форме хозяйствования	Количество предприятий, ед.	Удельный вес предприятий, %
Государственные предприятия	6	20
Общества с ограниченной ответственностью	17	56,7
Фермерские хозяйства	7	23,3
Всего	30	100,0

Ряды распределения, построенные по количественному признаку, называются вариационными рядами.

В вариационном ряду различают два элемента: варианты и частоты.

Вариантами (х) называются отдельные значения группировочного признака, которые он принимает в вариационном ряду, т.е. конкретные числовые значения признака единиц совокупности.

Числа, которые показывают, как часто встречаются те или иные варианты в ряду распределения, называются частотами (f). Частоты могут быть даны и как относительные величины структуры (в процентах, или долях единицы, или в промилле). В этом случае их называют частостями.

Сумма всех частот определяет численность всей совокупности, т.е. ее объем (N).

По своей конструкции вариационный ряд состоит из двух столбцов: один столбец – значения варьирующего признака, другой – частоты или частости. Макет вариационного ряда приведен в таблице 5.2.

Для удобства вариационный ряд распределения может быть развернут (см. табл. 4.8). В таблице 4.2 возраст студентов представлен соответствующими вариантами, а число студентов – частотами.

Вариационные ряды по способу построения бывают двух видов: дискретные и интервальные.

Дискретные вариационные ряды характеризуются тем, что варианты в них имеют значения отдельных целых чисел. Пример дискретного вариационного ряда приведен в таблице 4.8.

Если число вариант велико или признак имеет непрерывную вариацию, то объединение значений отдельных наблюдений в группы возможно лишь посредством интервала.

Интервальные вариационные ряды характеризуются тем, что значения вариант в них заданы в виде интервалов.

Пример интервального вариационного ряда распределения приведен по данным таблицы 3.8 в таблице 5.3.

Ряд распределения сельскохозяйственных предприятий региона по урожайности

Группы предприятий по по урожайности (х), ц/га	Количество предприятий (f), ед.	Удельный вес предприятий (f), %
15,8-18,97	3	10
18,97-22,14	4	13,3
22,14-25,31	11	36,7
25,31-28,48	7	23,4
28,48-31,65	4	13,3
31,65-34,82	1	3,3
Всего	30	100,0

Приведенный в таблице 5.3 вариационный ряд показывает, что наиболее многочисленную группу составляют предприятия с урожайностью от 22,14 ц/га до 25,31 ц/га – 11 предприятий или 36,7 % от всей совокупности. В группах выше и ниже этой группы число предприятий убывает, причем в группах с более высокой урожайностью число предприятий больше. Так, количество предприятий в группах с урожайностью свыше 25,31 ц/га составляет 12 (7 + 4 + 1) или 40 % (23,4 + 13,3 + 3,3), а в группах ниже 22,14 ц/га – 7 (3 + 4) предприятий или 23,3 % (10 + 13,3).

Если вариационный ряд имеет группы с неравными интервалами, то частоты в отдельных интервалах непосредственно не сопоставимы, так как зависят от ширины интервала. Для того чтобы частоты можно было бы сравнить исчисляют плотность распределения – частоту (т.е. число единиц совокупности), рассчитанную на единицу ширины интервала.

Пример расчета плотности распределения приведен в таблице 5.4.

Ряд распределения работников предприятия по возрасту

Возраст работников, лет	Число работников, чел.	Плотность распределения, чел./год
16-18	2	1,0 (2 : (18-16) = 2 : 2)
18-25	12	1,7
25-45	20	1
45-60	26	1,7
60-65	5	1
Всего	65	—

Для изображения вариационных рядов применяются линейные и плоскостные диаграммы, построенные в прямоугольной системе координат.

При дискретной вариации признака графиком вариационного ряда служит полигон распределения. Графическим изображением интервальных вариационных рядов служит гистограмма.

При неравных интервалах гистограмма строится только по плотности распределения. При построении графиков рядов распределения по оси абсцисс приводятся варианты, а по оси ординат – соответствующие им частоты (частости).

Примеры полигона распределения и гистограммы, построенные по данным таблиц 4.8, 5.3 и 5.4, приведены на рис. 5.1.

Для иллюстрации рядов распределения используются также кумуляты и огивы. Для их построения на оси абсцисс отмечаются значения дискретного признака (или концы интервалов), а на оси ординат – нарастающие итоги частот (кумулята) или частостей (огива), соответствующих этим значениям признака.

Кумулята распределения студентов по возрасту приведена на рис. 5.2.

Вариационные ряды дают возможность установить характер распределения единиц совокупности по тому или иному количественному признаку с помощью расчета четырех видов характеристик (групп показателей), указанных на рис. 5.3.

Анализ показателей, характеризующих центральную тенденцию ряда распределения, степень вариации, дифференциации и концентрации значений варьирующего признака, а также форму их распределения, позволяет дать комплексную оценку характера распределения единиц совокупности (комплексную характеристику строения исследуемого социально-экономического явления).

Мода и медиана

Для характеристики центральной тенденции (положения центра) ряда распределения кроме средней арифметической величины применяются структурные средние: медиана и мода, используемые для изучения внутреннего строения рядов распределения значений признаков.

В отличие от средней арифметической, рассчитываемой на основе всех вариант, мода и медиана характеризуют значение признака у единицы совокупности, занимающей определенное положение в вариационном ряду распределения.

Медиана – значение признака единицы совокупности, стоящей в середине упорядоченного ряда и делящей совокупность на две равные по численности части. В итоге у одной половины единиц совокупности значение признака не превышает медианного уровня, а у другой – не меньше его.

Медиану используют как наиболее надежный показатель типичного значения признака единиц неоднородной совокупности, так как она нечувствительна к крайним значениям признака, которые могут значительно отличаться от основного массива его значений.

В дискретном вариационном ряду медианой следует считать значение признака в той группе единиц совокупности, в которой накопленная частота превышает половину численности совокупности. Например, по данным таблицы 4.8 медиана равна 19 лет (2 + 11 > 20 : 2).

При четном числе единиц совокупности за медиану принимают арифметическую среднюю величину из двух центральных вариант, например при десяти значениях признака – среднюю из пятого и шестого значений в ранжированном ряду.

В интервальном вариационном ряду для нахождения медианы (Ме) применяется формула:

где х_Ме – нижняя граница интервала, в котором находится медиана (медианного интервала);
i_Ме – величина медианного интервала;
Σf_i – сумма частот ряда;
S_{(Ме – 1)} – накопленная частота в интервале, предшествующем медианному;
f_Ме – частота медианного интервала.

При нечетном числе единиц совокупности номер медианы равен не Σf_i /2, а (Σf_i + 1)/2.

Пример расчета медианы

По данным таблицы 4.13 следует найти медианное значение заработной платы работников предприятия. Для этого предварительно рассчитаем значения накопленных частот для каждого интервала, приведенные в таблице 5.5.

Накопленные частоты ряда распределения работников предприятия по уровню заработной платы

Группы работников по уровню заработной платы, руб.	Число работников, чел. (f_i)	Накопленная частота, чел. (S_Ме)
8000-10000	20	20
10000-12000	80	100 (20 + 80)
12000-14000	160	260 (100 + 160)
14000-16000	90	350 (260 + 90)
16000-18000	40	390 (350 + 40)
18000 и выше	10	400 (390 + 10)
Всего	400	–

Медианным является срединное из 400 значений ряда распределения, т. е. 200-е от начала ряда распределения значение заработной платы (400 : 2), которое находится в третьем интервале, что видно из ряда накопленных частот (260 >200). Третий интервал является медианным.

По формуле 5.1: Ме = 13250 руб., т. е. одна половина работников предприятия имеет заработную плату меньше 13250 руб., а другая – больше.

Модой называется варианта (значение признака), которая в изучаемом ряду распределения встречается чаще всего.

Например, в дискретном вариационном ряду это варианта, имеющая наибольшую частоту.

По данным таблицы 4.8 мода также равна 19 лет, так как это наиболее часто встречающийся возраст студентов в их группе (11 человек).

Если два или несколько значений признака встречаются равное количество раз, вариационный ряд считается бимодальным или мультимодальным. Это говорит о неоднородности совокупности.

В интервальном вариационном ряду модальным интервалом является интервал с наибольшей частотой. Внутри этого интервала находят условное значение признака, вблизи которого плотность распределения, т. е. число единиц совокупности, приходящееся на единицу измерения варьирующего признака, достигает максимума. Это условное значение считается точечной модой.

В интервальном вариационном ряду для нахождения моды (Мо) применяется формула:

где х_Мо – нижняя граница модального интервала (наиболее часто встречающегося);
i_Мо – величина модального интервала;
f_Мо – частота модального интервала;
f_{(Мо – 1)} – частота интервала, предшествующего модальному;
f_{(Мо + 1)} – частота интервала, следующего за модальным.

Мода широко используется в статистической практике при изучении покупательского спроса, регистрации цен и др.

Пример расчета моды

По данным таблицы 4.13 нужно найти модальное значение заработной платы работников предприятия.

Модальным является третий интервал, имеющий наибольшую частоту (160 чел.).

По формуле 5.2: Мо = 13066,67 руб., т.е. наибольшее число работников предприятия имеет заработную плату 13066,67 руб.

При выборе конкретного показателя центра распределения исходят из таких рекомендаций:

– для устойчивых социально-экономических процессов (однородных совокупностей) в качестве показателя центра используют среднюю арифметическую величину. Такие процессы характеризуются симметричными распределениями, в которых х = Ме = Мо;

– для неустойчивых процессов положение центра распределения характеризуется с помощью моды или медианы. Для асимметричных процессов предпочтительной характеристикой центра распределения является медиана, поскольку занимает положение между средней арифметической величиной и модой: х х > Ме > Мо.

Показатели вариации

При определении общего характера распределения важнейшей задачей является оценка степени его однородности. Однородность статистических совокупностей характеризуется величиной вариации значений признака.

Вариация, т.е. несовпадение уровней значений признаков у единиц совокупности, имеет объективный характер, так как численный уровень значений признака определяется конкретными условиями, в которых находится каждая из изучаемых единиц совокупности, а также особенностями их развития. Вариация помогает познать сущность изучаемого явления.

Для измерения вариации в статистике применяют несколько способов.

Наиболее простым является расчет показателя «размах вариации» (R), представляющего собой разницу между максимальным и минимальным значением наблюдаемого признака, по формуле:

где х_max и х_min – соответственно, максимальное и минимальное значение признака в исследуемой срвокупности.

Размах вариации охватывает только крайние отклонения значений признака, но не отражает отклонений от средней величины всех вариант в ряду. Чем больше размах вариации, тем менее однородна исследуемая совокупность.

Точнее характеризуют вариацию признака показатели, основанные на учете колеблемости (отклонений) всех значений признака от его среднего уровня. От величины этих отклонений зависит типичность и надежность средних характеристик исследуемой совокупности.

Средние отклонения значений признаков каждой единицы совокупности от среднего значения признака в целом отражают показатели вариации. Показатели вариации используют для оценки степени однородности исследуемой совокупности по варьирующему признаку и типичности средней величины.

Простейший показатель такого типа – среднее линейное отклонение, представляющее собой среднее арифметическое значение абсолютных отклонений признака от его среднего уровня.

Среднее линейное отклонение ( d ) по несгруппированным данным рассчитывается по формуле:

Среднее линейное отклонение ( d ) по сгруппированным данным рассчитывается по формуле:

Чем меньше среднее линейное отклонение, тем более однородны значения признака изучаемого явления.

Основной недостаток показателя среднего линейного отклонения заключается в том, что при его расчетах пренебрегают знаками, следовательно, конечный результат получается со значительной погрешностью. Для того чтобы расчет был более точным, определяют средний квадрат отклонений (дисперсию), представляющий собой средний квадрат отклонений значений признака от его среднего уровня.

Дисперсия (σ 2 ) по несгруппированным данным рассчитывается по формуле:

Дисперсия (σ 2 ) по сгруппированным данным рассчитывается по формуле:

Среднее квадратическое отклонение (σ) рассчитывается по формуле:

Среднее квадратическое отклонение является абсолютной мерой вариации и зависит не только от степени вариации признака, но и от абсолютных уровней вариант и средней, что не позволяет непосредственно сравнивать средние квадратические отклонения вариационных рядов с разными уровнями. Среднее квадратическое отклонение выражается в тех же единицах измерения, что и усредняемые значения признака исследуемой совокупности.

Для сравнительной характеристики вариационных рядов с разными уровнями по степени надежности их средней величины и однородности исследуемых совокупностей рассчитывается относительная мера вариации – коэффициент вариации.

Коэффициент вариации (V) в процентном выражении рассчитывается по формуле:

Чем больше значение коэффициента вариации, тем больше разброс значений признака вокруг средней, тем менее однородна совокупность по своему составу и тем менее представительна (типична) средняя величина.

Вместе с тем, конкретное значение коэффициента вариации не всегда позволяет однозначно характеризовать степень ее интенсивности и однородность исследуемой совокупности. Оценка степени интенсивности вариации должна учитывать особенности единиц наблюдения и признаков, их характеризующих. В частности, для совокупности сельхозяйственных предприятий вариация урожайности в одном и том же природном регионе может быть оценена как слабая, если V 25%. Напротив, вариация роста в совокупности взрослых мужчин или женщин уже при V = 7%, должна быть оценена и восприниматься как сильная.

Таким образом, оценка интенсивности вариации состоит в сравнении наблюдаемой вариации с некоторой обычной ее интенсивностью, принимаемой за норматив. Если различия в урожайности, заработной плате или доходе на душу населения в несколько раз воспринимаются как вполне естественные, то различия в росте людей хотя бы в полтора раза уже воспринимаются как очень сильные.

Пример расчета показателей вариации

По данным таблицы 4.13 необходимо охарактеризовать ряд распределения работников предприятия по заработной плате на предмет его однородности и типичности среднего значения уровня заработной платы для работников предприятия.

По формуле 5.3 размах вариации (R = 20000 – 8000 = 12000 руб.), т.е. разница между максимальным и минимальным уровнем оплаты труда на предприятии составляет 12000 руб. На первый взгляд это достаточно большой разброс в оплате труда работников предприятия, т.е. исследуемая совокупность не однородна по уровню оплаты труда. Данное предположение подтвердится или нет последующими расчетами. Отметим, что верхнюю границу последнего открытого интервала определили исходя их величины смежного с ним интервала, которая равна 2000 руб. (18000 – 16000), 18000 + 2000 = 20000 руб.

Расчет среднего линейного отклонения проведем с помощью данных таблицы 5.6.

Данные для расчета среднего линейного отклонения заработной платы работников предприятия

Группы работников по уровню заработной платы, руб.	Число работников, чел. (f_i)	Середина интервала, руб. (x_i)	\|x_i— X \|	\|x_i— X \| × f_i
8000-10000	20	9000	4400	88000
10000-12000	80	11000	2400	192000
12000-14000	160	13000	400	64000
14000-16000	90	15000	1600	144000
16000-18000	40	17000	3600	144000
18000 и выше	10	19000	5600	56000
Всего	400	–	–	688000

Средняя заработная плата работников предприятия, рассчитанная по формуле 4.22 ( X ), равна 13400 руб.

По формуле 5.5: d = 1720 руб.

Расчет дисперсии (среднего квадрата отклонений) и среднего квадратического отклонения проведем с помощью данных таблицы 5.7

Данные для расчета среднего квадрата отклонений заработной платы работников предприятия

Группы работников по уровню заработной платы, руб.	Число работников, чел. (f_i)	Середина интервала, руб. (x_i)	(x_i— X ) 2	(x_i— X ) 2 × f_i
8000-10000	20	9000	19360000	387200000
10000-12000	80	11000	5760000	460800000
12000-14000	160	13000	160000	25600000
14000-16000	90	15000	2560000	230400000
16000-18000	40	17000	12960000	518400000
18000 и выше	10	19000	31360000	313600000
Всего	400	–	–	1936000000

По формуле 5.7: σ 2 = 4840000.

По формуле 5.8: σ = 2200 руб.

На основании полученных показателей вариации трудно с уверенностью оценить однородность работников предприятия по уровню их заработной платы.

По формуле 5.9: V = 16,4%, что говорит о достаточной однородности исследуемой совокупности по уровню зарплаты и типичности ее среднего уровня.

Дисперсия обладает рядом математических свойств, упрощающих технику ее расчета. В частности:

Эти свойства положены в основу расчета дисперсии способом моментов. Способ моментов применим в том случае, если задан интервальный ряд с равными интервалами.

Дисперсия методом моментов рассчитывается по формуле:

где h – шаг интервала; m’, m» – соответственно моменты первого и второго порядка. Момент первого порядка рассчитывается по формуле 4.32. Момент второго порядка рассчитывается по формуле:

Пример расчета дисперсии методом моментов

На основе данных таблицы 4.13 рассчитаем дисперсию методом моментов. Для этого построим вспомогательную таблицу 5.8, используя данные таблицы 4.15 и комментарии к ней.

Данные для расчета дисперсии заработной платы работников предприятия способом моментов

Группы работников по уровню заработной платы, руб.	Число работников, чел. (f_i)	Середина интервала, руб. (x_i)	(x_i-A)/h	[(x_i-A)/h] 2	[(x_i-A)/h] 2 × f_i
8000-10000	20	9000	-2	4	80
10000-12000	80	11000	-1	1	80
12000-14000	160	13000	0	0	0
14000-16000	90	15000	1	1	90
16000-18000	40	17000	2	4	160
18000 и выше	10	19000	3	9	90
Всего	400	–	–	–	500

По формуле 4.32: m’ = 0,2.

По формуле 5.11: m» = 1,25.

По формуле 5.10: σ 2 = 4840000, что равно значению дисперсии, полученному по данным таблицы 5.7, по формуле 5.7.

Для расчета дисперсии в любых рядах распределения (дискретных и интервальных с равными и неравными интервалами) применяется другой упрощенный метод расчета дисперсии – способ разности.

Дисперсия способом разности рассчитывается по формуле:

где x – среднее значение варьирующего признака, исчисленное по формуле 4.22;

x 2 – среднее значение квадратов вариант, рассчитываемое по формуле:

Пример расчета дисперсии методом разности

Дисперсию методом разности рассчитаем по данным таблицы 4.13.

Средняя заработная плата работников предприятия, исчисленная ранее: x = 13400 руб.

Для расчета среднего значения квадратов вариант составим вспомогательную таблицу 5.9.

Данные для расчета средней величины квадратов значений зарплаты работников предприятия

Группы работников по уровню заработной платы, руб.	Число работников, чел. (f_i)	Середина интервала, руб. (x_i)	x_i 2	x_i 2 × f_i
8000-10000	20	9000	81000000	1620000000
10000-12000	80	11000	121000000	9680000000
12000-14000	160	13000	169000000	27040000000
14000-16000	90	15000	225000000	20250000000
16000-18000	40	17000	289000000	11560000000
18000 и выше	10	19000	361000000	3610000000
Всего	400	–	–	73760000000

По формуле 5.13: x 2 = 184400000.

По формуле 5.12: σ 2 = 184400000 – 13400 2 = 4840000, что совпадает со значения дисперсии, найденными другими способами.

Виды дисперсии. Понятие об эмпирическом коэффициенте детерминации и эмпирическом корреляционном отношении

Вариация признака определяется различными факторами, в результате чего различают общую дисперсию, межгрупповую дисперсию и внутригрупповую дисперсию.

Общая дисперсия (σ 2 ) измеряет вариацию признака во всей совокупности под влиянием всех факторов, обусловивших эту вариацию.

Вместе с тем, благодаря методу группировок можно выделить и измерить вариацию, обусловленную группировочным признаком, и вариацию, возникающую под влиянием неучтенных факторов.

Межгрупповая дисперсия (σ 2 _м.гр) характеризует систематическую вариацию, т. е. различия в величине изучаемого признака, возникающие под влиянием признака – фактора, положенного в основание группировки, и рассчитывается по формуле:

где k – количество групп, на которые разбита вся совокупность;
m_j – количество объектов, наблюдений, включенных в группу j;
x _j – среднее значение признака по группе j;
x – общее среднее значение признака.

Внутригрупповая дисперсия (σ 2 _j,вн.гр) отражает случайную вариацию, т.е. часть вариации, возникающую под влиянием неучтенных факторов и независящую от признака-фактора, положенного в основание группировки, и рассчитывается по формуле:

или, на основе метода разностей, по формуле:

где xij – значение i-ой варианты в группе j.

Если в сформированных группах отдельные данные встречаются не один раз, то для расчета внутригрупповой дисперсии используется формула средней арифметической взвешенной.

Среднее значение внутригрупповых дисперсий рассчитывается по формуле:

Существует закон, согласно которому общая дисперсия, возникающая под воздействием всех факторов, равна сумме дисперсии, возникающей за счет группировочного признака и дисперсии, появляющейся под влиянием всех прочих факторов.

Правило сложения дисперсий выражается формулой:

Правило сложения дисперсии широко применяется при исчислении тесноты связей между признаками (факторным и результативным). Для этого определяют эмпирический коэффициент детерминации и эмпирическое корреляционное отношение.

Эмпирический коэффициент детерминации показывает, какая доля всей вариации признака обусловлена признаком, положенным в основание группировки.

Эмпирический коэффициент детерминации (η 2 ) рассчитывается по формуле:

Эмпирическое корреляционное отношение показывает тесноту связи между признаками – группировочным и результативным.

Эмпирическое корреляционное отношение (η) рассчитывается по формуле:

Оно изменяется в пределах от 0 до 1. Характеристика связи между признаками при соответствующих значениях эмпирического корреляционного отношения приведена в таблице 5.10.

Качественная оценка связи между признаками

Значение η	0	0-0,2	0,2-0,3	0,3-0,5	0,5-0,7	0,7-0,9	0,9-0,99	1
Характеристика связи	отсутствует	очень слабая	слабая	умеренная	заметная	тесная	очень тесная	функциональная

Пример расчета общей, межгрупповой и внутригрупповой дисперсии, эмпирического коэффициента детерминации и эмпирического корреляционного отношения

Вариация урожайности зерновых культур сельскохозяйственных предприятий одного региона (см. табл. 3.3) обусловлена влиянием различных факторов: качеством земель, погодными условиями, уровнем агрокультуры и т.п. Уровень агрокультуры и состояние технической базы сельхозпроизводства определяется, в частности, организационно-правовой формой хозяйствования (предприятия).

По результатам комбинационной группировки сельскохозяйственных предприятий (см. табл. 3.10) можно предположить наличие зависимости урожайности от организационно-правовой формы предприятия. Необходимо оценить тесноту связи между урожайностью зерновых культур сельхозпредприятий и их организационно-правовой формой. В данном случае организационноправовая форма хозяйствования является группировочным фактором, урожайность зерновых культур – результативным.

По данным столбцов А, Б и 1 таблицы 3.10 построим таблицу 5.11, представляющую собой группировку сельскохозяйственных предприятий, имеющих разную урожайность зерновых культур, по их организационно-правовой форме.

Для расчета общей и внутригрупповых дисперсий составим таблицу 5.12.

В качестве х_i примем середины интервалов урожайности зерновых культур, приведенных в табл. 5.11.

Средняя урожайность, рассчитанная по всей совокупности предприятий по формуле 4.22: 24,57 ц/га.

Группировка сельскохозяйственных предприятий с разной урожайностью зерновых культур по организационно-правовой форме хозяйствования

Урожайность, ц/га (х_i)	Количество предприятий, ед. (f_{i 0})	В том числе
Урожайность, ц/га (х_i)	Количество предприятий, ед. (f_{i 0})	государственных предприятий (f_{i 1})	обществ с ограниченной ответственностью (f_{i 2})	фермерских хозяйств (f_{i 3})
15,8-18,97	3	2	1	–
18,97-22,14	4	–	4	–
22,14-25,31	11	3	8	–
25,31-28,48	7	1	3	3
28,48-31,65	4	–	1	3
31,65-34,82	1	–	–	1
Всего	30	6	17	7

Данные для расчета общей и групповых дисперсий

х_i, ц/га	rowspan=2>f_{i 0}	х_i × f_{i 0}	(х_i— х₀ ) 2 × f_{i 0}	Государственные предприятия
х_i, ц/га	f_{i 1}	х_i × f_{i 0}	(х_i— х₀ ) 2 × f_{i 0}	х_i × f_{i 1}	(х_i— х₁ ) 2 × f_{i 1}
1	2	3	4	5	6	7
17,385	3	52,155	154,87	2	34,770	45,22
20,555	4	82,220	64,48	–	–	–
23,725	11	260,975	7,85	3	71,175	7,54
26,895	7	188,265	37,84	1	26,895	22,61
30,065	4	120,260	120,78	–	–	–
33,235	1	33,235	75,08	–	–	–
Всего	30	737,110	460,90	6	132,840	75,37

Продолжение таблицы 5.12

х_i, ц/га	Общества с ограниченной ответственностью			Фермерские хозяйства
х_i, ц/га	f_{i 2}	х_i × f_{i 2}	(х_i— х₂ ) 2 × f_{i 2}	f_{i 3}	х_i × f_{i 3}	(х_i— х₃ ) 2 × f_{i 3}
1	8	9	10	11	12	13
17,385	1	17,385	37,88	–	–	–
20,555	4	82,220	35,64	–	–	–
23,725	8	189,800	0,27	–	–	–
26,895	3	80,685	33,77	3	80,685	15,39
30,065	1	30,065	42,58	3	90,195	2,46
33,235	–	–	–	1	33,235	16,61
Всего	17	400,155	150,14	7	204,115	34,46

Значения показателей средней урожайности зерновых культур государственных предприятий, обществ с ограниченной ответственностью и фермерских хозяйств не совпадали со значениями этих же показателей, рассчитанными по формуле 4.18 в примере п. 4.4 (с. 64), что обусловлено разными методиками расчета средних величин. Однако они отражают общую тенденцию соотношения урожайности зерновых культур предприятий различных организационно-правовых форм одного региона и дают точный результат при оценке тесноты связи между факторным и результативным показателями.

Общая дисперсия урожайности по всей совокупности предприятий региона, рассчитанная по формуле 5.7: 15,4.

Дисперсия урожайности (формула 5.7):

Межгрупповая дисперсия, рассчитанная по формуле 5.14: 6,7.

Средняя из внутригрупповых дисперсий, рассчитанная по формуле 5.17: 8,7.

Полученные результаты отвечают правилу сложения дисперсий (формула 5.18):

Для оценки тесноты связи между урожайностью и организационно-правовой формой сельхозпредприятий исчислим эмпирический коэффициент детерминации и эмпирическое корреляционное отношение.

Эмпирический коэффициент детерминации, рассчитанный по формуле 5.19: 0,435.

Эмпирический коэффициент детерминации показывает, что 43,5% вариации урожайности зерновых культур сельхозпредприятий региона обусловлено их организационно-правовой формой.

Эмпирическое корреляционное отношение, рассчитанное по формуле 5.20: 0,66.

Полученное значение свидетельствует о заметной связи между урожайностью зерновых культур сельскохозяйственных предприятий региона и их организационно-правовой формой хозяйствования (см. табл. 5.10).

Показатели дифференциации и концентрации распределения

Структуру вариационного ряда характеризуют значения признака, аналогичные медиане, которые называются квантилями или градиентами.

Квантили (градиенты) – это значения признака, которые делят все единицы ряда распределения на равные по численности группы. Частные случаи квантилей приведены на рис. 5.4.

Квантили используются для характеристики степени различия значений уровней признака единиц вариационного ряда, относящихся к выделенным группам. На основании значений квантилей рассчитывают коэффициенты дифференциации: квартильный коэффициент, квинтильный коэффициент, децильный коэффициент, коэффициент фондов, широко используемые при изучении дифференциации доходов населения.

Для расчета квартильного, квинтильного и децильного коэффициентов рассчитываются соответственно первые и последние квартили, квинтили и децили.

Отметим, что второй квартиль (Q2) равен медиане, а первый (Q1) и третий (Q3) квартили исчисляются аналогично расчету медианы, только вместо медианного интервала берется для первого квартиля интервал, в котором находится варианта, отсекающая ¼ численности частот, а для третьего квартиля – варианта, отсекающая ¾ частот.

Первый квартиль (Q1) рассчитывается по формуле:

третий квартиль (Q3) рассчитывается по формуле:

где x_Q1 – нижняя граница интервала, содержащего нижний квартиль (интервал определяется по накопленной частоте, первой превышающей 25%);
x_Q3 – нижняя граница интервала, содержащего верхний квартиль (интервал определяется по накопленной частоте, первой превышающей 75%);
i_Q – величина интервала (квартильного);
S_Q1-1 – накопленная частота интервала, предшествующего интервалу, содержащему нижний квартиль;
S_Q3-1 – накопленная частота интервала, предшествующего интервалу, содержащему верхний квартиль;
f_Q1 – частота интервала, содержащего нижний квартиль;
f_Q3 – частота интервала, содержащего верхний квартиль.

Пример расчета квартилей

По данным таблицы 4.13, используя данные таблицы 5.5, необходимо рассчитать квартили ряда распределения работников предприятия по уровню заработной платы.

Первый квартиль находится во втором интервале (10000-12000), так как его накопленная частота (100 чел.) равна ¼ численности всех работников предприятия (400 : 4 = 100).

По формуле 5.21: Q1 = 12000 руб., т. е. одна четверть работников предприятия получает заработную плату меньше 12000 руб.

Третий квартиль находится в четвертом интервале (14000-16000), так как его накопленная частота (350 чел.) превышает 3/4 численности всех работников предприятия (400 : 4 × 3 = 300).

По формуле 5.2: Q3 = 14888,89 руб., т. е. три четверти работников предприятия получают заработную плату меньше 14889 руб., одна четверть – больше.

Методика расчета квинтилей, децилей и других квантилей аналогична расчету квартилей.

Пример расчета децилей

По данным таблицы 4.13, используя данные таблицы 5.5, необходимо рассчитать децили ряда распределения работников предприятия по уровню заработной платы.

Первый дециль, величина которого означает, что 10% единиц совокупности имеют значения ниже этого значения, находится во втором интервале (10000-12000), так как его накопленная частота (100 чел.) превышает численности всех работников предприятия (400 : 10 = 40).

Адаптировав формулу 5.21 к нижнему децилю, рассчитаем его значение: d1 = 10500 руб., т. е. 10% работников предприятия получает заработную плату ниже 10500 руб.

Девятый дециль, величина которого означает, что 10% единиц совокупности имеют значения выше этого значения, находится в пятом интервале (16000-19000), так как его накопленная частота (390 чел.) превышает 9/10 численности всех работников предприятия (400 : 10 × 9 = 360).

Адаптировав формулу 5.22 к верхнему децилю, рассчитаем его значение: d9 = 16500 руб., т. е. 10% работников предприятия получает заработную плату выше 16500 руб.

Методики расчета и сущностная характеристика коэффициентов дифференциации приведены в таблице 5.13.

Общая характеристика коэффициентов дифференциации

Название показателя	Формула для расчета	№ формулы	Сущностная характеристика
Квартильный коэффициент	K_Q = Q3/Q1	5.23	характеризует соотношение между верхним и нижним квартилями и показывает во сколько раз минимальное значение признака в последней четверти единиц совокупности выше максимального значения признака в первой четверти единиц совокупности
Децильный коэффициент	K_d = d9/d1	5.24	характеризует соотношение между верхним и нижним децилями
Коэффициент фондов (фондовый коэффициент)	K_ф = x₁₀ / x₁	5.25	определяется как соотношение между средними уровнями значений признака внутри сравниваемых групп, находящихся в разных концах ряда распределения. Он более точно измеряет уровень дифференциации Формула соответствует случаю, если ряд распределения разбит на десять частей, при этом x₁₀ и x₁ – соответственно среднее значение признака в десятой и первой частях ряда распределения.

В статистической практике эти показатели используются в статистике доходов населения (домашних хозяйств) как показатели распределения денежных доходов, характеризующие степень превышения минимального среднедушевого дохода соответствующей квантильной части наиболее обеспеченного населения над максимальным среднедушевым доходом части наименее обеспеченного населения. Например, децильный коэффициент показывает, во сколько раз минимальный среднедушевой денежный доход 10% наиболее обеспеченной части населения превышает максимальный среднедушевой денежный доход 10% наименее обеспеченного населения.

Пример расчета квартильного и децильного коэффициентов

По данным таблицы 4.13 и примеров расчета квартилей и децилей необходимо рассчитать квартильный и децильный коэффициенты.

По формуле 5.23: K_Q = 1,24, т.е. минимальное значение заработной платы одной четверти наиболее высокооплачиваемых работников предприятия в 1,24 раза превышает максимальное значение заработной платы одной четверти низкооплачиваемых работников.

По формуле 5.24: K_d = 1,57, т.е. минимальное значение заработной платы 10% наиболее высокооплачиваемых работников предприятия в 1,57 раза превышает максимальное значение заработной платы 10 % работников с наименьшим уровнем оплаты труда на предприятии, что характеризует незначительный разрыв в оплате труда работников предприятия.

Фактические статистические данные, характеризующие распределение совокупного дохода домашних хозяйств Российской Федерации по квантильным группам в зависимости от уровня среднедушевых денежных доходов (в расчете в среднем на члена домохозяйства) в месяц, за 2011-2017 гг. приведены в таблице 5.14.

Среднемесячный совокупный доход домашних хозяйств Российской Федерации в среднем на члена домохозяйства, в том числе по квантильным группам в зависимости от уровня среднедушевых денежных доходов, за 2011-2017 гг., руб.

Квантильные группы в зависимости от уровня среднедушевых денежных доходов	2011г.	2013г.	2015г.	2017г.
Квинтильные группы:
– 1 группа (с наименьшими денежными доходами)	6617,5	7465,3	8507,6	9224,9
– 2 группа	11481,3	13271,8	15030,3	15904,1
– 3 группа	16432,8	18762,5	21383,2	22269,2
– 4 группа	23622,1	26770,7	30482,0	31352,0
– 5 группа (с наибольшими денежными доходами)	45362,8	51679,4	56631,7	57907,0
Децильные группы:
– 1 группа (с наименьшими денежными доходами)	4994,3	5566,8	6426,4	7052,1
– 2 группа	8240,7	9363,8	10588,8	11397,7
– 3 группа	10369,5	11990,9	13592,4	14491,4
– 4 группа	12593,0	14552,7	16468,2	17316,7
– 5 группа	15074,5	17206,2	19569,5	20467,2
– 6 группа	17791,0	20318,7	23196,9	24071,2
– 7 группа	21278,7	24128,9	27758,1	28406,0
– 8 группа	25965,4	29412,4	33205,9	34298,0
– 9 группа	34038,4	37406,1	42620,8	43856,3
– 10 группа (с наибольшими денежными доходами)	56687,2	65952,6	70642,5	71957,6
Все домохозяйства	20703,3	23588,7	26406,9	27331,4

Если показатели дифференциации характеризуют степень различия значений признаков единиц совокупности, распределенных в равных по численности группах, то показатели концентрации отражают неравномерность распределения значений признака единиц вариационного ряда в равноинтервальных группах, степень сосредоточения (концентрации) значений признака единиц совокупности в отдельных группах.

Чем выше значения показателей концентрации распределения, тем выше неравномерность распределения единиц совокупности на группы по обусловленному признаку, тем менее однородна по этому признаку исследуемая совокупность.

К показателям концентрации относятся коэффициент концентрации Джини, коэффициент Герфиндаля, коэффициент Розенблюта и др.

Коэффициент концентрации Джини (G) используется для характеристики степени неравномерности распределения значений признака вариационного ряда и рассчитываетсят по формуле:

где p_i – накопленная частость (доля) численности единиц совокупности; q_i – накопленная доля значений признака i-ой группы, приходящихся на все единицы совокупности. Доля значений признака i-ой группы (d_i) рассчитывается по формуле:

n – число групп в совокупности.

Коэффициент концентрации Джини может принимать значения от 0 до 1, поэтому результат следует разделить либо на 100, если p_i или q_i выражены в процентах, либо на 10000, если оба показателя выражены в процентах.

Удаление значения коэффициента Джини от нуля свидетельствует о возрастании степени неравномерности распределения значений признака в вариационном ряду и концентрации значений признака в отдельных группах.

Более простой показатель концентрации – коэффициент Герфиндаля, рассчитываемый на основе данных о доле суммарных значений признаков отдельных групп (выраженных, как правило, абсолютными величинами) в совокупном объеме значений признака.

Коэффициент Герфиндаля (H) рассчитывается по формуле:

где доля значений признака i-ой группы в общем объеме значений признака, т.е. d_i, рассчитанное по формуле 5.27.

Значение коэффициента Герфиндаля определяется влиянием только доминирующих групп, так как группы с незначительной долей значений признака, которая при возведении в квадрат выражается незначащим числом, ощутимого влияния на значение коэффициента не оказывают. Механизм расчета коэффициента Герфиндаля позволяет выделить доминирующие в совокупности группы как наиболее весомые составляющие значения Н.

Читайте также: Что такое соль для вейпа

Основное достоинство коэффициента Герфиндаля – его высокая чувствительность к изменению в совокупном объеме долей наиболее крупных единиц совокупности, что позволяет отслеживать концентрацию значений признака. Другое достоинство данного коэффициента заключается в том, что он реагирует на число единиц в группе. Однако ее наибольшим значениям придается наибольший вес. Вследствие этого существует опасность преувеличения уровня концентрации.

Поэтому наряду с коэффициентом Герфиндаля целесообразно применять коэффициент Розенблюта, который также характеризует концентрацию, однако расставляет акценты в обратном порядке: наибольший вес придается группам с наименьшими долями.

Коэффициент Розенблюта (K_R) рассчитывается по формуле:

где i – номер группы в совокупности;
d_i – доля i-ой группы в общем объеме совокупности;
n – число групп в совокупности.

Диапазон значений коэффициента Розенблюта 0 ≤ K_R ≤ 1. K_R = 1 при n = 1 и d1 = 1. В целом коэффициент Розенблюта имеет тенденцию преуменьшать концентрацию в совокупности.

Пример расчета показателй концентрации распределения

По данным таблицы 4.13 следует оценить степень концентрации (или неравномерность) распределения работников предприятия по уровню их заработной платы.

Характеристика неравномерности распределения работников предприятия по уровню их заработной платы и их концентрации в отдельных группах осуществляется на основе расчета коэффициентов Джини, Герфиндаля и Розенблюта

Для расчета коэффициента концентрации Джини построим таблицу 5.15.

Данные для расчета коэффициента концентрации Джини

Группы работников по уровню заработной платы, руб.	Середина интервала, руб. (x_i)	Число работников, чел. (f_i)	Удельный вес (частость) работников, %	Накопленная частость, % (p_i)	x_i × f_i, руб.	d_i, %	q_i, %	p_i × q_i+1	p_i+1 × q_i
8000-10000	9000	20	5	5	180000	3,4	3,4	—	85
10000-12000	11000	80	20	25	880000	16,4	19,8	99	1287
12000-14000	13000	160	40	65	2080000	38,8	58,6	1465	5128
14000-16000	15000	90	22,5	87,5	1350000	25,2	83,8	5447	8171
16000-18000	17000	40	10	97,5	680000	12,7	96,5	8444	9650
18000 и выше	19000	10	2,5	100	190000	3,5	100	9750	—
Всего	–	400	100,0	–	5360000	100,0	–	25205	24321

По формуле 5.26, с учетом того, что pi и qi были выражены в процентах, G = (25205 – 24321): 10000 = 0,09, что свидетельствует о достаточно равномерном распределении работников предприятия по уровню заработной платы по выделенным группам и слабой концентрации значений заработной платы в отдельных их них.

Для расчета коэффициентов концентрации Герфиндаля и Розенблюта построим таблицу 5.16.

По формуле 5.28: H = 0,2594.

По формуле 5.29: K_R = 0,174.

Данные для расчета коэффициентов концентрации Герфиндаля и Розенблюта

Группы работников по уровню заработной платы, руб.	Середина интервала, руб. (x_i)	Число работников, чел. (f_i)	x_i × f_i, руб.	d_i, выраженная в форме коэффициента	d_i 2	i	i × d_i
8000-10000	9000	20	180000	0,034	0,0012	1	0,034
10000-12000	11000	80	880000	0,164	0,0269	2	0,328
12000-14000	13000	160	2080000	0388	0,1505	3	1,164
14000-16000	15000	90	1350000	0,252	0,0635	4	1,008
16000-18000	17000	40	680000	0,127	0,0161	5	0,635
18000 и выше	19000	10	190000	0,035	0,0012	6	0,21
Всего	–	400	5360000	1,000	0,2594	–	3,379

Совместная интерпретация полученных значений коэффициентов Герфиндаля и Розенблюта позволяет сделать вывод об умеренной концентрации значений заработной платы в отдельных группах работников предприятия.

Понятие о закономерностях распределения

Между изменением значений варьирующего признака и их частотами существует определенная зависимость. Как правило, частоты в вариационных рядах с ростом значения варьирующего признака первоначально увеличиваются, а затем после достижения какой-то максимальной величины в середине ряда уменьшаются (см. табл. 4.13 и 5.3). Значит, частоты в этих рядах изменяются закономерно в связи с изменением варьирующего признака.

Анализ вариационных рядов предполагает выявление закономерностей распределения, определение и построение (получение) некой теоретической (вероятностной) формы распределения.

Графическое изображение вариационного ряда принимает вид плавной кривой, именуемой кривой распределения.

Примером фактической кривой распределения является полигон распределения, поскольку в нем отражаются как общие, так и случайные условия, определяющие распределение.

Из математической статистики известно, что при увеличении объема статистической совокупности (Ν → ∞) и одновременном уменьшении интервала группировки (h → 0) полигон либо гистограмма распределения все более и более приближаются к некоторой плавной кривой, являющейся для указанных графиков пределом. Эта кривая называется эмпирической кривой распределения и представляет собой графическое изображение в виде непрерывной линии изменения частот, функционально связанного с изменением вариант.

Эмпирические кривые распределения, построенные на основе, как правило, относительно небольшого числа наблюдений (т.е. фактические кривые распределения), очень трудно описать аналитически. Поэтому для выявления статистических закономерностей, сравнения и обобщения различных совокупностей аналогичных данных используются теоретические распределения.

Теоретические распределения – это хорошо изученные в теории распределения, представляющие собой зависимости между плотностями распределения и значениями признака, отражающие закономерности распределения. Они описываются статистическими функциями, параметры которых вычисляются по статистическим характеристикам изучаемой совокупности.

Теоретической кривой распределения называется такая кривая распределения, которая выражает общую закономерность данного типа распределения в чистом виде, исключающем влияние случайных для данного типа закономерностей факторов.

Исследование формы распределения предполагает замену эмпирического распределения известным теоретическим, близким ему по форме. При этом необходимо соблюдать условие: различия между эмпирическим и теоретическим распределением должны быть минимальными. Это означает, что сумма частот эмпирического распределения должна соответствовать сумме частот теоретического распределения. Теоретическое распределение в этом случае является некоторой идеализированной моделью эмпирического распределения, и анализ вариационного ряда сводится к сопоставлению эмпирического и теоретического распределений и определению различий между ними.

В статистической практике наиболее широко используют следующие теоретические распределения:

– биномиальное распределение – для описания распределения дискретного альтернативного признака. Оно представляет собой распределение вероятности исходов события, которые можно оценить как положительные или отрицательные;

– распределение Пуассона – для изучения маловероятных событий в большой серии независимых испытаний (объем совокупностей N ≥ 100, доля единиц, обладающих данным признаком d → 0). Распределение Пуассона обычно применяется в статистическом контроле качества в массовом производстве. Например, при изучении количества бракованных деталей в массовом производстве, числа отказов автоматических линий и т.п.;

– распределение Максвелла применяется при исследовании признака, для которого заранее известно, что распределение имеет положительную асимметрию. Чаще всего распределение Максвелла используется при описании технологических характеристик производственных процессов;

– распределение Стьюдента применяют для описания распределения ошибок в малых выборках (n x – средняя арифметическая ряда;
σ 2 – дисперсия значений изучаемого признака;
σ – среднее квадратическое отклонение изучаемого признака;
π = 3,1415 – постоянное число (отношение длины окружности к ее диаметру);
е = 2,7182 – основание натурального логарифма.

Для конкретного распределения среднее значение признака x и среднее квадратическое отклонение σ являются постоянными величинами.

Графически нормальное распределение может быть представлено в виде симметричной колоколообразной кривой, показанной на рис. 5.5.

К основным свойствам кривой нормального распределения относятся:

Этот вывод называется правилом «трех сигм», в соответствии с которым можно считать, что все возможные значения нормально распределенного признака укладываются в интервал x +/- 3σ.

Пользоваться функцией нормального распределения в ее первоначальном виде сложно, так как для каждой пары значений x и σ необходимо создавать свои таблицы значений. Поэтому функцию стандартизируют и затем используют для обработки рядов распределения, для чего вводится понятие стандартного отклонения t_i:

Тогда относительная плотность нормального распределения рассчитывается по формуле:

Выражение в скобках состоит из констант, не содержит параметров и называется стандартизированной функцией нормального распределения. Для нее разработаны специальные таблицы, позволяющие находить конкретные значения φ(t)

при различных значениях аргумента ti. Исходная функция нормального распределения связана со стандартизированной соотношением: φ(x) = φ(t) / σ.

Для получения частот теоретического распределения f_{i т} необходимо иметь в виду, что относительная плотность распределения φ(х) связана с одной стороны с частотой f_i, а с другой – со стандартизированной функцией нормального распределения φ(t).

где f_{i т} – частота теоретического распределения;
hi – ширина интервала;
N – объем статистической совокупности;
σ – среднее квадратическое отклонение;
φ(t) – стандартизованная функция нормального распределения.

Полученные значения f_{i т} округляют до целых значений в соответствии со смыслом характеристики частоты.

Для определения подобия эмпирического и теоретического распределения, можно построить эмпирическую и теоретическую кривые распределения. Их сопоставление позволяет оценить степень близости и расхождения между ними. Визуальное сопоставление эмпирической и теоретической кривых распределения позволяет получить субъективную оценку их близости.

Для получения объективной оценки близости между эмпирической и теоретической кривыми распределения используются специальные статистические показатели – критерии согласия.

Эмпирическое распределение отличается от теоретического тем, что на значения признака в нем влияют случайные факторы. С увеличением объема статистической совокупности влияние случайных факторов ослабевает, и эмпирическое распределение все менее отличается от теоретического.

Критерии согласия основаны на использовании различных мер расстояний между эмпирическим и теоретическим распределением.

Наиболее часто на практике используются следующие критерии согласия:

где f_i и f_{i т} – соответственно, частота эмпирического (фактического) и теоретического распределения; n – количество групп, на которые разбита вся совокупность.

Критерий Пирсона можно использовать при соблюдении таких условий:

где χ_р 2 – расчетная величина «хи-квадрат»-критерия; n – количество групп, на которые разбита вся совокупность.

Эмпирическое и теоретическое распределение признаются близкими друг другу, если С x =13400 руб., а среднее квадратическое отклонение σ = 2200 руб. Объем исследуемой совокупности N = 400 чел., а ширина интервала hi – 2000 руб.

Для расчета критериев согласия построим таблицу 5.17.

Факт соответствия распределения работников предприятия по уровню их заработной платы нормальному распределению подтверждает то, что сумма частот эмпирического распределения почти равна сумме частот теоретического распределения: Σf_i = 400 чел. и Σf_{i т} = 398 чел.

В соответствии с формулой 5.33 расчетное значение «хи-квадрат»-критерия: χ_р 2 = 8,77.

Для подтверждения оценки близости фактического распределения работников предприятия по уровню заработной платы к нормальному, воспользуемся критерием согласия Романовского, который рассчитывается на основе χ 2 – критерия.

По формуле 5.34 значение критерия согласия Романовского: 2,36.

Так как 2,36 Извлечения из таблицы вероятностей для «лямбда»-критерия согласия

λ Р(λ) 0,3 1 0,4 0,997 0,5 0,964 0,55 0,923 0,6 0,864 0,65 0,792 0,7 0,711 0,75 0,627 0,8 0,544 0,85 0,465 0,9 0,393 0,95 0,327 1 0,27 1,05 0,22 1,1 0,178 1,15 0,142 1,2 0,112 1,25 0,088 1,3 0,068 1,35 0,052 1,4 0,04

Таким образом, утверждать, что отклонения эмпирических частот от теоретических в рассматриваемом примере являются случайными и что в основе фактического распределения рабочих по уровню заработной платы лежит закон нормального распределения, можно только с вероятностью 46,5%. Расхождения между эмпирическим и теоретическим распределением работников предприятия по уровню заработной платы оказались весьма существенны. Однако значение критерия согласия Романовского дает основание считать, что фактическое распределение работников предприятия по уровню заработной платы близко к нормальному.

Показатели формы распределения

При сравнении эмпирического распределения с нормальным важно констатировать не только согласие этих распределений, но и характер их расхождения. Этому служат показатели формы распределения: показатели асимметрии и эксцесса распределения.

Как отмечалось, нормальное распределение характеризуется симметричностью по отношению к точке, соответствующей значению средней арифметической. Ее вершина находится точно в середине кривой. Поэтому сравнение эмпирического распределения с нормальным, прежде всего, констатирует отсутствие или наличие в нем асимметрии распределения. Асимметричные распределения встречаются чаще, чем симметричные. В асимметричном распределении вершины кривой находятся не в середине, а сдвинуты либо влево, либо вправо. Если вершина сдвинута влево, и, следовательно, правая часть кривой оказывается длиннее левой, то такая асимметрия называется правосторонней. Левосторонней будет асимметрия, когда левая часть кривой длиннее правой, и вершина сдвинута вправо.

Для характеристики асимметрии используют коэффициенты асимметрии.

Коэффициент асимметрии Пирсона (As_П) рассчитывается по формуле:

В симметричных распределениях As_П = 0.

При As_П > 0 наблюдается правостороння асимметрия.

При As_П x > Ме > Мо. При левосторонней асимметрии выполняется неравенство x 0,5, то асимметрия значительна.

Коэффициент асимметрии Пирсона характеризует асимметрию только в центральной части ряда распределения, поэтому более распространенным и более точным для характеристики ассиметрии распределения является коэффициент асимметрии (As), рассчитанный на основе центрального момента третьего порядка по формуле:

где μ₃ – центральный момент третьего порядка, рассчитываемый по формуле 5.43 (табл. 5.18); σ 3 – среднее квадратическое отклонение в третьей степени.

Центральным моментом в статистике называется среднее отклонение индивидуальных значений признака от его среднеарифметической величины. Средние значения разных степеней отклонений индивидуальных значений признака от его средней арифметической величины получили название центральных моментов распределения порядка, соответствующего степени, в которую возводятся отклонения. Формулы для расчета центральных моментов первого, второго, третьего и четвертого порядка по несгруппированным и сгруппированным данным, приведены в таблице 5.19.

Величина центрального момента третьего порядка (μ3) зависит, как и его знак, от преобладания положительных кубов отклонений над отрицательными кубами и наоборот.

Если в вариационном ряду преобладают варианты, которые больше, чем средняя величина, то Аs > 0, т.е. имеет место правостороння асимметрия.

Если в вариационном ряду преобладают варианты, которые меньше, чем средняя величина, то Аs 4 – среднее квадратическое отклонение в четвертой степени.

Именно отношение μ₄ / σ 4 характеризует крутизну (заостренность) графика распределения. Для нормального распределения μ₄ / σ 4 = 3, а Ех = 0.

Наличие положительного эксцесса (Ех > 0) означает, что в изучаемой массе явлений существует слабо варьирующее по данному признаку «ядро», окруженное рассеянным «гало», т.е. распределение относится к островершинным, что свидетельствует о концентрации значений признака в центральной группе. При существенном отрицательном эксцессе (Ех Ех ≥ 3, то эксцесс, т.е. отклонение эмпирического распределения от нормального теоретического распределения по вертикали (выше или ниже его вершины), является существенным.

Пример расчета показателей формы распределения

По данным таблицы 4.13 необходимо охарактеризовать форму распределения работников предприятия по уровню их заработной платы, рассчитав коэффициенты асимметрии и эксцесс распределения и построив полигон распределения работников предприятия по уровню их заработной платы.

Значения показателей, характеризующих структуру ряда распределения работников предприятия по уровню заработной платы и ее вариацию, были рассчитаны ранее в соответствующих примерах: X = 13400 руб.; Ме = 13250 руб.; Мо = 13066,67 руб.; σ = 2200 руб.

Так как при сравнении между собой значений средней заработной платы, медианы и моды выполняется неравенство x > Ме > Мо (13400 > 13250 > 13066,67), то ряд распределения работников предприятия по заработной плате является правосторонне асимметричным. Для подтверждения этих выводов найдем коэффициенты асимметрии.

По формуле 5.36 коэффициент асимметрии Пирсона: As_П = 0,15.

As x ) и σ представим в тысячах рублей.

По формуле 5.43 центральный момент третьего порядка: 2,928.

По формуле 5.37 коэффициент асимметрии: 0,27.

Для оценки существенности коэффициента асимметрии, рассчитанного на основе μ3, по формуле 5.46 рассчитаем среднюю квадратическую ошибку коэффициента асимметрии: 0,12.

Источник