Что такое номинальный признак
Классификация признаков в статистике
Тема 1. Предмет и метод статистической науки
1.1 Справочные материалы
Статистика разрабатывает методы сбора, систематизации, анализа, интерпретации и отображения результатов наблюдений массовых случайных явлений и процессов с целью выявления существующих в них закономерностей.
Предметом исследования в статистике является изучение размеров и количественных соотношений массовых общественных явлений в конкретных условиях места и времени, а так же числовое выражение проявляющихся в них закономерностей.
Закономерность, проявляющаяся лишь в большой массе явлений через преодоление свойственной её единичным элементам случайности, называетсястатистической закономерностью.
Объектом статистического изучения является статистическая совокупность — множество единиц, обладающих массовостью, качественнойоднородностью, определенной целостностью, взаимозависимостью состояний отдельных единиц и наличиемвариации. Статистическая совокупность состоит из единиц совокупности.
Единица совокупности — это предел дробления объекта исследования, при котором сохраняются все свойства изучаемого процесса.
Единицы совокупности обладают определенными свойствами, качествами, которые принято называть признаками.
Статистический признак общее свойство, характерная черта или иная особенность единиц совокупности, которые могут быть наблюдаемы или измерены.
Статистический показатель — обобщающая количественная характеристика социально-экономических явлений в конкретных условиях места и времени.
Статистические признаки отличаются способами их измерения и другими особенностями, влияющими на приемы статистического изучения. Это дает основания для классификации признаков (схема. 1.1).
Описательные (качественные) признаки выражаются словесно: национальность, тип акции (простая, привилегированная), тип ткани (шелк, шерсть) и т.д. Описательные признаки подразделяются на номинальные и порядковые.
Схема 1.1
Классификация признаков в статистике
|
Количественные признаки выражены числами. Например, возраст, заработная плата, цена акции и т.д.
Первичные признаки характеризуют единицу совокупности в целом. Это абсолютные величины, которые могут быть измерены, сосчитаны, взвешены. Они существуют сами по себе, независимо от статистического изучения. Например, численность населения страны, цена за акцию и т.д.
Вторичные, или расчетные признаки не измеряются непосредственно, а рассчитываются. Например, себестоимость продукции, рентабельность, индекс Доу-Джонса и т.д. Вторичные признаки получаются путем действий с первичными. Например, разделив объем выпущенной продукции на численность работников, получим производительность труда.
Прямые (непосредственные) признаки — это свойства, непосредственно присущие тому объекту, который ими характеризуется. Это, например, возраст человека, численность работников предприятия, цена за доллар.
Дискретные признаки — это количественные признаки, которые могут принимать только отдельные значения. Например, число членов семьи, число выпущенных акций и т.д.
Непрерывные признаки — это признаки, принимающие любые значения в определенных границах.
Моментные признаки характеризуют изучаемый объект в какой-то момент времени, установленный статистическим исследованием. Например, стоимость доллара на 1.02.2005 года, численность наличного населения на 1.01.2005 года и т.д.
Интервальные признаки — это признаки, характеризующие результаты процесса. Поэтому их значения могут возникать только за интервал времени: год, месяц, сутки, а не на момент времени. Например, число родившихся или умерших, объем торгов на ММВБ за сутки и т.д.
Специфика предмета статистики обуславливает специфику статистического метода. Он включает: сбор данных (статистическое наблюдение), обобщение и представление данных (сводку и группировку), анализ и интерпретацию данных.
В настоящее время законченной оформление получили три отрасли статистики: общая теория статистики, экономическая статистика, социальная статистика.
1.2. Контрольные вопросы к теме 1
1.Что входит в круг вопросов изучаемых статистикой?
2.В каких значениях употребляется термин статистика?
3.Что представляет собой статистика как наука?
4.Что является предметом статистики?
5.Что такое статистическая закономерность?
6.Что понимается под единицей статистической совокупности?
7.Что такое статистический показатель?
8.Что такое статистический признак? Какие признаки играют преобладающую роль в статистике?
9.Какие науки являются теоретической основой статистики?
10.В чем состоит связь статистики с другими науками?
11.В чем состоит специфика статистического метода изучения социально-экономических явлений?
12.Каковы организация и задачи статистики на современном этапе развития России?
1.3. Контрольные задания к теме 1
1.Какими признаками можно охарактеризовать совокупность студентов ВУЗа?
2.Исследуется совокупность коммерческих банков Ростова. Какими признаками её можно охарактеризовать?
3.Назовите существенные варьирующие признаки, характеризующие студенческую группу.
4.Укажите, какие совокупности можно выделить в ВУЗе для статистического изучения?
5.Какими наиболее существенными признаками можно охарактеризовать такие единицы наблюдения, как:
а) промышленное предприятие;
б) коммерческий банк;
в) торговое предприятие;
д) преподаватель вуза.
6.Какими признаками по классификации, приведенной в пункте 1.1, являются:
— численность населения страны;
— количество браков и разводов;
— производство продукции в стоимостном выражении;
— число посадочных мест в самолете;
— количество работников на фирме;
— родственные связи членов семьи;
— пол и возраст человека;
— этажность жилых помещений;
— розничный товарооборот торговых объединений;
Что такое номинальный признак
Общая теория статистики : конспект лекций
Данное учебное пособие содержит полный курс лекций по общей теории статистики, составленный профессиональными экономистами. Используя данный конспект лекций при подготовке к сдаче экзамена, студенты смогут в предельно сжатые сроки систематизировать и конкретизировать знания, приобретенные в процессе изучения этой дисциплины; сосредоточить свое внимание на основных понятиях, их признаках и особенностях; сформулировать примерную структуру (план) ответов на возможные экзаменационные вопросы.
Издание предназначено для студентов, обучающихся по специальности «Статистика» и другим экономическим специальностям.
ЛЕКЦИЯ № 1. Статистика как наука
1. Предмет и метод статистики как общественной науки
Статистика – самостоятельная общественная наука, имеющая свой предмет и методы исследования, которая возникла из потребностей общественной жизни. Статистика – это наука, изучающая количественную сторону всех социально-экономических явлений. Термин «статистика» происходит от латинского слова «статус», которое обозначает «положение, порядок». В первый раз его употребил немецкий ученый Г. Ахенваль (1719-1772). Главной задачей статистики является математически правильно описать собранные сведения. Статистику можно назвать специальным разделом математики, которая описывает ту или иную сторону жизнедеятельности человека. Статистика использует самые различные математические ме-годы и приемы, чтобы человек мог проанализировать ту или иную проблему.
Статистика может оказать неоценимую помощь любому руководителю на любом предприятии, если уметь ею правильно пользоваться.
На сегодняшний день термин «статистика» применяется в трех значениях:
1) особая отрасль практической деятельности людей, направленная на сбор, обработку и анализ данных, которые характеризуют социально-экономическое развитие страны, ее регионов, отдельных отраслей экономики или предприятий;
2) наука, которая занимается разработкой теоретических положений и методов, употребляемых в статистической практике;
3) статистика – статистические данные, представленные в отчетности предприятий, отраслей экономики, а также данные, публикуемые в сборниках, различных справочниках, бюллетенях и т. п.
Объект статистики – явления и процессы социально-экономической жизни общества, в которых отображаются и находят свое выражение социально-экономические отношения людей.
Общая теория статистики является методологической основой, ядром всех отраслевых статистик. Она разрабатывает общие принципы и методы статистического исследования общественных явлений и является наиболее общей категорией статистики.
Задачами экономической статистики являются разработка и анализ синтетических показателей, отражающих состояние национальной экономики, взаимосвязи отраслей, особенности размещения производительных сил, наличие материальных, трудовых и финансовых ресурсов.
Социальная статистика вырабатывает систему показателей для характеристики образа жизни населения и различных аспектов социальных отношений.
Статистика – общественная наука, которая занимается сбором информации различного характера, ее упорядочиванием, сопоставлением, анализом и интерпретацией (объяснением). Она обладает следующими отличительными особенностями:
1) изучает количественную сторону общественных явлений. Данная сторона явления представляет его величину, размер, объем и имеет числовое измерение;
2) исследует качественную сторону массовых явлений. Предоставленная сторона явления выражает его специфику, внутреннюю особенность, отличающую его от других явлений. Качественная и количественная стороны явления всегда существуют вместе, образуют одно единое целое.
Все общественные явления и события протекают во времени и пространстве, и в отношении любого из них всегда можно определить, в какое время оно возникло и где оно развивается. Таким образом, статистика изучает явления в конкретных условиях места и времени.
Постигаемые статистикой явления и процессы общественной жизни находятся в постоянном изменении и развитии. На базе сбора, обработки и анализа массовых данных об изменении изучаемых явлений и процессов обнаруживается статистическая закономерность. В статистических закономерностях проявляются действия общественных законов, определяющих существование и развитие социально-экономических отношений в обществе.
Предметом статистики является исследование общественных явлений, динамики и направления их развития. При помощи статистических показателей статистика устанавливает количественную сторону общественного явления, наблюдает закономерности перехода количества в качество на примере данного общественного явления. На основании предоставленных наблюдений статистика производит анализ полученных данных в конкретных условиях места и времени.
Статистика занимается исследованием социально-экономических явлений и процессов, которые носят массовый характер, а также изучает множество определяющих их факторов.
Для выведения и подтверждения своих теоретических законов большинство общественных наук пользуются статистикой. Заключениями, сформированными на статистических исследованиях, пользуются экономика, история, социология, политология и множество других гуманитарных наук. Статистика необходима и общественным наукам для подтверждения их теоретической основы, и ее практическая роль очень велика. Ни крупные предприятия, ни серьезные производства, разрабатывая стратегию экономического и социального развития объекта, не могут обойтись без анализа данных статистического учета. Для этого на предприятиях и производствах организовываются специальные аналитические отделы и службы, привлекающие специалистов, которые закончили профессиональную подготовку по данной дисциплине.
Статистика, как и любая другая наука, обладает определенной совокупностью методов изучения своего предмета. Методы статистики выбираются в зависимости от изучаемого явления и конкретного предмета исследования (связи, закономерности или развития).
Методы в статистике образуются в совокупности из разработанных и применяемых специфических способов и приемов исследования общественных явлений. К ним имеют отношение наблюдение, сводка и группировка данных, исчисление обобщающих показателей на основе специальных методов (метод средних, индексов и т. д.). В связи с этим различают три этапа работы со статистическими данными:
1) сбор – это массовое научно-организованное наблюдение, посредством которого получают первичную информацию об отдельных фактах (единицах) изучаемого явления. Данный статистический учет большого числа или всех входящих в состав изучаемого явления единиц является информационной базой для статистических обобщений, для формулирования выводов об изучаемом явлении или процессе;
2) группировка и сводка. Под этими данными понимают распределение множества фактов (единиц) на однородные группы и подгруппы, итоговый подсчет по каждой группе и подгруппе и оформление полученных итогов в виде статистической таблицы;
3) обработка и анализ. Статистический анализ заключает стадию статистического исследования. Он содержит в себе обработку статистических данных, которые были получены при сводке, интерпретацию полученных результатов с целью получения объективных выводов о состоянии изучаемого явления и о закономерностях его развития. В проессе статистического анализа исследуются структура, динамика и взаимосвязь общественных явлений и процессов.
Основными этапами статистического анализа являются:
1) утверждение фактов и установление их оценки;
2) выявление характерных особенностей и причин явления;
3) сравнение явления с нормативными, плановыми и другими явлениями, которые приняты за базу сравнения;
4) формулирование выводов, прогнозов, предположений и гипотез;
Классификация признаков в статистике
Основная классификация | ||||
по характеру их выражения | по способу измерения | по отношению к характеризуемому объекту | по характеру вариации | по отношению ко времени |
1. Описательные | 1. Первичные или учитываемые | 1. Прямые (непосредственные) | 1. Альтернативные | 1. Моментные |
2. Количественные | 2. Вторичные или расчетные | 2. Косвенные | 2. Дискретные | 2. Интервальные |
3. Непрерывные |
Признаки различаются способами их измерения и другими особенностями, влияющими на приемы статистического изучения. Это дает основание для классификации признаков (табл. 1.2).
Количественные признаки выражены числами. Они играют преобладающую роль в статистике. Таковы возраст человека, площадь пашни, заработная плата рабочих, население города, доход кооператива и т. д.
Первичные признаки характеризуют единицу совокупности в целом. Это абсолютные величины. Они могут быть измерены, сосчитаны, взвешены и существуют сами по себе, независимо от их статистического изучения. Например, площадь пашни, мощность двигателей на предприятии, численность населения города, число автомобилей, произведенных в стране.
Вторичные, или расчетные, признаки не измеряются непосредственно, а рассчитываются. Они являются продуктами человеческого сознания, результатом познания изучаемого объекта. Например, себестоимость единицы продукции, производительность труда, рентабельность, урожайность и т. п. Вторичные признаки представляют собой соотношения первичных признаков: деление объема выпущенной продукции на численность работников дает показатель производительности труда; деление суммы затрат на произведенную продукцию на число единиц данной продукции дает себестоимость и т. д.
Таковы возраст человека, поголовье коров на ферме, объем продукции завода, численность его рабочих.
Практически деление признаков на прямые и косвенные совпадает с их делением на первичные и вторичные. Признаки различаются в статистике и по характеру их вариации, т.е. по различиям их значений у разных единиц совокупности. Выделяются альтернативные признаки, которые могут принимать только два значения. Таковыми являются признаки обладания или необладания чем-то. Например, все садовые участки по признаку наличия посадок вишни можно разделить на имеющие посадки вишни и не имеющие их. Альтернативным признаком являются пол человека, место проживания (город, село), двигатель трактора (гусеничный или колесный).
К дискретным относятся количественные признаки, которые могут принимать только отдельные значения, без промежуточных значений между ними. Дискретные признаки, как правило, целочисленные. Это число членов семьи, количество этажей здания, комнат в квартире.
Моментные признаки характеризуют изучаемый объект в какой-то момент времени, установленный планом статистического исследования. Они существуют на любой момент времени и характеризуют наличие чего-либо: численность населения, стоимость фондов, количество скота, размеры жилой площади.
К интервальным относятся признаки, характеризующие результаты процессов. Поэтому их значения могут возникать только за интервал времени: год, месяц, сутки, но не на момент времени. Таковы число родившихся, умерших, объем промышленной продукции, надой молока, сумма полученной прибыли. Различие между моментными и интервальными признаками существенно при изучении динамики (см. гл. 9).
Что такое номинальный признак
В самом общем виде данные можно разделить на 2 типа: количественные и качественные.
Количественные переменные
Количественные переменные отображают, как можно догадаться из названия, количество чего-то. Здесь цифры имеют математическое значение, они оценивают количество какой-то характеристики, например, сумма дохода — 15 000 рублей.
Количественные данные, в свою очередь, можно поделить на дискретные и непрерывные.
Данные дискретного типа не могут иметь дробной части, они принимают какие-то отдельные целые значения (их конечное число). Например, число детей в семье — их может быть 1, 2, 3 или 5, но не может быть два с половиной.
Непрерывные данные — это та шкала, которая занимает все пространство, может принимать любые значения, от −∞ до +∞ и может быть, конечно, дробной. Например, время можно измерять в днях, в часах, в секундах, в миллисекундах (т.е ограничения только на требуемую точность измерений), и это будут непрерывные данные, определенныеая на всем протяжении возможных значений. Рост и вес человека, концентрация вещества в растворе или сумма расходов компании — это непрерывные переменные.
Качественные переменные
Качественные переменные — это переменные, которые отражают свойство или качество наших объектов. И цифры здесь значат уже не сами себя, как в количественном случае, а они означают какие-то свойства объектов. То есть они служат маркерами каких-то категорий, которые нас интересуют. Например, почтовый индекс — это качественные данные (несмотря на то, что он записывается цифрами).
Качественные данные тоже можно поделить на 2 подтипа: номинальные и порядковые.
Номинальные переменные применяются для обозначения категорий или признаков, которые нельзя классифицировать по возрастанию или убыванию, т.е по сути они только содержат информацию о принадлежности объекта к какому-то классу.
Например, у человека могут быть такие признаки: цвет глаз (карие, зеленые, голубые, серые), пол (мужчина\женщина), город проживания — это все номинальные переменные.
Порядковые переменные отличаются от номинальных тем, что в них появляется отношения порядка. То есть здесь у нас значения не только разделяют объекты на классы, но и определенным образом упорядочивают их.
В статистике типы исследуемых переменных не просто важны сами по себе, они напрямую влияют на выбор статистического критерия.
Выделим три принципиально важных группы переменных:
— количественные переменные с нормальным распределением;
— количественные переменные с другим распределением и порядковые переменные;
— номинальные переменные.
Что такое номинальный признак
Анализ содержания исторических источников нередко приводит к необходимости обработки качественной информации. Такая ситуация является типичной при изучении различных анкет, материалов переписей, личных карточек рабочих и т. д., а также при анализе нарративных источников. Формализация данных, содержащихся в источниках такого типа, характеризуется тем, что свойства (признаки) изучаемых объектов или явлений могут быть описаны лишь на качественном уровне, т. е. измерение этих признаков с помощью количественных шкал не представляется возможным.
Общая классификация типов признаков вводилась в гл. 2. Рассмотрим подробнее типы качественных признаков, которые разделяются на качественные признаки рангового (порядкового) и номинального (классификационного) типа (см. рис. 18).
Измерение по номинальной (простейшей из шкал) эквивалентно отнесению объекта к одному из классов по данному признаку. Частным случаем номинальной является шкала измерения альтернативных (дихотомических) признаков, т. е. шкала, включающая два класса (градации), соответствующих, например, наличию и отсутствию у объекта того или иного качества.
Порядковые шкалы-это более высокий уровень измерения качественных признаков. Градации рангового признака, измеренного в такой шкале, упорядочены по степени проявления соответствующего свойства. Ранговый признак задает не простую группировку объектов, как номинальный, а такую, при которой группы являются упорядоченными.
Рассмотрим несколько примеров качественных признаков различных типов. Номинальные признаки: наименование продукции, тип хозяйства, профессия, национальность, пол (последний признак является альтернативным). Ранговые признаки: сословие, образование, квалификация.
Основное внимание в данной главе уделяется важной проблеме измерения связи качественных признаков. Наиболее разработанными являются методы images/kachestv/лиза взаимосвязи качественных признаков с одинаковыми уровнями измерения.
§ 1. Анализ связи номинальных признаков
Традиционные меры связи. Традиционный подход к построению мер связи нормальных признаков основан на проверке предположения о статистической независимости рассматриваемых признаков.
Здесь буквами A и обозначены наименования двух классов по первому признаку, а В и
-по второму. Числа в клетках табл. 1 определяют численности объектов, обладающих сочетанием соответствующих свойств. Так, с равно числу объектов, обладающих свойством A и не обладающих свойством В.
Пример 1. По выборочным данным, относящимся к концу XIX в., изучим зависимость между размером имения и типом хозяйства.
Как следует из табл. 2, число, например, крупных хозяйств отработочного типа равно 40; общее число крупных хозяйств (a+b) равно 50, а общее число хозяйств отработочного типа (a+c)-65.
Условие статистической независимости признаков в данном случае эквивалентно требованию, чтобы, например, доля крупных хозяйств среди имений отработочного типа была равна доле крупных хозяйств во всей изучаемой совокупности, т. е. чтобы
то рассматриваемые признаки являются взаимосвязанными. Данные табл. 2 показывают, что ad=40*45, bc=10*25, т. е. ad-bc>0, что указывает на наличие связи типа хозяйства с размером имения.
Для оценки степени связи альтернативных признаков используют обычно следующие два коэффициента:
Таким образом, числовые значения коэффициентов Q и Ф для одних и тех же данных могут существенно отличаться друг от друга, поскольку эти коэффициенты измеряют различные аспекты взаимосвязи в 4-клеточной таблице. Ф предназначен для измерения степени двусторонней взаимосвязи между рассматриваемыми альтернативными признаками, в то время как Q отражает лишь односторонненаправленную связь. Значения этих коэффициентов совпадают лишь при наличии полной двусторонней взаимосвязи: . Так, определение величины коэффициентов Q и Ф для данных табл. 2 приводит к следующим результатам:
Оба коэффициента Q и Ф в данном примере принимают положительные значения, т. е. связь между рассматриваемыми признаками прямая (наличие свойства A связано, как правило, с наличием свойства B).
Довольно высокое значение коэффициента связи Q (0,76) определяется тем, что абсолютное большинство крупных хозяйств (40 из 50, т. е. 80%) относится к отработочному типу. Величина коэффициента сопряженности Ф (0,44) значительно уступает величине Q. Это связано с тем, что связь данных признаков носит преимущественно односторонний характер (среди крупных хозяйств отработочные составляют 80%, в то время как среди хозяйств отработочного типа около 40% (25 из 65) составляют мелкие хозяйства).
Перейдем теперь к вопросу о построении стандартных мер связи номинальных признаков общего вида.
Пусть имеются два номинальных признака, число градаций (классов) которых равно l и m. Данные об их взаимосвязи могут быть представлены в виде следующей таблицы сопряженности (табл. 3).
Здесь ni обозначает число объектов, относящихся к i-му классу по первому признаку и к j-му-по второму признаку. Так, например, если n3.5=7, то число объектов, относящихся к 3-му классу по первому признаку и к 5-му классу по второму, равно 7.
Через ni. в табл. 3 обозначено общее число объектов f-го класса по первому признаку (т. е. сумма чисел в i-й строке), а через n.j-число объектов j-го класса по второму признаку (сумма чисел в /-м столбце). N-общее число объектов в изучаемой совокупности;
Для оценки существенности связи двух номинальных признаков на основе принципа статистической независимости вначале ответим на вопрос-какими были бы частоты в клетках табл. 3, если бы рассматриваемые признаки были независимыми?
Как следует из формулы (8.4), значение коэффициента X 2 тем меньше, чем меньше различия между числами nij и ; X 2 =0, когда nij=
для всех клеток табл. 3.
Формула (8.4) легко преобразуется к следующему виду:
в котором она обычно и используется на практике.
Уровень значимости (α) означает вероятность риска ошибиться, отвергая гипотезу о статистической независимости (см.гл.9,§ 4).
Удобство использования критерия X 2 на практике определяется наличием таблиц, содержащих критические значения этого критерия для различных уровней значимости и размерностей задачи (такая таблица содержится и в данном учебном пособии-табл. 3 приложения). В этой таблице слева указано число степеней свободы k (размерность задачи), а сверху-уровень значимости а. В нашей задаче images/kachestv/лиза таблицы сопряженности номинальных признаков число степеней свободы определяется по формуле
где l и m, как и ранее, обозначают число градаций рассматриваемых признаков. Уровень значимости а обычно выбирают равным 0,01; 0,05 или 0,10.
Критическое значение Х 2 кр определяется по табл. 3 приложения на пересечении строки, соответствующей данной величине k, и столбца, соответствующего выбранному уровню значимости а.
Пример 2. Поясним методику применения критерия X 2 на следующем иллюстративном примере.
Определим значение коэффициента X 2 для данных табл. 4 по формуле (8.5):
Число степеней свободы в данном случае равно k=(3-1)(2-1)=2. Выберем величину уровня значимости равной α=0,01. Как следует из табл. 3 приложения, критическое значение X 2 в этом случае равно 9,21. Это означает, что значение, равное или большее этой величины, может встретиться только один раз из ста (так как a=1/100) при условии, что гипотеза о статистической независимости верна. Поскольку в нашем примере значение X 2 =57.56>9.21, то связь между типом хозяйства и сословием владельца следует считать существенной. Нет и одного шанса из ста, что этот вывод получен вследствие случайных факторов.
Если бы значение X 2 в данном примере получилось меньшим чем 9,21, то это означало бы, что images/kachestv/лизируемые данные (табл. 4) согласуются с гипотезой о статистической независимости признаков и не дают оснований отвергнуть эту гипотезу (при данном уровне значимости α).
Итак, с помощью критерия X 2 можно оценить величину риска в принятии предположения о существовании связи. Однако установив факт наличия связи между признаками, исследователь должен измерить ее силу, чтобы иметь возможность сравнивать степень взаимосвязи между различными признаками, сопоставлять результаты, полученные в различных исследованиях.
где через min(l-1, m-1) обозначено минимальное из чисел (l-1, m-1).
Коэффициенты Т 2 и К, 2 принимают значение в интервале [0, 1]. Минимальное-нулевое-значение они имеют тогда и только тогда, когда признаки статистически независимы. Значение 1 коэффициент T 2 принимает при полной связи между признаками только в том случае, если число градаций обоих признаков одинаково (l=m); во всех других случаях даже при полной связи коэффициент Чупрова меньше единицы. Наибольшее значение, равное единице, коэффициент Крамера принимает при полной связи признаков независимо от того, равны ли между собой число строк (l) и число столбцов (m) таблицы сопряженности.
Заметим, что коэффициенты Т и К эквивалентны, когда l=m; в остальных случаях T
Числовое значение рассмотренных коэффициентов связи номинальных признаков остается неизменным при перестановке местами строк или столбцов таблицы сопряженности. Эти коэффициенты всегда выражаются неотрицательными числами (заключение о знаке связи здесь лишено смысла); поэтому выяснение характера зависимости, ее специфических черт должно определяться по таблице сопряженности.
Действительно, при измерении связи количественных признаков (см. гл. 6, § 2) знак коэффициента корреляции характеризует направление связи: если с увеличением значений признака X в среднем увеличиваются и значения признака Y, то знак rxy положителен; если же тенденции к изменению значений этих признаков противоположны, то rxy
При нарушений этого условия следует либо уменьшить степень дробности группировки признаков (число градаций), либо обратиться к другому критерию.
Теоретико-информационные меры связи. Развитие математико-статистических методов в последние десятилетия привело к появлению нового подхода к проблеме оценки связи качественных признаков. В основе этого подхода лежит представление о том, что мера связи признаков должна не столько оценивать степень их статистической независимости, сколько характеризовать возможность прогноза значений одного из признаков по значениям другого.
Самый точный прогноз достигается в ситуации, когда для каждого из значений одного признака можно однозначно указать соответствующее значение второго. Мера связи в этой ситуации, соответствующей «полной связи» между признаками, должна принимать максимальное значение, равное 1. Критерием отсутствия связи в рамках данного подхода обычно также считается статистическая независимость признаков; в этом случае мера связи должна принимать минимальное, нулевое, значение.
Таким образом, современная трактовка понятия «полная связь» между признаками Х и Y означает, что знание значения признака Х устраняет всякую неопределенность в знании значения признака Y. Для уменьшения неопределенности необходимо получить некоторое количество информации. Измерение статистической связи признаков сводится здесь к оценке относительно уменьшения неопределенности Y при получении знания об X.
Пример 3. Поясним сказанное на примере данных табл. 4, содержащей иллюстративные сведения о сопряженности признаков «сословие» (X) и «тип хозяйства» (Y). Знание значения признака Х в данном примере существенно снижает неопределенность в знании значений признака Y. Так, если Х принимает значение x3 («дворяне»), то Y почти наверняка (с вероятностью 0,93=50/60) принимает значение y1 («отработочный тип»). Если Х=x2 («крестьяне»), то неопределенность в знании Y также существенно снижается: с вероятностью 0,80=40/50 Y=y2 («капиталистический тип») и т. д. Отметим, что неопределенность в знании значений признака Y, взятого отдельно, высока-вероятности значений y1 и y2 равны 0,46=65/140 и 0,54=75/140 соответственно.
Количественный images/kachestv/лиз неопределенности и информации осуществляется на основе результатов теории информации, начало которой было положено в конце 1940-х годов. Основным, фундаментальным понятием теории информации является энтропия-мера неопределенности. Применительно к нашей задаче images/kachestv/лиза качественных признаков энтропия может быть определена следующим образом.
где logpi,-логарифм при основании 2 от величины pi.
При images/kachestv/лизе эмпирических данных роль вероятностей p1 играют их выборочные оценки (частости, доли) ni/N, где N-общее число объектов в выборке; ni-число объектов i-го класса xi.
Поскольку максимальное значение энтропии (log m) зависит от числа классов т, то на практике часто используют нормированную энтропию H*=H/logm, которая принимает значения в интервале [0,1]. Зависимость величины Н* от распределения вероятностей иллюстрируется графически на рис. 19 (m=4; число над каждым столбиком обозначает величину соответствующей вероятности рi,).
Н*(Х)=-[(30/140)*log(30/140)+(50/140)*log(50/140)+(60/140)*log(60/140)]/log 3 = 0,89;
Таким образом, мера неопределенности обоих признаков оказывается (по данным табл. 4) весьма высокой.
Отметим, что чувствительность величины энтропии к отклонениям от равномерного распределения частот послужила причиной активного использования энтропийного images/kachestv/лиза в исторических исследованиях для оценки степени социально-экономического неравенства, имущественной дифференциации.
Перейдем теперь к определению понятия «количество информации», особенно важного для построения мер связи качественных признаков. Пусть знание значений признака Х уменьшает неопределенность в знании значений признака У. Оставшуюся меру неопределенности обозначают Hx(Y) и называют условной энтропией. Количество информации I(XY) определяется как уменьшение неопределенности признака Х за счет информации, полученной о связи Х и У:
В теории информации показано, что количество информации I(XY) может быть вычислено по формуле
При images/kachestv/лизе эмпирических таблиц сопряженности (вида табл. 3) роль вероятностей pi.., р.j и pij играют соответствующие доли ni./N, n.j/N и nij/N.
Формула (8.11) для количества информации симметрична относительно Х и Y, т. е. I(XY)=I(YX), поэтому I(XY) называют также взаимной информацией Х и У.
Взаимная информация обращается в нуль тогда и только тогда, когда признаки Х и Y статистически независимы. Максимальное значение взаимной информации, равное H(X) или H(Y), соответствует функциональной зависимости (полной связи) признаков Х и У, когда каждому значению хi признака Х соответствует единственное значение yi признака Y.
Пример 4. Обратимся вновь к данным табл. 4. Как уже было определено выше, при уровне значимости a=0,01 и числе степеней свободы k=2 критическое значение X 2 кр=9,21. Следовательно, в данном случае Iкр=X 2 /2N=9,21/(2*140)=0,033. Вычисление по формуле (8.11) взаимной информации для признаков Х и Y по данным табл. 4 приводит к величине Iф(ХY)=0,321. Имеем IФ(XY)>Iкр, следовательно, гипотеза о независимости Х и Y на данном уровне значимости α=0,01 неверна (нет и одного шанса из ста, что признаки Х и Y независимы).
Установив факт существенности связи признаков, далее следует измерить ее силу. Наибольшее распространение получила мера связи, для построения которой необходимо пронормировать взаимную информацию I(XY) на H(XY):
где H(XY)-энтропия совместного распределения признаков X и Y, вычисляемая по формуле
Мера зависимости R(XY) (называемая также симметричным информационным коэффициентом связи) обладает следующими свойствами:
1) ; 2) R(XY)=0 тогда и только тогда, когда X и Y независимы; 3) R(XY)=1 тогда и только тогда, когда Х и Y функционально зависимы.
Пример 5. Вычисление коэффициента R(XY) по данным табл. 4 приводит к значению R(XY)=0,321/1,977=0,16, что значительно ниже значений коэффициентов T и K, подсчитанных выше для тех же данных. R(XY) дает «осторожную» оценку силы связи.
Отметим, что наряду с симметричной мерой зависимости R(XY) получили распространение и асимметричные (направленные) меры зависимости, например:
Однако использование этих коэффициентов для разделения признаков на «зависимые» и «определяющие» не имеет достаточного обоснования.
Завершая рассмотрение теоретико-информационных мер связи, укажем, что их построение может осуществляться не только на основе энтропии. Важным примером такой меры служит коэффициент Валлиса, реализующий принцип «пропорциональной предикции», согласно которому мерой связи должно служить относительное уменьшение вероятности ошибки предсказания признака Y при знании признака Х в сравнений с вероятностью ошибки прогноза Y без знания X. Коэффициент Валлиса вычисляется по формуле
Свойства коэффициента Валлиса аналогичны свойствам коэффициента R(XY), за тем лишь исключением, что Wy/x=1, когда возможен однозначный прогноз Y по Х (но не наоборот). Интерпретация коэффициента Валлиса весьма проста: если, например, Wy/x=0,50, то знание Х уменьшает число ошибок прогноза вдвое.
Для данных табл. 4 этот коэффициент равен Wy/x=0,41. Отметим, что в выборочных исследованиях предпочтительнее пользоваться не коэффициентом Валлиса, а информационными мерами связи, значимость которых может быть установлена в соответствии с изложенной выше методикой. Информационные меры связи получили применение в исторических исследованиях, в частности при обработке массовых источников по социально-экономической истории советского общества.
§ 2. Анализ связи ранговых признаков
Меры взаимосвязи между парой признаков, каждый из которых ранжирует изучаемую совокупность объектов, называются в статистике коэффициентами ранговой корреляции. Эти коэффициенты строятся на основе следующих трех свойств:
а) если ранжированные ряды по обоим признакам полностью совпадают (т. е. каждый объект занимает одно и то же место в обоих рядах), то коэффициент ранговой корреляции должен быть равен +1, что означает полную положительную корреляцию;
в) в остальных ситуациях значения коэффициента заключены в интервале [-1, 1]; возрастание модуля коэффициента от 0 до +1 характеризует увеличение соответствия между двумя ранжированными рядами.
Коэффициент ранговой корреляции Спирмена вычисляется по формуле
где di-разность между парами рангов для i-ro объекта; n-число сопоставляемых пар рангов (объектов).
Пример 6. Поясним технику вычисления коэффициента р на следующем иллюстративном примере.
т. е. связь между данными признаками прямая и довольно высокая.
Коэффициент ранговой корреляции Кендалла вычисляется по формуле
где S определяется таким образом, как показано в примере 7.
Пример 7. Обратимся вновь к данным табл. 5. Таблица упорядочена так, что в столбце «Ранг I» ранги расположились в порядке возрастания их значений (это существенно для вычисления S). Первые четыре столбца табл. 5 при вычислении τ такие же, как и при вычислении ρ, а последние два столбца здесь заменяются следующими:
Коэффициент Кендалла τ дает более осторожную оценку корреляции, чем коэффициент Спирмена ρ (числовое значение τ всегда меньше, чем ρ). Хотя вычисление коэффициента ρ менее трудоемко, чем вычисление коэффициента τ, последний легче пересчитать, если к ряду добавляется новый член.
Важное достоинство коэффициента τ состоит в том, что с его помощью можно определить коэффициент частной ранговой корреляции, позволяющий оценить степень «чистой» взаимосвязи двух ранговых признаков, устранив влияние третьего:
При ранжировании объектов нередко возникает ситуация, когда два (или большее число) объектов получают одинаковые ранги (такие объекты называют связанными). Расположение студентов в соответствии с их экзаменационными оценками является известным примером такого рода связей. В этом случае значение ранга связанных объектов берется равным среднему значению тех рангов, которые имели бы эти объекты, если они были бы различны.
Пример 8. Пусть по небольшой выборке, включающей 7 хозяйств, изучается взаимосвязь между размером имения и сословием владельца, приведенными в табл. 6.
Значимость коэффициентов ранговой корреляции. При определении силы ранговой корреляции на основе выборочных данных необходимо рассмотреть следующий вопрос: с какой степенью надежности можно полагаться на заключение о том, что в генеральной совокупности существует корреляция, если получен некоторый выборочный коэффициент ранговой корреляции. Другими словами, следует проверить значимость наблюдавшихся корреляций рангов исходя из гипотезы о статистической независимости двух рассматриваемых ранжировок.
При сравнительно большом объеме п выборки проверка значимости коэффициентов ранговой корреляции может осуществляться с помощью таблицы нормального распределения ( табл. 1 приложения ). Для проверки значимости коэффициента Спирмена ρ (при n>20) вычисляют значение
а для проверки значимости коэффициента Кендалла τ (при n>10) вычисляют значение
Далее задаются уровнем значимости α, определяют по табл. 1 приложения критическое значение tкр и сравнивают с ним вычисленное значение (ts) или (tk).
Пример 9. Проверим значимость коэффициента т для данных табл 6 (вычисления проделаем лишь для иллюстрации, так как объем выборки здесь меньше 10, n=7). По формуле (8.20):
По табл. 1 приложения находим, что tкр=1,96, если α=005 Поскольку tk>tкр, то τ-значим.
При малых выборках проверка значимости коэффициентов ранговой корреляции проводится с помощью специальных таблиц, построенных на основе более сложных критериев.
Множественный коэффициент ранговой корреляции W. Этот коэффициент (называемый также коэффициентом конкордации) предназначен для измерения связи произвольного числа ранговых признаков. Поясним способ вычисления W на следующем примере.
Пример 10. Пусть имеются n=7 хозяйств, характеризующихся набором из m=3 ранговых признаков (табл. 7). В пятом столбце табл. 7 приводятся суммы рангов, полученных каждым объектом.
Если ранжировки объектов по разным признакам совпадают (или близки), то суммарные ранги объектов будут сильно различаться. Если же все m ранжировок слабо согласованы, то суммарные ранги объектов будут почти одинаковыми и близкими к их средней сумме, равной
Значения W заключены в интервале [0, 1]. Равенство W нулю означает полную несогласованность m ранжировок; если же W=1, то все m ранжировок совпадают.
Определим значение W по данным табл. 7. Здесь S’=28,
т. е. данные три ранжировки согласованы весьма слабо.
Значимость полученной величины W может быть проверена по критерию X 2 :
с числом степеней свободы k=n-1. В данном примере X 2 ф=2,00; k=6. Для уровня значимости a=0,01 из табл. 3 приложения находим критическое значение X 2 кр=16,81. Поскольку фактическое значение Х 2 ф меньше критического, гипотеза об отсутствии связи между рассматриваемыми ранговыми признаками не отклоняется, т. е. коэффициент W в данном случае не является значимым.
Прикладные аспекты ранговой корреляции. Как уже отмечалось, коэффициенты ранговой корреляции могут использоваться не только для images/kachestv/лиза взаимосвязи двух ранговых признаков, но и при определении силы связи между ранговым и количественным признаками. В этом случае значения количественного признака упорядочиваются и им приписываются соответствующие ранги.
Существует ряд ситуации, когда вычисление коэффициентов ранговой корреляции целесообразно и при определении силы связи двух количественных признаков. Так, при существенном отклонении распределения одного из них (или обоих) от нормального распределения определение уровня значимости выборочного коэффициента корреляции r становится некорректным, в то время как ранговые коэффициенты ρ и τ не сопряжены с такими ограничениями при определении уровня значимости.
Другая ситуация такого рода возникает, когда связь двух количественных признаков имеет нелинейный (но монотонный) характер. Если количество объектов в выборке невелико или если для исследователя существен знак связи, то использование корреляционного отношения η может оказаться здесь неадекватным. Вычисление же коэффициента ранговой корреляции позволяет обойти указанные трудности.
Завершая рассмотрение проблем images/kachestv/лиза взаимосвязи, отметим следующие существенные положения.
1) Величины мер связи признаков различной природы не сравнимы между собой. Например, если величина коэффициента ранговой корреляции τxy оказалась выше величины коэффициента ассоциации Qzv, то это не означает, что связь ранговых признаков Х и Y «сильнее», чем связь альтернативных признаков Z и V.
С этими проблемами исследователь не сталкивается в том случае, когда все анализируемые признаки характеризуются одинаковым уровнем измерения.