Что такое статистическая обработка данных
Статистическая обработка
Смотреть что такое «Статистическая обработка» в других словарях:
Обработка сигналов — У этого термина существуют и другие значения, см. Сигнал (значения). Обработка сигналов область радиотехники, в которой осуществляется восстановление, разделение информационных потоков, подавление шумов, сжатие данных, фильтрация, усиление… … Википедия
обработка статистическая — каковы бы ни были цели и методы исследований психологических, получаемые в итоге данные можно рассматривать как результаты измерений различных психологических явлений и пр. Под измерением здесь понимается процедура приписывания числовых… … Большая психологическая энциклопедия
Статистическая проверка гипотез — [statistical verification of hypotheses, hypotesis testing] понятие математической статистики, « процедура обоснованного сопоставления высказанной гипотезы относительно природы или величины неизвестных статистических параметров анализируемого… … Экономико-математический словарь
статистическая сводка — обработка первичных материалов статистического наблюдения с целью их обобщения, заключающаяся в группировке, подсчете итогов, расчете статистических показателей, составлении статистических таблиц и др … Большой медицинский словарь
Статистическая служба Канады — Перепись населения Канады Статистическая служба Канады Переписные единицы Канады Переписные коды Канады Акт о статистике … Википедия
ОБРАБОТКА ДАННЫХ — комплекс процедур, направленных на преобразование и обобщение данных социологического исследования. В отечественной социологии термин трактуется очень широко. Обычно к О.Д. относят процедуры проверки и кодирования заполненного инструментария, в… … Социология: Энциклопедия
данное: обработка статистическая — каковы бы ни были цели и методы исследований психологических, получаемые в итоге данные можно рассматривать как результаты измерений различных психологических явлений и пр. Под измерением здесь понимается процедура приписывания числовых значений… … Большая психологическая энциклопедия
Наблюдений обработка — математическая, применение к результатам наблюдений математических методов для построения выводов об истинных значениях искомых величин. Всякий результат наблюдений, связанных с измерениями, содержит ошибки (погрешности) различного… … Большая советская энциклопедия
Allium test — Содержание 1 История метода «Allium Test», преимущества перед другими методами и перспективы … Википедия
Медици́нская стати́стика — (синоним: санитарная статистика, статистика в медицине и здравоохранении, медико санитарная статистика, статистический метод в медицине и здравоохранении) отрасль статистики, изучающая явления и процессы в области здоровья населения и… … Медицинская энциклопедия
Статистическая обработка данных
Урок 23. Алгебра 11 класc
В данный момент вы не можете посмотреть или раздать видеоурок ученикам
Чтобы получить доступ к этому и другим видеоурокам комплекта, вам нужно добавить его в личный кабинет, приобрев в каталоге.
Получите невероятные возможности
Конспект урока «Статистическая обработка данных»
• рассмотреть основные этапы статистической обработки данных;
• познакомиться с понятием «дисперсия»;
• рассмотреть примеры вычисления дисперсии с помощью специального алгоритма.
Слово статистика происходит от латинского «статус», означающего «состояние дел».
Этому понятию можно дать следующее определение.
Статистика – отрасль знаний, в которой излагаются общие вопросы сбора, измерения и анализа массовых статистических (количественных или качественных) данных; изучение количественной стороны массовых общественных явлений в числовой форме.
Анализируя результаты написания контрольной работы по математике, учитель сгруппировал все данные таким образом.
Только 1 человек получил двойку. Десять получили тройку. Пятеро человек написали контрольную на 4. И только двое получили пятёрки.
Всю эту информацию можно собрать в одной таблице.
Также эти данные можно представить графически.
На горизонтальной оси отметим все возможные результаты, а на вертикальной — их количество.
Так точки 2 1, 3 10, 4 5 и 5 2 будут соответствовать парам значений из таблицы. Соединим их ломаной. Так мы с вами получили многоугольник распределений.
А теперь для каждой пары значений изобразим соответствующий столбец и раздуем его до ширины равной одному. Получаем столбчатую диаграмму — гистограмму распределений.
Рассмотрим ещё один способ.
Представим все данные в виде круга.
Так получается круговая диаграмма.
Сейчас мы с вами на конкретном примере разобрали основные этапы статистической обработки данных.
К этим трём этапам обычно добавляют ещё один: получение паспорта данных измерений, состоящий из нескольких числовых характеристик.
К этим характеристикам относят объём, размах, моду и среднее измерение.
Объём измерения в данном случае равен 18, так как обрабатывались результаты восемнадцати учеников.
Размах измерения равен 9. Это разница между наибольшим и наименьшим результатами.
Мода измерения — это самый популярный, «модный» результат. В данном случае она равна 3.
Среднее (или среднее арифметическое). Это частное суммы всех результатов измерений на объём измерений.
Чаще всего, как вы понимаете, результатами измерений являются числа. Каждое число, встретившееся в конкретном измерении, называют вариантой измерения.
Если записать все варианты измерений, то получится ряд данных измерения.
Если записать их в порядке возрастания, то получим сгруппированный ряд данных.
Среднюю варианту называют медианой измерения. Если их две, то медиана равна их среднему арифметическому.
В нашем примере средними вариантами являются варианты под номерами 9 и 10. Они обе равны 3, значит, и медиана равна 3.
Каждая варианта встречается некоторое число раз, его называют кратностью данной варианты.
Для нашего примера таблица распределения данных примет такой вид.
Применим полученные знания при решении задачи.
На уроке физкультуры 14 школьников прыгали в высоту, а учитель записывал их результаты. Получился такой ряд данных
Требуется сгруппировать данные, составить таблицу их распределения, а также найти объём, размах, моду, среднее и медиану измерения.
Для начала сгруппируем данные, расположив их в порядке возрастания.
Это позволит нам составить таблицу распределения данных.
Теперь найдём объём измерения.
Размах измерения равен разности наибольшей и наименьшей вариант.
Среднее значение равно частному суммы всех полученных значений и объёма измерения.
Мода измерения равна 125. Ведь это самый популярный результат.
А теперь, по полученной таблице распределения данных построим многоугольник распределения и гистограмму распределения.
Мы имеем 5 вариант: 110, 120, 125, 130 и 140.
Кратность первой варианты равна 2, второй — 3, третьей — 5, четвёртой — 3, и пятой —1.
Соединив полученные точки, получим многоугольник распределения данных.
Тогда гистограмма примет такой вид.
Обратите внимание, варианты могут располагаться неравномерно на оси Ox, между ними могут быть пропуски.
Например, значение 115 не встретилось ни разу, то есть её кратность равна 0. Очевидно, что такое значение не может быть вариантой.
Для построение гистограммы можно было использовать номинативную шкалу, то есть по горизонтали распределить номинации, варианты, а на вертикальной оси оставить значения их кратностей. Гистограмма примет такой вид.
В этом случае вариантами могут быть не только числа.
Если кратность варианты разделить на объём измерения, то получится частота варианты.
Найдём частоту каждой варианты данной задачи. Обратите внимание, сумма частот всегда равна единице.
Частоту также можно выразить в процентах. Сумма частот в процентах, очевидно, всегда равна 100.
Только что с помощью таблицы распределения данных мы составили таблицу распределения частот.
А теперь рассмотрим такой случай.
Числовую характеристику данных измерения, отвечающую за разброс данных вокруг среднего значения, называют дисперсией D.
Средним квадратическим отклонением называют:
Чем меньше эти значения, тем плотнее группируются данные измерения вокруг среднего значения.
Существует алгоритм вычисления дисперсии данных.
Воспользуемся этим алгоритмом и найдём значение дисперсии результатов отклонения для каждого ружья.
Проведём подсчёты для ружья А. Их удобно производить в таблице.
Найдём их среднее значение. Получаем, что дисперсия равна:
А среднее квадратическое отклонение равно:
Вычислим значение дисперсии для ружья Б.
Можем вычислить дисперсию как среднее квадратов отклонений.
Тогда среднее квадратическое отклонение равно:
Видим, что дисперсии отличаются практически в 7 раз, а средние квадратические отклонения примерно в 3 раза.
Можно сказать, что ружьё Б стреляет с разбросом в 3 раза большим, чем ружьё А. Поэтому ружьё А точнее.
Подведём итоги нашего урока.
Сегодня вы познакомились и рассмотрели на примерах этапы статистической обработки данных.
Каждое значение, полученное в ходе измерений, мы договорились называть вариантой. А число повторений данной варианты, называют её кратностью.
Вы познакомились с формулой отыскания частоты варианты. И научились составлять таблицу распределения частот.
Также узнали, что числовую характеристику данных измерения, отвечающую за разброс данных вокруг среднего значения, называют дисперсией.
А ещё, рассмотрели примеры нахождения этих величин с помощью специального алгоритма.
Лекции по Математической статистике в ФКиС
Статистическая обработка результатов эксперимента
Лекция 1. Основные понятия математической статистики
В этом разделе приведены часто используемые термины, необходимые для понимания изложенного материала.
Числовые характеристики выборки – обобщенные показатели, позволяющие:
Статистической гипотезой (гипотезой) называется утверждение относительно истинных значений параметров исследуемой генеральной совокупности.
Нулевая гипотеза (Но) – предположение о том, что между параметрами генеральных совокупностей разница равна нулю и различия между ними носят не систематический, а случайный характер.
Альтернативная гипотеза (Н1) – гипотеза, противоположная нулевой.
Уровень значимости — вероятность отклонения нулевой гипотезы, когда она верна или другими словами вероятность ошибки.
Критерий — метод проверки статистических гипотез.
Критерий хи-квадрат, критерий лямбда Колмогорова–Смирнова – критерии согласия, часто используемые для проверки гипотезы о нормальности распределения.
t – критерий Стьюдента – критерий, позволяющий оценить, насколько статистически существенно различаются средние арифметические двух выборок.
Критерий Манна-Уитни — непарамтерический критерий проверки статистических гипотез. Применяется для независимых выборок.
О методах математической статистики и ее практическом применении можно прочесть в книге «Компьютерная обработка данных экспериментальных исследований»
Критерий Вилкоксона – непараметрический критерий проверки статистических гипотез. Применяется для связанных выборок.
Корреляционный анализ – метод статистической обработки результатов, сущность которого состоит в определении степени взаимосвязи между двумя случайными величинами X и Y.
Лекция 2. Числовые характеристики выборки
В своей статье, опубликованной в 1989 году В.М. Зациорский указал, какие числовые характеристики должны быть представлены в публикации, чтобы она имела научную ценность. Он писал, что исследователь “…должен назвать: 1) среднюю величину (или другой так называемый показатель положения); 2) среднее квадратическое отклонение (или другой показатель рассеяния) и 3) число испытуемых. Без них его публикация научной ценности иметь не будет “с. 52.
После проведения эксперимента исследователь получает определенные результаты. Чтобы его результаты можно было сравнить с данными других исследователей, необходимо рассчитать числовые характеристики выборки. Наибольшее практическое значение имеют характеристики положения, рассеивания и асимметрии (табл.1).
Таблица 1 — Название и обозначение числовых характеристик выборки
Среднее арифметическое (М)
Коэффициент асимметрии (As)
Коэффициент эксцесса (Ex)
Стандартное отклонение (S)
Характеристики положения
Среднее арифметическое (М) – одна из основных характеристик выборки. Этот показатель характеризуется тем, что сумма отклонений от него выборочных значений (с учетом знака) равна нулю.
где: n – объем выборки, xi – варианты выборки.
Среднее арифметическое, вычисленное на основе выборочных данных, как правило, не совпадает с генеральным средним. Чтобы оценить, насколько выборочное среднее арифметическое отличается от генерального среднего, вычисляется ошибка среднего арифметического или ошибка репрезентативности (m).
где: S — стандартное отклонение (см. далее).
В научных публикациях очень часто окончательный результат приводится в следующем виде: М±m. В качестве примера приведем фрагмент таблицы из публикации Г.Г.Лапшиной (табл. 2).
Таблица 2 — Антропометрический и функциональный статусы студенток, n= 83 (по: Г.Г.Лапшиной, 1989)
Медианой (Me) – называется такое значение признака, когда одна половина значений экспериментальных данных меньше ее, а вторая половина — больше.
Мода (Мо) – представляет собой значение признака, встречающееся в выборке наиболее часто.
Характеристики вариативности
Средние значения не дают полной информации о варьирующем признаке, поэтому наряду со средними значениями вычисляют характеристики вариации.-
Размах вариации (R) вычисляется как разность между максимальным и минимальным значением признака: R= Xmax-Xmin.
Информативность этого показателя невелика, так как распределения результатов могут иметь одинаковый размах варьирования, а их форма будет очень отличаться.
Дисперсия (S 2 ) – средний квадрат отклонений значений признака от среднего арифметического (4):
Наиболее часто в публикациях приводится не дисперсия, а стандартное отклонение (S). Этот показатель также называется среднеквадратическим отклонением или СКО (5):
Во многих публикациях этот показатель обозначается s , однако мы рекомендуем применять обозначения, используемые в книге В.С. Иванова (1990): S – выборочное стандартное отклонение, сигма – стандартное отклонение генеральной совокупности. В качестве примера приведем фрагмент таблицы из статьи Л.Н. Жданова (1996).
Таблица 3 — Зависимость возраста достижения лучшего результата и количество необходимого для этого времени от возраста начала спортивной специализации у конькобежцев, дистанция 500 м, 225 спортсменов (по: Л.Н.Жданову, 1996).
Возраст начала спортивной специализации, лет
Возраст лучшего результата
Количество лет с начала специализации
Коэффициент вариации (V%). Чтобы сопоставить вариативность признаков, измеренных в различных единицах, используется относительный показатель (6), которы йназывается коэффициентов вариации.
Коэффициент вариации используют для оценки однородности выборки. Если V
Характеристики асимметрии
Коэффициент асимметрии (As) характеризует “скошенность“ эмпирического распределения.
Коэффициент эксцесса (Ex) определяет характер эмпирического распределения: остро- или плосковершинный.
Лекция 3. Закон нормального распределения
Корректное использование критериев проверки статистических гипотез предполагает знание закона распределения. Так, например, использование t – критерия Стьюдента и F-критерия Фишера требует нормального распределения экспериментальных данных. К сожалению, многие исследователи это не учитывают.
Большинство экспериментальных распределений, полученных при исследованиях в области физической культуры и спорта может быть описано с помощью нормального распределения. График плотности вероятности нормального распределения имеет следующий вид (рис. 1).
Рис. 1
На рис. 1 представлено распределение роста женщин с параметрами: мю (генеральное среднее) – 170 см, s = 5 см.
Нормальное распределение обладает следующими свойствами:
1. Нормальная кривая имеет колокообразную форму, симметричную относительно x = мю.
3. Нормальное распределение полностью определяется двумя параметрами: мю и сигма.
4. Медиана и мода совпадают и равны мю.
5. В интервал мю ± сигма попадают 68 % всех результатов.
В интервал мю ± 2 сигмы попадают 95% всех результатов.
В интервал мю ± 3 сигмы попадают 99 % всех результатов.
Чтобы проверить, соответствует ли распределение нормальному закону, существует много методов. Можно использовать свойства нормального распределения (равенство среднего, моды и медианы). Однако более точные результаты дают критерии согласия. В зависимости от объема выборки (n) следует использовать различные критерии:
если объем выборки небольшой (n = 10) – критерий Шапиро – Уилки;
если объем выборки более 40 — критерий хи-квадрат и критерий Колмогорова-Смирнова;
Лекция 4. Проверка статистических гипотез
Рассчитав числовые характеристики выборки, экспериментатор получает возможность сравнивать свои результаты с данными других исследователей или сравнить результаты, показанные контрольной и экспериментальной группой. Иногда задача работы состоит в том, чтобы сравнить результат, показанный группой спортсменов до и после эксперимента. В этом случае, чтобы дать ответ, существуют ли достоверные различия в результатах, нужно проверить статистические гипотезы, использовав для этого специальные методы — критерии значимости. Таким образом, критерий значимости — это метод проверки статистической гипотезы.
При использовании критериев значимости выдвигается нулевая гипотеза (Ho) — предположение о том, что в параметрах генеральных совокупностей из которых получены данные, представленные в выборках, разница равна нулю и различия между ними носят не систематический, а случайный характер. Противоположная гипотеза называется альтернативной (Н1).
Для проверки статистических гипотез применяются параметрические и непараметрические критерии. Параметрические критерии включают в формулу расчета параметры распределения, в нашем случае нормального. поэтому первым условием использования параметрических критериев является нормальное распределение результатов исследования. Вторым условием применения параметрических критериев является статистическая шкала, в которой представлены данные. Такими шкалами являются интервальная шкала и шкала отношений (данные, представлены в этих шкалах измеряются в кг, м, с и т.д). Непараметрические критерии (или ранговые критерии) построены по другому принципу и не требуют нормального распределения экспериментальных результатов. Кроме того, эти критерии можно применять к данным, представленным в порядковой шкале (баллы).
Параметрические критерии
К параметрическим критериям относят: критерий Стьюдента для независимых выборок и критерий Стьюдента для связанных выборок.
t–критерий Стьюдента для независимых выборок
Гипотеза: Ho: μx= μy (предполагается равенство средних арифметических генеральных совокупностей).
t – критерий Стьюдента рассчитывается по формуле (1):
Значение S x—y зависит от того, равны или не равны объемы выборки, а также их дисперсии.
В случае равенства дисперсий и объемов выборок S x-y вычисляются по формуле (8)
t–критерий Стьюдента для связанных выборок (парные сравнения)
В практике педагогических исследований часто используются так называемые парные сравнения (до и после эксперимента). При парных сравнениях нельзя использовать рассмотренные выше методы для независимых выборок, поскольку это приведет к большим ошибкам. Для сравнения средних значений нужно использовать модификацию t – критерия Стьюдента для связанных выборок. Особенность расчета t – критерия в том, что гипотеза формулируется в отношении разностей сопряженных пар наблюдений.
Значение t – критерия Стьюдента определяется по формуле (10):
где: `d – среднее арифметическое разностей, Sd` стандартное отклонение.
Непараметрические критерии
Применение параметрических критериев (t – критерия Стьюдента) связано с целым рядом допущений. Например, сравнивая выборочные средние значения с помощью t – критерия Стьюдента, принимались следующие предположения: обе выборки являются случайными, то есть каждая из них получена в результате независимых измерений, обе выборки получены из генеральных совокупностей, имеющих нормальное распределение, дисперсии генеральных совокупностей равны между собой. На практике эти предположения строго никогда не выполняются, поэтому применение параметрических критериев всегда связано с опасностью ошибочных выводов, возникающих из-за нарушения принятых допущений. В последнее время в математической статистике интенсивно разрабатываются непараметрические методы, которые строятся так, чтобы их применение зависело от возможно меньшего числа допущений.
Параметрические критерии применимы только для сравнения выборочных данных, представляющих собой результаты измерений, выраженных в единицах метрических шкал (метры, килограммы, секунды и т.д.). Но в спортивных исследованиях часто приходится иметь дело с данными, выраженными в шкалах порядка, например, произвольная нумерация игроков в команде, места, занятые спортсменами в соревнованиях и т.д. Такие данные нельзя сравнивать с помощью параметрических критериев, а непараметрические критерии могут быть успешно применены и к данным этого типа.
Сравнение двух независимых выборок (критерий Манна-Уитни для независимых выборок)
Условие применения. Применение критерия Вилкоксона основано на единственном предположении: выборки получены из однотипных непрерывных распределений. При этом вид распределения генеральных совокупностей никак не оговаривается.
Гипотеза: Ho: Mex = Mey (предполагается равенство медиан двух генеральных совокупностей).
Сравнение двух связанных выборок (критерий Вилкоксона для связанных выборок)
Порядок использования t – критерия Стьюдента и W – критерия Вилкоксона следующий. При обработке выборочных данных рассчитывается фактическое значение критерия. Затем по табличным данным определяется его критическое значение. Если фактическое значение меньше, чем критическое на уровне значимости α=0,05, то различие считается статистически незначимым (р>0,05). Если вычисленное по выборке значение критерия превышает критические значения при a=0,05; a=0,01 или a=0,001, то различия считаются статистически значимыми. Это записывается следующим образом: p
Таблица 4 — Изменение высоты прыжка верх с места после силовых и скоростно-силовых тренировок в макроцикле (по: В.В.Марченко, Л.С.Дворкину, В.Н.Рогозяну, (1998).