Биометрия, или Биологическая статистика — раздел вариационной статистики, с помощью методов которого производят обработку экспериментальных данных и наблюдений, а также планирование количественных экспериментов в биологических исследованиях; а также научная отрасль, связанная с разработкой и использованием статистических методов в научных исследованиях в медицине, здравоохранении и эпидемиологии.
Биометрия сложилась в XIX веке — главным образом благодаря трудам Фрэнсиса Гальтона и Карла Пирсона. В 1920-х — 1930-х годах крупный вклад в развитие биометрии внес Рональд Фишер.
Содержание
История
У истоков биометрии стоял Фрэнсис Гальтон (1822—1911). Первоначально Гальтон готовился стать врачом. Однако, обучаясь в Кембриджском университете, он увлекся естествознанием, метеорологией, антропологией, наследственностью и теорией эволюции. В его книге, посвященной природной наследственности, изданной в 1889 году им впервые было введено в употребление слово biometry; в это же время он разработал основы корреляционного анализа. Гальтон заложил основы новой науки и дал ей имя.
Следующий этап развития биометрии связан с именем великого английского статистика Рональда Фишера (1890—1962). Во время обучения в Кембриджском университете Фишер познакомился с трудами Менделя и Пирсона. В 1913—1915 годах Фишер работал статистиком на одном из предприятий, а в 1915—1919 годах преподавал физику и математику в средней школе. С 1919 года Фишер работал статистиком на опытной сельскохозяйственной станции в Ротамстеде, где он проработал до 1933 года. Затем с 1933 года по 1943 год Фишер работал профессором в Лондонском университете, а с 1943 года по 1957 год заведывал кафедрой генетики в Кембридже. За эти годы им были разработаны теория выборочных распределений, методы дисперсионного и дискриминантного анализа, теории планирования экспериментов, метод максимального правдоподобия и многое другое, что составляет основу современной прикладной статистики и математической генетики.
История биостатистики, область исследования и применения
биостатистика это наука, которая является частью статистики и применяется к другим дисциплинам в области биологии и медицины, главным образом.
Биостатистика является очень полезным инструментом, который может быть применен к изучению таких организмов, в том числе опытно-конструкторских, сбор данных для проведения исследования и обобщены результаты, полученные.
Таким образом, данные могут быть проанализированы на систематической основе, что приводит к получению соответствующих и объективных выводов. Точно так же он имеет инструменты, которые позволяют графическое представление результатов.
история
В середине семнадцатого века современная статистическая теория возникает с введением теории вероятностей и теории игр и случайностей, разработанной мыслителями из Франции, Германии и Англии. Теория вероятностей является критическим понятием и считается «основой» современной статистики..
Вот некоторые из наиболее заметных участников в области биостатистики и статистики в целом:
Джеймс Бернулли
Бернулли был важным швейцарским ученым и математиком своего времени. Бернулли приписывают первый договор теории вероятностей и биномиальное распределение. Его шедевр был опубликован его племянником в 1713 году и называется Арс Конъектанди.
Иоганн Карл Фридрих Гаусс
Гаусс является одним из самых выдающихся ученых в области статистики. С раннего возраста он оказался вундеркиндом, заявив о себе в научной сфере, так как он был еще молодым школьником.
Одним из его самых важных вкладов в науку была работа Несчастные арифметики, опубликовано, когда Гауссу исполнился 21 год.
В этой книге немецкий ученый раскрывает теорию чисел, в которой также собраны результаты ряда математиков, таких как Ферма, Эйлер, Лагранж и Лежандр..
Пьер Шарль-Александр Луи
Первое исследование медицины, которое включало использование статистических методов, приписано доктору Пьеру Шарлю-Александру Луи, уроженцу Франции. Он применил численный метод к исследованиям, связанным с туберкулезом, оказав значительное влияние на студентов-медиков того времени..
Исследование побудило других врачей использовать статистические методы в своих исследованиях, которые значительно обогатили дисциплины, особенно связанные с эпидемиологией..
Фрэнсис Гальтон
Фрэнсис Гальтон был персонажем, который внес множественный вклад в науку, и считается основателем статистической биометрии. Гальтон был двоюродным братом британского натуралиста Чарльза Дарвина, и его исследования были основаны на сочетании теорий его двоюродного брата с обществом, в так называемом социальном дарвинизме.
Теории Дарвина оказали большое влияние на Гальтона, который чувствовал необходимость разработать статистическую модель, которая смогла бы обеспечить стабильность населения.
Благодаря этому, Гальтон разработал модели корреляции и регрессии, которые широко используются сегодня, как мы увидим позже.
Рональд Фишер
Он известен как отец статистики. Развитие модернизации методов биостатистики приписывается Рональду Фишеру и его сотрудникам..
Когда Чарльз Дарвин опубликовал Происхождение видов, Биология до сих пор не имела точных интерпретаций наследования персонажей.
Много лет спустя, с открытием работы Менделя, группа ученых разработала современный синтез эволюции, путем слияния двух тел знаний: теории эволюции путем естественного отбора, и законы наследования.
Совместно с Фишером Сьюолл Г. Райт и Дж. Б. С. Холдейн разработали синтез и установили принципы популяционной генетики.
Синтез принес с собой новое наследие в биостатистике, а разработанные методы стали ключевыми в биологии. Среди них выделяются распределение выборки, дисперсия, дисперсионный анализ и дизайн эксперимента. Эти методы имеют широкий спектр применения, от сельского хозяйства до генетики.
Что изучает биостатистика? (Область исследования)
Биостатистика является филиалом статистики, которая сосредоточена на разработке и осуществлении научных экспериментов, которые проводятся на живых существах, сборе и анализе данных, полученных в результате этих экспериментов, и последующая интерпретация и презентации результаты анализов.
Так как Biosciences содержат обширную серию исследовательских целей, биостатистика должны быть в равной степени разнообразны, и достигает заниматься разнообразие предметов биологии ставит своей целью изучить, охарактеризовать и проанализировать просуществуют.
приложений
Применение биостатистики чрезвычайно разнообразно. Применение статистических методов является неотъемлемой частью научного метода, поэтому любой исследователь должен адаптировать статистику для проверки своих рабочих гипотез..
Науки о здоровье
Биостатистика используется в области здравоохранения, чтобы получить результаты, связанные с эпидемиями, исследованиями питания, среди прочего.
Он также используется непосредственно в медицинских исследованиях и при разработке новых методов лечения. Статистика позволяет объективно определить, оказывало ли лекарство положительное, отрицательное или нейтральное влияние на развитие конкретного заболевания.
Биологические науки
Для любого биолога статистика является незаменимым инструментом в исследованиях. За немногими исключениями из просто описательных работ, исследования в области биологических наук требуют интерпретации результатов, для которых необходимо применение статистических тестов..
Статистика позволяет нам узнать, являются ли различия, которые мы наблюдаем в биологических системах, случайными или отражают существенные различия, которые необходимо учитывать.
Таким же образом он позволяет создавать модели для прогнозирования поведения некоторой переменной, например, с помощью применения корреляций..
Основные тесты
В биологии можно указать серию тестов, которые часто проводятся в исследованиях. Выбор соответствующего теста зависит от биологического вопроса, на который необходимо ответить, и определенных характеристик данных, таких как распределение однородности отклонений..
Тесты для переменной
Если образец не соответствует предположению о нормальном распределении, существуют тесты, которые используются в этих случаях и известны как непараметрические тесты. Для t-критерия непараметрической альтернативой является ранговый критерий Уилкоксона..
Многомерные тесты
Обычно хотят изучить более двух переменных, поэтому многомерные тесты очень полезны. Эти исследования подчеркивают регрессию, канонический корреляционный анализ, дискриминантный анализ, многомерный дисперсионный анализ (MANOVA), логистической регрессии, анализа главных компонент и т.д..
Самые используемые программы
SPSS
С-плюс и Статистика
R
В настоящее время большинство биологов предпочитают проводить свой статистический анализ в R. Это программное обеспечение отличается универсальностью, поскольку каждый день создаются новые пакеты с несколькими функциями. В отличие от предыдущих программ, в R вы должны найти пакет, который выполняет тест, который вы хотите сделать, и загрузить его.
Хотя R, кажется, не очень дружелюбен и прост в использовании, он предоставляет широкий спектр тестов и функций, которые очень полезны для биологов. Кроме того, существуют определенные пакеты (такие как ggplot), которые позволяют визуализировать данные очень профессионально.
БиоСтатистика — 01. Содержание курса. Тема 1. Основные понятия биостатистики
Содержание курса. Тема 1. Основные понятия биостатистики
Содержание
Тема 1. Основные понятия биостатистики
Тема 2. Использование программы Statistica
Тема 3. Визуализация данных (на примере результатов описания зеленых лягушек)
Тема 4. Сравнение выборок
Тема 5. Краткое введение в дисперсионный анализ
Тема 6. Сравнение распределений
Тема 7. Связь между признаками
Тема 8. Кластерный анализ
Тема 9. Метод главных компонент
Тема 10. Дискриминантный анализ
Тема 11. Некоторые методы, характерные для зоологии и экологии
Программа раздела большого практикума «Статистический анализ данных в зоологии и экологии»
М. А. Гхазалі. Статистичні методи в зоології. Матеріали відкритих лекцій, прочитаних в інституті зоології імені І.І.Шмальгаузена у 2017/2018 навчальному році для аспірантів 1-го курсу
Перспективные темы для расширения курса:
Тема 1. Основные понятия биостатистики
1.1. Что такое биостатистика и зачем она нужна
Статистический анализ результатов биологических исследований позволяет решать несколько типов задач: 1. наглядно представлять результаты описания разнообразия изучаемых объектов; 2. обоснованно (с определенной вероятностью ошибки) принимать или не принимать предположения о наличии закономерностей, отражающихся в варьировании изучаемой величины; 3. обнаруживать неявные закономерности, скрытые в варьировании изучаемых данных.
Не следует думать, что существует какая-то особая биологическая статистика, принципиально отличающаяся от математической статистики вообще. Однако изменчивость биологических объектов обладает определенными особенностями, отличающими их, к примеру, от изменчивости финансовых показателей или результатов технологических процессов на производстве. Это приводит к тому, что набор методов, используемых в биологии, отличается от такового в других областях применения статистики. Кроме того, следует помнить, что статистическое исследование в биологии не является самоцелью: оно подчинено задачам биологического исследования и не может быть полностью интерпретировано вне изучаемой биологической проблемы. Однако не только анализ данных должен быть подчинен логике биологического исследования; оно и само должно строится с учетом будущего анализа. Сбор эмпирических данных и постановка экспериментов должны заранее учитывать, как именно будет организован анализ получнных данных. Итак, хотя применение статистики в биологии невозможно полностью отграничить от математической статистики как таковой или изучаемых с помощью тех или иных методов разделов биологии, оно все равно составляет особую отрасль науки, особый комплекс проблем и способов их решения. Для этой отрасли можно использовать термин, предложенный в 1899 году Френсисом Гальтоном — биометрия. Поскольку термин «биометрия» перехватили специалисты по идентификации личности на основании индивидуальных признаков, во многих случаях проще оказывается использовать термин биостатистика.
Объекты, которые изучает биология, обладают высоким уровнем уникальности. Практически в любом биологическом феномене проявляются как общие закономерности, так и влияние особых обстоятельств, часто связанных с той или иной уникальностью биосистем. Это означает, что для биологических исследований очень важны методы, позволяющие увидеть общие закономерности, проявляющиеся за изменчивостью частных проявлений. Возможно, поэтому биологи внесли большой вклад в развитие статистики в целом. Результаты работ Френсиса Гальтона, Карла Пирсона, Рональда Фишера составляют важную часть не только биостатистики, но и математической статистики в целом.
1.2. Вероятность
Статистически можно изучать повторяемые события. Например, мы вслепую выбираем кроликов из ящика. Кролики могут быть черными или белыми. Каждый выбор — элементарное событие. Человек засовывает руку в отверстие ящика и хватает там какого-то кролика… Можно ли узнать, какого кролика он схватил? Нет (если нет иных источников получения информации и иных факторов, влияющих на результат). Можем ли мы узнать, каково соотношение черных и белых кроликов в ящике? Тоже нет.
Как только кролик будет извлечен наружу, мы не просто узнаем, какого он цвета. Мы сможем кое-что узнать о составе кроликов в ящике. Например, если вытащен белый кролик, мы можем утверждать, что в ящике был как минимум один белый кролик. Немного. Однако если последовательно вытащить 10 кроликов, по составу группы кроликов, собирающихся у ног вытаскивающего их человека, можно высказать более детальное предположение о составе кроликов в ящике. Эти предсказания основываются на феномене вероятности, проявляющейся в регулярных, повторяющихся событиях. Вероятность – числовая мера возможности события. Вероятность 1 означает, что событие произойдет наверняка, а вероятность 0 – что оно невозможно.
Предположим, в ящике 50 белых и 50 черных кроликов. Какова вероятность случайно выбрать белого кролика при однократном выборе? Из общего количества возможных исходов (100) этому условию соответствует 50, значит вероятность — 50/100 = 1/2 = 0,5.
А надо ли рассматривать вариант, что, например, в вынутой из ящика руке не было ни одного кролика или, к примеру, два? В реальной жизни — надо, а в ее упрощенной модели, к которой можно применить аппарат основ теории вероятности — можно и не учитывать. Те случаи, когда человек не достал ни одного кролика или достал за раз сразу двух, не соответствуют условиям однократного выбора. Впрочем, если бы читатель этого текста засунул руку в настоящий ящик, заполненный уворачивающимися и лягающимися кроликами, вероятностью, что он ничего не вытащит, пренебрегать было бы нельзя.
А какова вероятность выбрать два кролика одного цвета? Может показаться, что 0,5, хотя на самом деле меньше. После того, как выбран кролик определенного цвета, вероятность выбора второго такого же составляет 49/99 против 50/99. Итак, вероятность выбора двух кроликов одного цвета составляет 49/99 = 0,4949…, а двух белых — 0,24747…
1.3. Генеральная совокупность и выборка
Генеральная совокупность — действительная или гипотетическая совокупность всех объектов, относящихся к изучаемой категории. В большинстве случаев изучать генеральную совокупность невозможно, и исследователи работают с выборками (эмпирическими совокупностями, выборочными совокупностями) — группами объектов, полученных из генеральной совокупности.
Объем генеральной совокупности определяется задачей исследования (и может в существенной степени изменяться при ее переформулировании). Сравнение роста юношей и девушек в группе, изучающей биометрию, может быть исследованием именно этой группы (при этом в выборку попадет вся генеральная совокупность), исследованием студентов конкретного университета (генеральная совокупность при этом хотя бы конечна), студентов вообще или людей вообще (в двух последних случаях генеральная совокупность, по крайней мере, гипотетическая, оказывается потенциально бесконечной).
Существенный парадокс статистики заключается в том, что исследователь работает с выборками, а изучает при этом те совокупности, откуда эти выборки получены.
Можно ли по выборке судить о генеральной совокупности, которая существенно шире этой выборки? В определенной степени, да. Впрочем, понятно, что не всякая выборка отражает состав генеральной совокупности, из которой она получена. Можно ли брать выборку, по которой судить о изменчивости роста людей, из числа студентов? Нет, поскольку в эту выборку попадут люди преимущественно молодого возраста, которые захотели получать высшее образование и смогли поступить в соответствующий вуз. Такая выборка является смещенной. Чтобы получить полностью случайную выборку, следовало бы организовать процесс ее формирования таким образом, что любой из объектов в составе генеральной совокупности имел бы одинаковую вероятность попадания в выборку. В большинстве случаев такой отбор практически неосуществим. Тем не менее, для изучения генеральной совокупности следует использовать только репрезентативные (представительные) выборки, при формировании которых отклонения от случайного характера при их формировании не могут привести к существенному смещению выборки.
Неслучайность формирования выборок, с которыми работает биолог, являются одной из постоянных (и полностью неустранимых) проблем при биологическом исследовании. Представьте себе, что нам надо не доставать черных и белых кроликов из ящика, а определить их соотношение в том или ином местообитании. Как это сделать? Например, выйти в поле и посчитать попадающихся на пути исследователя кроликов того и другого цвета. Однако на черной пахоте более заметными окажутся белые кролики, а после выпадения снега — черные. Может, стоит не полагаться на зрение исследователя, и ловить кроликов ловушками? Однако если белые кролики являются альбиносами, они могут иметь худшее зрение, чем черные, и чаще попадаться в ловушки. Выборка кроликов, которые наблюдались во время маршрутного учета и выборка кроликов, которые попались в ловушки, не являются вполне репрезентативными для оценки генеральной совокупности кроликов, населяющих изучаемую территорию.
Теперь представьте себе, что зоолог пытается оценить состав популяции прытких ящериц. Он посетил местообитание этой популяции в пасмурный ветреный день, перед которым несколько дней подряд шли дожди. В такую погоду вышли на поверхность для поисков корма только молодые особи и беременные (вынашивающие созревающие яйца) самки (те особи, которые испытывают особо сильный голод). Исследователь собрал несколько особей, которые показались ему «типичными», а также еще несколько экземпляров, которые заинтересовали его своей необычностью. В ходе дальнейшего анализа он будет судить о свойствах изучаемой генеральной совокупности (ящериц данной популяции) на основании свойств имеющейся у него выборки. Увы, никакими методами статистического анализа полностью исправить смещение такой выборки будет невозможно.
1.4. Что такое значимость? Шуточный пример
Рассмотрим шуточный пример. Всем известен фокус, при котором фокусник достает из шляпы кролика (рис. 1.4.1). Откуда берется извлеченный фокусником кролик? Неизвестно… Можно представить себе, что шляпа — «вход» в какой-то аналог ящика с кроликами, наподобие того, на примере которого мы обсуждали понятие вероятности. Процедуру извлечения кроликов из шляпы можно сравнить с получением выборки из генеральной совокупности. Выборкой является извлеченные кролики (возможно — один, возможно — большее количество, один за другим), а генеральной совокупностью — кролики в том «магическом пространстве», из которого они извлекаются.
Рис. 1.4.1. Что мы можем утверждать о том «магическом пространстве», из которого фокусник извлек кролика (т.е. что мы в данном случае можем узнать о генеральной совокупности по полученной нами выборке)? Там был по крайней мере один белый кролик…
Предположим, фокусник вытаскивает кроликов вслепую: что ухватит рука, засунутая в шляпу, то он и вытащит. Просунув руку в одну шляпу, он вытащил белого кролика, а просунув в другую — черного (рис. 1.4.2).
Рис. 1.4.2. Из другой шляпы появился другой кролик, черный… В том пространстве, куда ведет правая шляпа, был, по крайней мере, один черный кролик. А две шляпы ведут в одно пространство, или в разные (иначе говоря, две выборки получены из одной генеральной совокупности или из разных)? У нас недостаточно оснований для выбора одного из этих вариантов. Может, две выборки получены из одной генеральной совокупности, где есть и черные, и белые кролики, а возможно — из разных совокупностей
Можем ли мы по составу кроликов из двух выборок, соответствующих двум шляпам, установить, получены ли они из одной генеральной совокупности? Иногда полученные нами данные бесполезны для выбора какой-либо из взаимоисключающих возможностей, а иногда они могут быть основанием для обоснованных предположений (рис. 1.4.3).
Рис. 1.4.3. Информации для принятия решения стало больше… Если мы примем, что через две шляпы фокусник дотягивается до двух разных совокупностей кроликов, нам не понадобится никаких дополнительных предположений. Если обе выборки получены из одной генеральной совокупности, нам придется предположить, что реализовался не самый вероятный вариант
Какова вероятность того, что фокусник получит в одной выборке два белых кролика, а с другой — два черных, если он берет их из одной генеральной совокупности? Какое мы можем ожидать соотношение белых и черных кроликов в генеральной совокупности (если она одна)? Мы точно знаем, что там есть и белые, и черные, а их соотношение мы можем оценить по объединенной выборке (мы, в таком случае, предполагаем, что отличия между кроликами из разных шляп — следствие одной лишь случайности). Самый вероятный вариант — белых и черных поровну, так как именно это соответствует общей полученной выборке.
Засунув руку в первый раз в одну из шляп, фокусник вытащил какого-то кролика. Показанный на рис. 1.4.3 вариант реализуется в том случае, если из этой шляпы будет вытащен кролик того же цвета (т.е. произойдет событие, вероятность которого мы оценили как ½), а из другой шляпы два раза подряд будут вытащены кролики иного цвета (т.е. произойдет два независимых события, вероятность каждого из которых — тоже по ½). Таким образом, такое распределение, как на рисунке, получится в случае общего пространства лишь в одном случае на восемь попыток. Вероятнее предположить, что совокупности кроликов разные, хотя, конечно, для того, чтобы отбросить предположение о том, что кролики берутся из одной общей совокупности, оснований у нас недостаточно…
Впрочем, возможны случаи и посложнее (рис. 1.4.4)…
Рис. 1.4.4. Информации еще больше, но расчет вероятности не столь тривиален, как в предыдущем случае
Общее соотношение белых и черных кроликов по-прежнему одинаково. Вероятность того, что в одной выборке соотношение окажется 1 к 3, а в другой — 3 к 1 (без учета того, в каком порядке извлекались кролики в каждой выборке) оказывается той же, что и в предыдущем примере: при заданных численностях выборок показанный на рисунке исход наблюдается в одном случае из восьми.
А как изменятся наши оценки, если выборки станут больше, а отличия между ними — нагляднее (рис. 1.4.5)?
Рис. 1.4.5. В этом случае на вопрос, в одно «магическое пространство» запускает фокусник руки через разные шляпы, или в разные, можно дать весьма вероятный ответ: в разные. Если бы пространство было одно, разделение на 10 кроликов одного цвета в одной выборке и 10 кроликов другого цвета — в другой, могло бы наблюдаться лишь в одном случае на 524288 попыток
Можно было бы предположить, что в том случае, если выборки не отличаются по составу (рис. 1.4.6), мы могли бы принять противоположное решение, и предположить, что обе шляпы являются порталами для попадания в одно и то же место. Однако такое решение было бы неправильным. Мы установили только то, что предположение об одинаковом соотношении белых и черных кроликов в совокупностях, к которым ведут правая и левая шляпы на рис. 1.4.6, вполне вероятное с точки зрения сравнения извлеченных из них кроликов. Но у нас нет никаких оснований выбрать между предположениями о том, что это два разных пространства с одинаковым составом, или же что это одно общее пространство.
Рис. 1.4.6. Согласуется ли наблюдаемая в этом случае картина с тем предположением, что через правую и левую шляпы фокусник засовывает руки в разные «магические пространства»? Вполне согласуется!
Итак, случай на рис. 1.4.5 дает основания для определенного вывода, а случай на рис. 1.4.6 — нет! Это — отражение общей закономерности: сравнивая две выборки мы иногда можем доказать, что они происходят из разных генеральных совокупностей (т.е. обосновать, что противоположное заключение является крайне маловероятным), но не можем доказать, что они происходят из одной совокупности! Впрочем, можно обосновать, что отличие между совокупностями, из которых взяты две выборки, с той или иной вероятностью не превышает определенного уровня…
В случае сравнения выборок, которое мы рассматривали в этом примере, вероятность того, что выборки получены из одной совокупности и отличия между ними являются следствием случайности, называется статистической значимостью предположения о том, что генеральные совокупности, из которых получены выборки — разные. В иных случаях (например, при изучении связи между изменчивостью двух признаков) статистическая значимость определяется аналогичным образом — это вероятность того, что зарегистрированный эффект является следствием случайности. Коротко можно сформулировать следующее: уровень значимости — это вероятность того, что зарегистрирован просто результат случайности при формировании выборки. Что означает фраза «результат статистически значим»? Она означает, что случайное возникновение этого результата очень маловероятно, что у нас есть все основания считать результат неслучайным, отражающим особенности того, что мы изучаем.
1.5. Статистическая значимость; нулевая и альтернативная гипотезы
Чтобы формализовывать подобные логические выборы, принято формулировать две гипотезы, выбор между которыми нужно сделать в ходе статистического исследования.
Нулевая гипотеза (H0) утверждает, что между совокупностями, из которых взяты выборки, нет отличий (а разница между выборками — следствие случайности в ходе их формирования).
Альтернативная гипотеза (H1) утверждает, что отличия между выборками отражают отличия между совокупностями, откуда они получены.
Однозначно выбрать одну из этих возможностей нельзя, и всегда сохраняется возможность ошибки. Нужно по имеющимся данным о составе выборок оценить вероятность справедливости нулевой и альтернативной гипотез и выбрать оптимальное решение. Для этого выбора используются статистические критерии — правила, позволяющие делать такой выбор.
Нулевая и альтернативная гипотеза могут быть ненаправленными (важен сам факт отличия между совокупностями, откуда взяты выборки), а могут быть и направленными (например, важно, что определенное воздействие повышает значение признака; в совокупности подвергнутых воздействию объектов значение признака выше). К примеру, когда мы определяем, влияет ли пол на длину хвоста, мы можем рассматривать как примеры такого влияния и тот случай, когда хвост у самок длиннее, чем у самцов, и тот, при котором он короче. Когда мы определяем, «работает» ли новое лекарство, случаи, когда оно способствует выздоровлению и когда оно препятствует выздоровлению, представляются совершенно различными. Альтернативная гипотеза должна заключаться именно в том, что лекарство способствует выздоровлению. Итак, в первом случае следует применять ненаправленные критерии, а во втором — направленные.
Уровень статистической значимости — это вероятность того, что мы сочли различие существенным (приняли альтернативную гипотезу), а они на самом деле случайны. Можно определить уровень статистической значимости как вероятность того, что приняв альтернативную гипотезу в ситуации, когда на самом деле верна нулевая гипотеза, мы совершили ошибку I рода. Ошибкой II рода называется принятие нулевой гипотезы, когда верна альтернативная. Обычно ошибки I рода оказываются более опасными. Вероятность ошибки первого рода обозначается как α; а второго рода — как β. В соответствии с этим мощность критерия можно определить как = 1 — β.
Часто приходится наблюдать примеры неправильного употребления слов «достоверность» и «значимость». Понятие «статистическая значимость» (или просто «значимость») имеет четкую математическую трактовку. Статистическая значимость (significance) определенного результата (например, регистрации разницы между группами данных или связи между двумя переменными) — низкая вероятность его случайного возникновения. Утверждение «две выборки отличаются статистически значимо» означает, что вероятность их получения из одной совокупности настолько низка, что можно считать доказанным их получение из разных совокупностей. «Достоверность» — намного более широкое понятие, которое может использоваться в самых разных сферах (от юриспруденции до философии) и не имеет математического определения. Его используют для обозначения обоснованного, доказательного знания. Утверждение «выводы диссертации достоверны» означает, что они обоснованы логикой построения и изложени я материала. Запомните: достоверные выводы делаются на основании статистически значимых результатов!
Кстати, при неправильной организации эксперимента или при ошибках интерпретации недостоверные выводы могут ссылаться на множество статистически значимых феноменов.
В подавляющем большинстве источников принято говорить просто об «уровне значимости». Это ни в коем случае не является ошибкой, и такое словоупотребление вполне допустимо. Однако на том основании, что данный текст носит учебный характер, его автор будет стараться во всех случаях использовать полную формулировку: понятие «статистическая значимость»; так проще напоминать о его статистической природе.
1.6. Признаки
При описании каких-то объектов исследователи фиксируют значение тех или иных признаков – характеристик, по которым сравниваемые объекты могут отличаться друг от друга. Признаки могут иметь различную природу.