Что такое выбросы в статистике

Блог об аналитике, визуализации данных, data science и BI

Дашборд первых 8 месяцев жизни малыша

Анализ рынка вакансий аналитики и BI: дашборд в Tableau

Анализ альбомов Земфиры: дашборд в Tableau

Гайд по современным BI-системам

Обнаружение статистических выбросов в R

Этот материал — перевод статьи «Outliers detection in R». А ещё у нас есть материал про обнаружение выбросов в Python.

Что такое выбросы в статистике. Смотреть фото Что такое выбросы в статистике. Смотреть картинку Что такое выбросы в статистике. Картинка про Что такое выбросы в статистике. Фото Что такое выбросы в статистике

Выбросы — значения или наблюдения, отклоняющиеся от других данных. Всегда нужно сравнивать наблюдение с другими значениями, полученными тем же способом, прежде чем называть их выбросами. Действительно, человек с ростом 200 см, скорее всего, будет считаться отклонением по сравнению с остальным населением, но этот же человек не будет считаться статистическим выбросом, если мы измерим рост баскетболистов.

Выбросы могут быть вызваны изменчивостью, присущей наблюдаемому явлению. Например, при сборе данных о заработной плате часто возникают выбросы, поскольку некоторые люди зарабатывают гораздо больше остальных. Выбросы также могут возникать из-за экспериментальной ошибки, ошибки измерения или кодирования. Например, вес человека 786 кг явно является ошибкой при кодировании веса объекта. Её или его вес, скорее всего, составляет 78,6 кг или 7,86 кг в зависимости от того, был измерен вес взрослого человека или ребёнка.

По этой причине иногда имеет смысл формально выделять два класса выбросов: экстремальные значения и ошибки. Экстремальные значения интереснее, потому что они возможны, но маловероятны.

В этой статье я представлю несколько подходов к обнаружению выбросов в R от простых методов, таких как описательная статистика (включая минимальные, максимальные значения, гистограмму, прямоугольную диаграмму и процентили), до более формальных методов, таких как фильтр Хэмпеля, тесты Граббса, Диксона и Рознера.

Не существует строгого и однозначного правила насчет того, следует ли удалять выбросы из набора данных перед проведением статистического анализа. Довольно часто переменные значения, вызванные экспериментальной ошибкой или ошибкой измерения удаляются или заменяются на новые значения. Некоторые статистические тесты требуют их отсутствия, чтобы сделать обоснованные выводы, но удаление выбросов рекомендуется не во всех случаях и должно выполняться с осторожностью.

Эта статья поможет обнаружить и проверить выбросы, но вы не узнаете, следует ли удалять, изменять или оставлять такие значения. После проверки вы можете исключить их или включить в свой анализ (а это обычно требует вдумчивого размышления со стороны исследователя). Удаление или сохранение выбросов, в основном, зависит от трех факторов:

Мы будем использовать набор данных mpg из библиотеки ggplot2, чтобы проиллюстрировать различные подходы к обнаружению выбросов в R, и в частности, мы сосредоточимся на работе с переменной hwy (пробег в милях на галлон израсходованного топлива).

Минимальные и максимальные значения

Первое, что необходимо для обнаружения выбросов в R — начать с описательной статистики, и, в частности, с минимальных и максимальных значений.

В R это легко сделать с помощью функции summary():

Минимум и максимум — первое и последнее значения в выходных данных выше. В качестве альтернативы, их также можно вычислить с помощью функций min() и max():

Явная ошибка кодирования, такая как, например, человеческий вес в 786 кг уже будет легко обнаружена с помощью этой простой техники.

Другой базовый способ обнаружения выбросов — построение гистограммы данных.

Источник

Выброс (статистика)

Что такое выбросы в статистике. Смотреть фото Что такое выбросы в статистике. Смотреть картинку Что такое выбросы в статистике. Картинка про Что такое выбросы в статистике. Фото Что такое выбросы в статистике

Что такое выбросы в статистике. Смотреть фото Что такое выбросы в статистике. Смотреть картинку Что такое выбросы в статистике. Картинка про Что такое выбросы в статистике. Фото Что такое выбросы в статистике

Выброс (англ. outlier ) — в статистике результат измерения, выделяющийся из общей выборки.

Статистический метод, способный действовать в условиях выбросов, называется робастным. Медиана является робастной характеристикой, а выборочное среднее — нет. Существует пример (квартет Энскомба), демонстрирующий, насколько неробастные методы обработки статистических данных способны «врать», даже если выброс всего один на 10 «обычных» результатов.

Причины выбросов

Определение выбросов

Поскольку множество статистических методов «буксуют» на выборках с выбросами, выбросы приходится обнаруживать (желательно — автоматически) и исключать из выборки. Простейшие способы основаны на межквартильном расстоянии — например, всё, что не попадает в диапазон

Что такое выбросы в статистике. Смотреть фото Что такое выбросы в статистике. Смотреть картинку Что такое выбросы в статистике. Картинка про Что такое выбросы в статистике. Фото Что такое выбросы в статистике,

Более тонкие критерии — критерий Шовене, тест Граббса, критерий Пирса, Q-тест Диксона.

См. также

Полезное

Смотреть что такое «Выброс (статистика)» в других словарях:

Выброс — Выброс: Выбросы неутилизуемые отходы. Выброс (статистика) (англ. outlier) результат измерения, не подпадающий под общее распределение. Выброс (фигурное катание) элемент парного фигурного катания … Википедия

Бензин — (Petrol) Бензин это самое распространенное топливо для большинства видов транспорта Подробная информация о составе, получении, хранении и применении бензина Содержание >>>>>>>>>>>>>> … Энциклопедия инвестора

Список статей по статистике — Это служебный список статей, созданный для координации работ по развитию темы. Данное предупреждение не ус … Википедия

Буэнос-Айрес — Это слово имеет Буэнос Айрес (значения) Город, столица Аргентины Буэнос Айрес Ciudad Autónoma de Buenos Aires … Википедия

Новая судейская система (фигурное катание) — Новая судейская система (англ. New Judging System (NJS), также Судейская система ИСУ, англ. ISU Judging System[1]) действующая система оценок для мужского и женского одиночного фигурного катания, парного катания, спортивных танцев … Википедия

Автомобильный рынок — Автомобильный рынок это совокупность экономических отношений, благодаря которым происходит взаимодействие субъектов рынка с целью обмена готовых автомобилей на денежные средства или их эквиваленты. Под автомобильным рынком в народе также… … Википедия

Канадский хоккей — Хоккей с шайбой Хоккей с шайбой спортивная игра, подвид хоккея, заключающаяся в противоборстве двух команд, которые, передавая шайбу клюшками, стремятся забросить её наибольшее количество раз в ворота соперника и не пропустить в свои. Побеждает… … Википедия

Сборные на чемпионате мира по хоккею с шайбой 2008 — Основная статья: Чемпионат мира по хоккею с шайбой 2008 Александр Сёмин празднует первый гол в ворота Канады. Сёмин лидер сборной России по количеству набранных очков … Википедия

Чемпионат мира по хоккею с шайбой 2008 (составы) — Основная статья: Чемпионат мира по хоккею с шайбой 2008 … Википедия

АВТОМОБИЛЬ ЛЕГКОВОЙ — самодвижущееся четырехколесное транспортное средство с двигателем, предназначенное для перевозок небольших групп людей по автодорогам. Легковой автомобиль, обычно вмещающий от одного до шести пассажиров, именно этим, в первую очередь, отличается… … Энциклопедия Кольера

Источник

Выброс (Outlier)

Что такое выбросы в статистике. Смотреть фото Что такое выбросы в статистике. Смотреть картинку Что такое выбросы в статистике. Картинка про Что такое выбросы в статистике. Фото Что такое выбросы в статистике

Выброс – это наблюдение, удаленное от других в выборке. Другими словами, это Наблюдение (Observation), которое расходится с общей закономерностью Выборки (Sample).

Что такое выбросы в статистике. Смотреть фото Что такое выбросы в статистике. Смотреть картинку Что такое выбросы в статистике. Картинка про Что такое выбросы в статистике. Фото Что такое выбросы в статистикеВыбросы обозначены голубым цветом

Стоит различать это определение с Несбалансированным датасетом (Imbalanced Dataset). Хоть в определениях и есть некоторые сходства, однако несбалансированный набор данных с точки зрения Машинного обучения (ML) – это меньший размер выборки одного класса в сравнении с другим.

Источники выбросов

Появление таких наблюдений может быть вызвано:

Выбросы могут быть результатом ошибки во время сбора данных или индикатором расхождения наблюдений. Потому их надлежит исключить из Датасета (Dataset). Однако Дата-сайентисты (Data Scientist) могут столкнуться с трудностями во время разграничения выбросов и нормальных значений, потому и не спешат исключать то или иное наблюдение.

Разновидности выбросов

Выделяют 3 типа выбросов:

Почему так важно идентифицировать выбросы?

Алгоритмы Машинного обучения чувствительны к диапазону и распределению значений атрибутов. Выбросы могут ввести в заблуждение Модель (Model), что приведет к увеличению времени обучения, меньшей Точности (Accuracy) и, в конечном итоге, к худшим результатам.

Визуальные методы обнаружения выбросов

Выбросы легко обнаружить с помощью следующих графиков:

Математические методы обнаружения выбросов

Наряду с визуальными методами мы также можем использовать некоторые математические функции:

Это далеко не полный список методов для поиска выбросов.

Выбросы и библиотека Scikit-learn

Выбросы можно найти с помощью Scikit-learn. Начнем с импорта необходимых библиотек:

Затем мы загрузим «Бостонский датасет» о ценах на недвижимость:

Мы будем работать со следующим Датафреймом (DataFrame):

Что такое выбросы в статистике. Смотреть фото Что такое выбросы в статистике. Смотреть картинку Что такое выбросы в статистике. Картинка про Что такое выбросы в статистике. Фото Что такое выбросы в статистике

Названия признаков имеют следующие значения:

Что такое выбросы в статистике. Смотреть фото Что такое выбросы в статистике. Смотреть картинку Что такое выбросы в статистике. Картинка про Что такое выбросы в статистике. Фото Что такое выбросы в статистике

Отобразим ящик с усами для одного из признаков – расстояния от бостонских центров занятости:

Что такое выбросы в статистике. Смотреть фото Что такое выбросы в статистике. Смотреть картинку Что такое выбросы в статистике. Картинка про Что такое выбросы в статистике. Фото Что такое выбросы в статистике

Теперь – точечную диаграмму:

Что такое выбросы в статистике. Смотреть фото Что такое выбросы в статистике. Смотреть картинку Что такое выбросы в статистике. Картинка про Что такое выбросы в статистике. Фото Что такое выбросы в статистике

Обратимся к математическим методам обнаружения выбросов и начнем со Стандартизированной оценки:

Мы получим полный перечень стандартизированных оценок для каждого значения признака:

Сузим область поиска и отсечем нормальные значения:

Список значительно сузился:

Удалим из датасета значения, чей Z-критерий меньше 3:

Размер датасета слегка изменился:

Рассмотрим еще один способ – межквартильный размах:

Применив метод quantile() к датасету, мы получили список межквартильных размахов для каждого признака датасета:

Очистим набор данных с помощью специального условия:

Ноутбук, не требующий дополнительной настройки на момент написания статьи, можно скачать здесь.

Попробуйте наши курсы по Машинному обучению на Udemy.

Источник

Как использовать статистику для выявления выбросов в данных

Дата публикации 2018-04-25

При моделировании важно очистить выборку данных, чтобы убедиться, что наблюдения наилучшим образом представляют проблему.

Иногда набор данных может содержать экстремальные значения, которые выходят за пределы ожидаемого и отличаются от других данных. Они называются выбросами, и часто модели машинного обучения и навыки моделирования в целом могут быть улучшены путем понимания и даже устранения этих значений выбросов.

В этом руководстве вы узнаете больше о выбросах и двух статистических методах, которые можно использовать для идентификации и фильтрации выбросов из набора данных.

После завершения этого урока вы узнаете:

Что такое выбросы в статистике. Смотреть фото Что такое выбросы в статистике. Смотреть картинку Что такое выбросы в статистике. Картинка про Что такое выбросы в статистике. Фото Что такое выбросы в статистике

Обзор учебника

Этот урок разделен на 4 части; они есть:

Что такое выбросы?

Это редко, или отчетливо, или не подходит в некотором роде.

Выбросы могут иметь много причин, таких как:

Не существует точного способа определения и идентификации выбросов в целом из-за специфики каждого набора данных. Вместо этого вы или эксперт в области должны интерпретировать необработанные наблюдения и решить, является ли значение выбросом или нет.

Тем не менее, мы можем использовать статистические методы для выявления наблюдений, которые кажутся редкими или маловероятными с учетом имеющихся данных.

Это не означает, что указанные значения являются выбросами и должны быть удалены. Но инструменты, описанные в этом руководстве, могут помочь пролить свет на редкие события, которые могут потребовать второго взгляда.

Тестовый набор данных

Прежде чем мы рассмотрим методы идентификации выбросов, давайте определим набор данных, который мы можем использовать для тестирования методов.

Мы сгенерируем 10 000 случайных чисел из гауссовского распределения со средним значением 50 и стандартным отклонением 5.

Числа, взятые из гауссовского распределения, будут иметь выбросы. То есть в силу самого распределения будет несколько значений, которые будут далеки от средних, редких значений, которые мы можем определить как выбросы.

Мы будем использоватьrandn ()функция для генерации случайных гауссовских значений со средним значением 0 и стандартным отклонением 1, затем умножьте результаты на наше собственное стандартное отклонение и добавьте среднее значение для смещения значений в предпочтительный диапазон.

Генератор псевдослучайных чисел засеян, чтобы гарантировать, что мы получаем одну и ту же выборку чисел при каждом запуске кода.

При выполнении примера генерируется образец, а затем выводится среднее значение и стандартное отклонение. Как и ожидалось, значения очень близки к ожидаемым.

Метод стандартных отклонений

Если мы знаем, что распределение значений в выборке является гауссовским или гауссовидным, мы можем использовать стандартное отклонение выборки в качестве предела для выявления выбросов.

Гауссово распределение обладает свойством того, что стандартное отклонение от среднего может использоваться для надежного суммирования процентного значения в выборке.

Например, в пределах одного стандартного отклонения среднее будет охватывать 68% данных.

Таким образом, если среднее значение равно 50, а стандартное отклонение равно 5, как в тестовом наборе данных выше, то все данные в выборке между 45 и 55 будут составлять около 68% выборки данных. Мы можем охватить большую часть выборки данных, если расширим диапазон следующим образом:

Значение, которое выходит за пределы 3 стандартных отклонений, является частью распределения, но это маловероятное или редкое событие приблизительно в 1 из 370 выборок.

Давайте сделаем это на конкретном примере.

Иногда данные сначала стандартизируются (например, до Z-показателя с нулевым средним и единичной дисперсией), чтобы обнаружение выброса можно было выполнить с использованием стандартных значений отсечения Z-показателя. Это удобно и не требуется вообще, и мы сделаем вычисления в исходном масштабе данных здесь, чтобы прояснить ситуацию.

Мы можем рассчитать среднее и стандартное отклонение для данной выборки, а затем рассчитать порог для определения выбросов как более 3 стандартных отклонений от среднего.

Затем мы можем определить выбросы как те примеры, которые выходят за пределы определенных нижних и верхних пределов.

Кроме того, мы можем отфильтровать те значения из выборки, которые не находятся в определенных пределах.

Мы можем собрать все это вместе с нашим образцом набора данных, подготовленным в предыдущем разделе.

Полный пример приведен ниже.

Выполнение примера сначала выведет количество идентифицированных выбросов, а затем число наблюдений, которые не являются выбросами, демонстрируя, как идентифицировать и отфильтровать выбросы соответственно.

До сих пор мы говорили только об одномерных данных с гауссовым распределением, например одна переменная. Вы можете использовать тот же подход, если у вас есть многомерные данные, например, данные с несколькими переменными, каждая с разным распределением Гаусса.

Вы можете представить границы в двух измерениях, которые бы определяли эллипс, если у вас есть две переменные. Наблюдения, которые выходят за пределы эллипса, будут считаться выбросами. В трех измерениях это будет эллипсоид и т. Д. В более высокие измерения.

С другой стороны, если вы знали больше о домене, возможно, можно определить выброс, превышая пределы одного или подмножества измерений данных.

Межквартильный метод

Не все данные являются нормальными или достаточно нормальными, чтобы рассматривать их как взятые из гауссовского распределения.

Хорошей статистикой для суммирования выборки негауссовых распределений данных является Interquartile Range, или IQR для краткости.

IQR рассчитывается как разница между 75-м и 25-м процентилями данных и определяет прямоугольник на графике прямоугольника и вискера.

Мы называем процентили квартилями («кварта4) потому что данные делятся на четыре группы через 25-е, 50-е и 75-е значения.

IQR определяет средние 50% данных, или тело данных.

IQR может использоваться для определения выбросов путем определения пределов значений выборки, которые являются факторомКIQR ниже 25-го процентиля или выше 75-го процентиля. Общее значение для фактораКэто значение 1,5. Коэффициент k, равный 3 или более, можно использовать для определения значений, которые являются экстремальными выбросами или «дальние выходы”, Когда описано в контексте рамок и усов.

На графике бокса и усов эти пределы изображены в виде заборов на усиках (или линиях), которые нарисованы из бокса. Значения, которые выходят за пределы этих значений, отображаются в виде точек.

Мы можем рассчитать процентили набора данных, используяпроцентиля ()Функция NumPy, которая принимает набор данных и спецификацию желаемого процентиля. Затем IQR можно рассчитать как разницу между 75-м и 25-м процентилями.

Затем мы можем рассчитать пороговое значение для выбросов как 1,5-кратное IQR и вычесть это пороговое значение из 25-го процентиля и добавить его к 75-му процентилю, чтобы получить фактические пределы данных.

Затем мы можем использовать эти пределы для определения значений выбросов.

Мы также можем использовать пределы, чтобы отфильтровать выбросы из набора данных.

Мы можем связать все это вместе и продемонстрировать процедуру на тестовом наборе данных.

Полный пример приведен ниже.

При выполнении примера сначала выводятся идентифицированные 25-й и 75-й процентили и вычисленный IQR. Печатается число выявленных выбросов, а затем число наблюдений, не связанных с выбросами.

Подход может быть использован для многомерных данных путем расчета пределов для каждой переменной в наборе данных по очереди и с учетом выбросов в качестве наблюдений, которые выходят за пределы прямоугольника или гипер-прямоугольника.

расширения

В этом разделе перечислены некоторые идеи по расширению учебника, которые вы, возможно, захотите изучить.

Если вы исследуете какое-либо из этих расширений, я хотел бы знать.

Дальнейшее чтение

Этот раздел предоставляет больше ресурсов по теме, если вы хотите углубиться

Сообщений

статьи

Резюме

В этом руководстве вы обнаружили выбросы и два статистических метода, которые можно использовать для идентификации и фильтрации выбросов из набора данных.

В частности, вы узнали:

У вас есть вопросы?
Задайте свои вопросы в комментариях ниже, и я сделаю все возможное, чтобы ответить.

Источник

Что такое выбросы в статистике

ГОСТ Р ИСО 16269-4-2017

НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ

СТАТИСТИЧЕСКОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ

Выявление и обработка выбросов

Statistical methods. Statistical data presentation. Part 4. Detection and treatment of outliers

Дата введения 2018-12-01

Предисловие

1 ПОДГОТОВЛЕН Открытым акционерным обществом «Научно-исследовательский центр контроля и диагностики технических систем» (АО «НИЦ КД») на основе собственного перевода на русский язык англоязычной версии международного стандарта, указанного в пункте 4

2 ВНЕСЕН Техническим комитетом по стандартизации ТК 125 «Применение статистических методов»

Международный стандарт разработан Техническим комитетом ISO/ТС 69.

Наименование настоящего стандарта изменено относительно наименования указанного международного стандарта для приведения в соответствие с ГОСТ Р 1.5-2012 (пункт 3.5).

При применении настоящего стандарта рекомендуется использовать вместо ссылочных международных стандартов соответствующие им национальные стандарты Российской Федерации, сведения о которых приведены в дополнительном приложении ДА*

Введение

Выбросы могут искажать и сокращать информацию, содержащуюся в источнике данных или процедуре их генерации. В производстве наличие выбросов снижает результативность производственных процессов, качество продукции, а также процедур контроля продукции. Выбросы не всегда следует трактовать как «плохие» или «ошибочные» данные. В некоторых случаях выбросы дают важную информацию, которую необходимо учитывать в процессе исследований.

Выявление и анализ выбросов в процессе измерения ведут к более полному пониманию изучаемых процессов и более глубокому анализу данных, и как следствие, к более достоверным выводам.

Так как проблеме обнаружения и обработки выбросов посвящено большое количество литературных публикаций, важной задачей является определение и стандартизация (на международном уровне) этих методов.

Настоящий стандарт содержит шесть приложений. В приложении A приведен алгоритм вычисления статистик и критических значений для выявления выбросов в выборке из нормального распределения. В приложениях B, D и E приведены таблицы, необходимые для применения рекомендованных в стандарте процедур. В приложении C приведено статистическое обоснование построения диаграмм, помогающих в решении задачи отслеживания выбросов. В приложении F приведено поэтапное руководство по применению процедур, установленных в настоящем стандарте, и представлена блок-схема соответствующих действий.

1 Область применения

В настоящем стандарте установлены статистические критерии и методы графического анализа данных, полученные в результате измерений. В настоящем стандарте приведены рекомендации по методам определения робастных оценок и процедурам проверки наличия выбросов в данных.

Методы, представленные в настоящем стандарте, предназначены главным образом для выявления и обработки выбросов одномерных данных. Однако в настоящем стандарте представлены также некоторые рекомендации по работе с многомерными данными и данными регрессионного анализа.

2 Термины и определения

В настоящем стандарте применены следующие термины с соответствующими определениями:

2.1 выборка, набор данных (sample, data set): Подмножество генеральной совокупности, состоящее из одной или нескольких выборочных единиц.

2.2 выброс (outlier): Элемент маломощного подмножества выборки, существенно отличающийся от остальных элементов выборки (2.1).

2.3 маскировка (masking): Наличие более одного выброса (2.2), затрудняющее обнаружение каждого выброса.

2.4 вероятность ложного обнаружения выбросов (some-outside rate): Вероятность того, что одно или несколько наблюдений незагрязненной выборки, ошибочно классифицированы как выбросы (2.2).

2.5 метод коррекции выбросов (outlier accommodation method): Метод нечувствительный к наличию выбросов (2.2) при принятии решения о генеральной совокупности.

2.6 устойчивая оценка (resistant estimation): Оценка, подверженная лишь малым изменениям при замене небольшой доли набора данных (2.1), элементами, возможно, имеющими значительное отличие от замененных элементов.

2.7 робастная оценка (robust estimation): Оценка, нечувствительная к небольшим отклонениям от предполагаемой вероятностной модели данных.

2.8 ранг (rank): Положение наблюдаемого значения в упорядоченном наборе наблюдаемых значений.

2.9 глубина (depth): Наименьший из двух рангов (2.8), присвоенных элементу при упорядочивании выборки (2.1) в неубывающем и невозрастающем порядках.

2.10 порядковая статистика (order statistic): Статистика, определяемая рангом при упорядочивании набора данных в неубывающем порядке.

[ИСО 3534-1:2006, п.1.13]

2.12 первый квартиль, нижний выборочный квартиль (first quartile, sample lower quartile, ): Медиана (2.11) первых наименьших (n-1)/2 значений для нечетного числа наблюдений; медиана первых наименьших n/2 значений для четного числа наблюдений.

2.13 третий квартиль, верхний выборочный квартиль (third quartile, sample upper quartile, ): Медиана (2.11) последних наибольших (n-1)/2 значений для нечетного числа наблюдений или медиана последних наибольших n/2 значений для четного числа наблюдений.

2.14 межквартильный размах IQR (interquartile range, IQR): Разность третьего квартиля (2.13) и первого квартиля (2.12).

2.15 сводка пяти чисел (five-number summary): Набор значений выборочного минимума, первого квартиля (2.12), медианы (2.11), третьего квартиля (2.13) и выборочного максимума.

2.16 диаграмма ящик с усами (box plot): Графическое представление (горизонтальное или вертикальное) сводки пяти чисел (2.15).

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *