Что такое выбросы в данных

5 способов обнаружить выбросы / аномалии, которые должен знать каждый специалист по данным (код Python)

Дата публикации Mar 5, 2019

Что такое выбросы в данных. Смотреть фото Что такое выбросы в данных. Смотреть картинку Что такое выбросы в данных. Картинка про Что такое выбросы в данных. Фото Что такое выбросы в данных

Что такое аномалия / выброс?

Что такое выбросы в данных. Смотреть фото Что такое выбросы в данных. Смотреть картинку Что такое выбросы в данных. Картинка про Что такое выбросы в данных. Фото Что такое выбросы в данных

Например, вы можете ясно увидеть выбросы в этом списке: [20,24,22,19,29,18,4300, 30,18]

Это легко идентифицировать, когда наблюдения представляют собой просто набор чисел, и он одномерный, но когда у вас есть тысячи наблюдений или многомерных измерений, вам понадобятся более умные способы обнаружения этих значений. Это то, что эта статья будет освещать.

Почему мы заботимся об аномалиях?

Обнаружение выбросов или аномалий является одной из основных проблем интеллектуального анализа данных. Появляющееся расширение и продолжающийся рост данных и распространение устройств IoT заставляют нас переосмыслить подход к аномалиям и варианты использования, которые могут быть построены с учетом этих аномалий.

Теперь у нас есть умные часы и браслеты, которые могут определять сердцебиение каждые несколько минут. Обнаружение аномалий в данных сердцебиения может помочь в прогнозировании сердечных заболеваний. Аномалии в схемах движения могут помочь в прогнозировании аварий. Его также можно использовать для выявления узких мест в сетевой инфраструктуре и трафика между серверами. Следовательно, варианты использования и решения, основанные на обнаружении аномалий, безграничны.

Еще одна причина, по которой нам необходимо обнаруживать аномалии, заключается в том, что при подготовке наборов данных для моделей машинного обучения действительно важно обнаружить все выбросы и либо избавиться от них, либо проанализировать их, чтобы понять, почему они были у вас в первую очередь.

Теперь давайте рассмотрим 5 распространенных способов обнаружения аномалий, начиная с самого простого.

В статистике, если распределение данных приблизительно нормальное, то около 68% значений данных находятся в пределах одного стандартного отклонения от среднего, а около 95% находятся в пределах двух стандартных отклонений, иоколо 99,7%лежат в пределах трех стандартных отклонений

Что такое выбросы в данных. Смотреть фото Что такое выбросы в данных. Смотреть картинку Что такое выбросы в данных. Картинка про Что такое выбросы в данных. Фото Что такое выбросы в данных

Поэтому, если у вас есть какая-либо точка данных, которая более чем в 3 раза превышает стандартное отклонение, то эти точки, скорее всего, будут аномальными или выбросами.

Давайте посмотрим код.

Что такое выбросы в данных. Смотреть фото Что такое выбросы в данных. Смотреть картинку Что такое выбросы в данных. Картинка про Что такое выбросы в данных. Фото Что такое выбросы в данных

Графики представляют собой графическое изображение числовых данных через их квантили. Это очень простой, но эффективный способ визуализации выбросов. Думайте о нижнем и верхнем усиках как о границах распределения данных. Любые точки данных, которые показывают выше или ниже усов, могут считаться выбросами или аномальными. Вот код для построения прямоугольного графика:

Приведенный выше код отображает график ниже. Как вы можете видеть, он считает все, что выше 75 или ниже

-35, как выброс. Результаты очень близки к методу 1 выше.

Что такое выбросы в данных. Смотреть фото Что такое выбросы в данных. Смотреть картинку Что такое выбросы в данных. Картинка про Что такое выбросы в данных. Фото Что такое выбросы в данных

Boxplot Анатомия:

Что такое выбросы в данных. Смотреть фото Что такое выбросы в данных. Смотреть картинку Что такое выбросы в данных. Картинка про Что такое выбросы в данных. Фото Что такое выбросы в данных

Что такое выбросы в данных. Смотреть фото Что такое выбросы в данных. Смотреть картинку Что такое выбросы в данных. Картинка про Что такое выбросы в данных. Фото Что такое выбросы в данных

Что такое выбросы в данных. Смотреть фото Что такое выбросы в данных. Смотреть картинку Что такое выбросы в данных. Картинка про Что такое выбросы в данных. Фото Что такое выбросы в данных

Вывод вышеуказанного кода94.Это общее количество шумных точек. SKLearn помечает шумные точки как (-1). Недостатком этого метода является то, что чем выше размер, тем менее точным он становится. Вы также должны сделать несколько предположений, таких как оценка правильного значения дляEPS Wкоторый может быть сложным.

Этот метод работает по-другому. Он явно выделяет аномалии вместо того, чтобы профилировать и строить нормальные точки и области, назначая оценку каждой точке данных. Он использует тот факт, что аномалии являются точками данных меньшинства и что они имеют значения атрибутов, которые сильно отличаются от значений в обычных случаях. Этот алгоритм отлично работает с наборами данных очень большого размера, и он оказался очень эффективным способом обнаружения аномалий. Поскольку в этой статье основное внимание уделяется реализации, а не ноу-хау, я не буду подробно останавливаться на том, как работает алгоритм. Тем не менее, полная информация о том, как это работает, рассматривается в этомбумага,

Теперь давайте рассмотрим код:

Самое замечательное в этом алгоритме то, что он работает с данными очень большого размера. Он также может работать с потоковыми данными в режиме реального времени (встроенными в AWS Kinesis Analytics), а также с автономными данными.

Я объясняю концепцию более подробно в видео ниже:

В документе приведены некоторые показатели производительности по сравнению с Isolation Forest. Вот результаты из статьи, которая показывает, что RCF намного точнее и быстрее, чем Isolation Forests.

Что такое выбросы в данных. Смотреть фото Что такое выбросы в данных. Смотреть картинку Что такое выбросы в данных. Картинка про Что такое выбросы в данных. Фото Что такое выбросы в данных

Полный пример кода можно найти здесь:

awslabs / амазонки-sagemaker-примеры

Примеры блокнотов, в которых показано, как применять машинное обучение и глубокое обучение в Amazon SageMaker…

github.com

Вывод:

Источник

Блог об аналитике, визуализации данных, data science и BI

Дашборд первых 8 месяцев жизни малыша

Анализ рынка вакансий аналитики и BI: дашборд в Tableau

Анализ альбомов Земфиры: дашборд в Tableau

Гайд по современным BI-системам

Обнаружение статистических выбросов в R

Этот материал — перевод статьи «Outliers detection in R». А ещё у нас есть материал про обнаружение выбросов в Python.

Что такое выбросы в данных. Смотреть фото Что такое выбросы в данных. Смотреть картинку Что такое выбросы в данных. Картинка про Что такое выбросы в данных. Фото Что такое выбросы в данных

Выбросы — значения или наблюдения, отклоняющиеся от других данных. Всегда нужно сравнивать наблюдение с другими значениями, полученными тем же способом, прежде чем называть их выбросами. Действительно, человек с ростом 200 см, скорее всего, будет считаться отклонением по сравнению с остальным населением, но этот же человек не будет считаться статистическим выбросом, если мы измерим рост баскетболистов.

Выбросы могут быть вызваны изменчивостью, присущей наблюдаемому явлению. Например, при сборе данных о заработной плате часто возникают выбросы, поскольку некоторые люди зарабатывают гораздо больше остальных. Выбросы также могут возникать из-за экспериментальной ошибки, ошибки измерения или кодирования. Например, вес человека 786 кг явно является ошибкой при кодировании веса объекта. Её или его вес, скорее всего, составляет 78,6 кг или 7,86 кг в зависимости от того, был измерен вес взрослого человека или ребёнка.

По этой причине иногда имеет смысл формально выделять два класса выбросов: экстремальные значения и ошибки. Экстремальные значения интереснее, потому что они возможны, но маловероятны.

В этой статье я представлю несколько подходов к обнаружению выбросов в R от простых методов, таких как описательная статистика (включая минимальные, максимальные значения, гистограмму, прямоугольную диаграмму и процентили), до более формальных методов, таких как фильтр Хэмпеля, тесты Граббса, Диксона и Рознера.

Не существует строгого и однозначного правила насчет того, следует ли удалять выбросы из набора данных перед проведением статистического анализа. Довольно часто переменные значения, вызванные экспериментальной ошибкой или ошибкой измерения удаляются или заменяются на новые значения. Некоторые статистические тесты требуют их отсутствия, чтобы сделать обоснованные выводы, но удаление выбросов рекомендуется не во всех случаях и должно выполняться с осторожностью.

Эта статья поможет обнаружить и проверить выбросы, но вы не узнаете, следует ли удалять, изменять или оставлять такие значения. После проверки вы можете исключить их или включить в свой анализ (а это обычно требует вдумчивого размышления со стороны исследователя). Удаление или сохранение выбросов, в основном, зависит от трех факторов:

Мы будем использовать набор данных mpg из библиотеки ggplot2, чтобы проиллюстрировать различные подходы к обнаружению выбросов в R, и в частности, мы сосредоточимся на работе с переменной hwy (пробег в милях на галлон израсходованного топлива).

Минимальные и максимальные значения

Первое, что необходимо для обнаружения выбросов в R — начать с описательной статистики, и, в частности, с минимальных и максимальных значений.

В R это легко сделать с помощью функции summary():

Минимум и максимум — первое и последнее значения в выходных данных выше. В качестве альтернативы, их также можно вычислить с помощью функций min() и max():

Явная ошибка кодирования, такая как, например, человеческий вес в 786 кг уже будет легко обнаружена с помощью этой простой техники.

Другой базовый способ обнаружения выбросов — построение гистограммы данных.

Источник

Как использовать статистику для выявления выбросов в данных

Дата публикации 2018-04-25

При моделировании важно очистить выборку данных, чтобы убедиться, что наблюдения наилучшим образом представляют проблему.

Иногда набор данных может содержать экстремальные значения, которые выходят за пределы ожидаемого и отличаются от других данных. Они называются выбросами, и часто модели машинного обучения и навыки моделирования в целом могут быть улучшены путем понимания и даже устранения этих значений выбросов.

В этом руководстве вы узнаете больше о выбросах и двух статистических методах, которые можно использовать для идентификации и фильтрации выбросов из набора данных.

После завершения этого урока вы узнаете:

Что такое выбросы в данных. Смотреть фото Что такое выбросы в данных. Смотреть картинку Что такое выбросы в данных. Картинка про Что такое выбросы в данных. Фото Что такое выбросы в данных

Обзор учебника

Этот урок разделен на 4 части; они есть:

Что такое выбросы?

Это редко, или отчетливо, или не подходит в некотором роде.

Выбросы могут иметь много причин, таких как:

Не существует точного способа определения и идентификации выбросов в целом из-за специфики каждого набора данных. Вместо этого вы или эксперт в области должны интерпретировать необработанные наблюдения и решить, является ли значение выбросом или нет.

Тем не менее, мы можем использовать статистические методы для выявления наблюдений, которые кажутся редкими или маловероятными с учетом имеющихся данных.

Это не означает, что указанные значения являются выбросами и должны быть удалены. Но инструменты, описанные в этом руководстве, могут помочь пролить свет на редкие события, которые могут потребовать второго взгляда.

Тестовый набор данных

Прежде чем мы рассмотрим методы идентификации выбросов, давайте определим набор данных, который мы можем использовать для тестирования методов.

Мы сгенерируем 10 000 случайных чисел из гауссовского распределения со средним значением 50 и стандартным отклонением 5.

Числа, взятые из гауссовского распределения, будут иметь выбросы. То есть в силу самого распределения будет несколько значений, которые будут далеки от средних, редких значений, которые мы можем определить как выбросы.

Мы будем использоватьrandn ()функция для генерации случайных гауссовских значений со средним значением 0 и стандартным отклонением 1, затем умножьте результаты на наше собственное стандартное отклонение и добавьте среднее значение для смещения значений в предпочтительный диапазон.

Генератор псевдослучайных чисел засеян, чтобы гарантировать, что мы получаем одну и ту же выборку чисел при каждом запуске кода.

При выполнении примера генерируется образец, а затем выводится среднее значение и стандартное отклонение. Как и ожидалось, значения очень близки к ожидаемым.

Метод стандартных отклонений

Если мы знаем, что распределение значений в выборке является гауссовским или гауссовидным, мы можем использовать стандартное отклонение выборки в качестве предела для выявления выбросов.

Гауссово распределение обладает свойством того, что стандартное отклонение от среднего может использоваться для надежного суммирования процентного значения в выборке.

Например, в пределах одного стандартного отклонения среднее будет охватывать 68% данных.

Таким образом, если среднее значение равно 50, а стандартное отклонение равно 5, как в тестовом наборе данных выше, то все данные в выборке между 45 и 55 будут составлять около 68% выборки данных. Мы можем охватить большую часть выборки данных, если расширим диапазон следующим образом:

Значение, которое выходит за пределы 3 стандартных отклонений, является частью распределения, но это маловероятное или редкое событие приблизительно в 1 из 370 выборок.

Давайте сделаем это на конкретном примере.

Иногда данные сначала стандартизируются (например, до Z-показателя с нулевым средним и единичной дисперсией), чтобы обнаружение выброса можно было выполнить с использованием стандартных значений отсечения Z-показателя. Это удобно и не требуется вообще, и мы сделаем вычисления в исходном масштабе данных здесь, чтобы прояснить ситуацию.

Мы можем рассчитать среднее и стандартное отклонение для данной выборки, а затем рассчитать порог для определения выбросов как более 3 стандартных отклонений от среднего.

Затем мы можем определить выбросы как те примеры, которые выходят за пределы определенных нижних и верхних пределов.

Кроме того, мы можем отфильтровать те значения из выборки, которые не находятся в определенных пределах.

Мы можем собрать все это вместе с нашим образцом набора данных, подготовленным в предыдущем разделе.

Полный пример приведен ниже.

Выполнение примера сначала выведет количество идентифицированных выбросов, а затем число наблюдений, которые не являются выбросами, демонстрируя, как идентифицировать и отфильтровать выбросы соответственно.

До сих пор мы говорили только об одномерных данных с гауссовым распределением, например одна переменная. Вы можете использовать тот же подход, если у вас есть многомерные данные, например, данные с несколькими переменными, каждая с разным распределением Гаусса.

Вы можете представить границы в двух измерениях, которые бы определяли эллипс, если у вас есть две переменные. Наблюдения, которые выходят за пределы эллипса, будут считаться выбросами. В трех измерениях это будет эллипсоид и т. Д. В более высокие измерения.

С другой стороны, если вы знали больше о домене, возможно, можно определить выброс, превышая пределы одного или подмножества измерений данных.

Межквартильный метод

Не все данные являются нормальными или достаточно нормальными, чтобы рассматривать их как взятые из гауссовского распределения.

Хорошей статистикой для суммирования выборки негауссовых распределений данных является Interquartile Range, или IQR для краткости.

IQR рассчитывается как разница между 75-м и 25-м процентилями данных и определяет прямоугольник на графике прямоугольника и вискера.

Мы называем процентили квартилями («кварта4) потому что данные делятся на четыре группы через 25-е, 50-е и 75-е значения.

IQR определяет средние 50% данных, или тело данных.

IQR может использоваться для определения выбросов путем определения пределов значений выборки, которые являются факторомКIQR ниже 25-го процентиля или выше 75-го процентиля. Общее значение для фактораКэто значение 1,5. Коэффициент k, равный 3 или более, можно использовать для определения значений, которые являются экстремальными выбросами или «дальние выходы”, Когда описано в контексте рамок и усов.

На графике бокса и усов эти пределы изображены в виде заборов на усиках (или линиях), которые нарисованы из бокса. Значения, которые выходят за пределы этих значений, отображаются в виде точек.

Мы можем рассчитать процентили набора данных, используяпроцентиля ()Функция NumPy, которая принимает набор данных и спецификацию желаемого процентиля. Затем IQR можно рассчитать как разницу между 75-м и 25-м процентилями.

Затем мы можем рассчитать пороговое значение для выбросов как 1,5-кратное IQR и вычесть это пороговое значение из 25-го процентиля и добавить его к 75-му процентилю, чтобы получить фактические пределы данных.

Затем мы можем использовать эти пределы для определения значений выбросов.

Мы также можем использовать пределы, чтобы отфильтровать выбросы из набора данных.

Мы можем связать все это вместе и продемонстрировать процедуру на тестовом наборе данных.

Полный пример приведен ниже.

При выполнении примера сначала выводятся идентифицированные 25-й и 75-й процентили и вычисленный IQR. Печатается число выявленных выбросов, а затем число наблюдений, не связанных с выбросами.

Подход может быть использован для многомерных данных путем расчета пределов для каждой переменной в наборе данных по очереди и с учетом выбросов в качестве наблюдений, которые выходят за пределы прямоугольника или гипер-прямоугольника.

расширения

В этом разделе перечислены некоторые идеи по расширению учебника, которые вы, возможно, захотите изучить.

Если вы исследуете какое-либо из этих расширений, я хотел бы знать.

Дальнейшее чтение

Этот раздел предоставляет больше ресурсов по теме, если вы хотите углубиться

Сообщений

статьи

Резюме

В этом руководстве вы обнаружили выбросы и два статистических метода, которые можно использовать для идентификации и фильтрации выбросов из набора данных.

В частности, вы узнали:

У вас есть вопросы?
Задайте свои вопросы в комментариях ниже, и я сделаю все возможное, чтобы ответить.

Источник

Что такое выбросы в данных

ГОСТ Р ИСО 16269-4-2017

НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ

СТАТИСТИЧЕСКОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ

Выявление и обработка выбросов

Statistical methods. Statistical data presentation. Part 4. Detection and treatment of outliers

Дата введения 2018-12-01

Предисловие

1 ПОДГОТОВЛЕН Открытым акционерным обществом «Научно-исследовательский центр контроля и диагностики технических систем» (АО «НИЦ КД») на основе собственного перевода на русский язык англоязычной версии международного стандарта, указанного в пункте 4

2 ВНЕСЕН Техническим комитетом по стандартизации ТК 125 «Применение статистических методов»

Международный стандарт разработан Техническим комитетом ISO/ТС 69.

Наименование настоящего стандарта изменено относительно наименования указанного международного стандарта для приведения в соответствие с ГОСТ Р 1.5-2012 (пункт 3.5).

При применении настоящего стандарта рекомендуется использовать вместо ссылочных международных стандартов соответствующие им национальные стандарты Российской Федерации, сведения о которых приведены в дополнительном приложении ДА*

Введение

Выбросы могут искажать и сокращать информацию, содержащуюся в источнике данных или процедуре их генерации. В производстве наличие выбросов снижает результативность производственных процессов, качество продукции, а также процедур контроля продукции. Выбросы не всегда следует трактовать как «плохие» или «ошибочные» данные. В некоторых случаях выбросы дают важную информацию, которую необходимо учитывать в процессе исследований.

Выявление и анализ выбросов в процессе измерения ведут к более полному пониманию изучаемых процессов и более глубокому анализу данных, и как следствие, к более достоверным выводам.

Так как проблеме обнаружения и обработки выбросов посвящено большое количество литературных публикаций, важной задачей является определение и стандартизация (на международном уровне) этих методов.

Настоящий стандарт содержит шесть приложений. В приложении A приведен алгоритм вычисления статистик и критических значений для выявления выбросов в выборке из нормального распределения. В приложениях B, D и E приведены таблицы, необходимые для применения рекомендованных в стандарте процедур. В приложении C приведено статистическое обоснование построения диаграмм, помогающих в решении задачи отслеживания выбросов. В приложении F приведено поэтапное руководство по применению процедур, установленных в настоящем стандарте, и представлена блок-схема соответствующих действий.

1 Область применения

В настоящем стандарте установлены статистические критерии и методы графического анализа данных, полученные в результате измерений. В настоящем стандарте приведены рекомендации по методам определения робастных оценок и процедурам проверки наличия выбросов в данных.

Методы, представленные в настоящем стандарте, предназначены главным образом для выявления и обработки выбросов одномерных данных. Однако в настоящем стандарте представлены также некоторые рекомендации по работе с многомерными данными и данными регрессионного анализа.

2 Термины и определения

В настоящем стандарте применены следующие термины с соответствующими определениями:

2.1 выборка, набор данных (sample, data set): Подмножество генеральной совокупности, состоящее из одной или нескольких выборочных единиц.

2.2 выброс (outlier): Элемент маломощного подмножества выборки, существенно отличающийся от остальных элементов выборки (2.1).

2.3 маскировка (masking): Наличие более одного выброса (2.2), затрудняющее обнаружение каждого выброса.

2.4 вероятность ложного обнаружения выбросов (some-outside rate): Вероятность того, что одно или несколько наблюдений незагрязненной выборки, ошибочно классифицированы как выбросы (2.2).

2.5 метод коррекции выбросов (outlier accommodation method): Метод нечувствительный к наличию выбросов (2.2) при принятии решения о генеральной совокупности.

2.6 устойчивая оценка (resistant estimation): Оценка, подверженная лишь малым изменениям при замене небольшой доли набора данных (2.1), элементами, возможно, имеющими значительное отличие от замененных элементов.

2.7 робастная оценка (robust estimation): Оценка, нечувствительная к небольшим отклонениям от предполагаемой вероятностной модели данных.

2.8 ранг (rank): Положение наблюдаемого значения в упорядоченном наборе наблюдаемых значений.

2.9 глубина (depth): Наименьший из двух рангов (2.8), присвоенных элементу при упорядочивании выборки (2.1) в неубывающем и невозрастающем порядках.

2.10 порядковая статистика (order statistic): Статистика, определяемая рангом при упорядочивании набора данных в неубывающем порядке.

[ИСО 3534-1:2006, п.1.13]

2.12 первый квартиль, нижний выборочный квартиль (first quartile, sample lower quartile, ): Медиана (2.11) первых наименьших (n-1)/2 значений для нечетного числа наблюдений; медиана первых наименьших n/2 значений для четного числа наблюдений.

2.13 третий квартиль, верхний выборочный квартиль (third quartile, sample upper quartile, ): Медиана (2.11) последних наибольших (n-1)/2 значений для нечетного числа наблюдений или медиана последних наибольших n/2 значений для четного числа наблюдений.

2.14 межквартильный размах IQR (interquartile range, IQR): Разность третьего квартиля (2.13) и первого квартиля (2.12).

2.15 сводка пяти чисел (five-number summary): Набор значений выборочного минимума, первого квартиля (2.12), медианы (2.11), третьего квартиля (2.13) и выборочного максимума.

2.16 диаграмма ящик с усами (box plot): Графическое представление (горизонтальное или вертикальное) сводки пяти чисел (2.15).

Источник

Как найти выбросы в Excel (и как с ними справиться)

При работе с данными в Excel у вас часто возникают проблемы с обработкой выбросов в вашем наборе данных. Выбросы довольно часто встречаются для всех видов данных, и важно идентифицировать и обрабатывать эти выбросы, чтобы убедиться, что ваш анализ правильный и более значимый.

Что такое выбросы и почему их важно найти?

Выброс — это точка данных, которая выходит за рамки других точек данных в наборе данных. Если у вас есть выброс в данных, это может исказить ваши данные, что может привести к неверным выводам.

Приведу простой пример.

Допустим, 30 человек едут на автобусе из пункта назначения А в пункт назначения Б. Все люди относятся к одной весовой группе и группе доходов. Для целей этого руководства давайте рассмотрим, что средний вес составляет 220 фунтов, а средний годовой доход — 70 000 долларов.

Сейчас где-то посередине нашего маршрута автобус останавливается, и в него садится Билл Гейтс.

Как вы думаете, как это повлияет на средний вес и средний доход людей в автобусе?

Хотя средний вес вряд ли сильно изменится, средний доход пассажиров автобуса резко вырастет.

Это связано с тем, что доход Билла Гейтса является исключением в нашей группе, и это дает нам неправильную интерпретацию данных. Средний доход каждого человека в автобусе составит несколько миллиардов долларов, что намного превышает реальную стоимость.

При работе с фактическими наборами данных в Excel вы можете иметь выбросы в любом направлении (например, положительный выброс или отрицательный выброс).

И чтобы убедиться, что ваш анализ верен, вам нужно каким-то образом идентифицировать эти выбросы, а затем решить, как лучше всего их лечить.

Теперь давайте посмотрим несколько способов найти выбросы в Excel.

Найдите выбросы путем сортировки данных

С небольшими наборами данных быстрый способ выявить выбросы — просто отсортировать данные и вручную просмотреть некоторые значения в верхней части отсортированных данных.

А поскольку выбросы могут быть в обоих направлениях, убедитесь, что вы сначала сортируете данные в порядке возрастания, а затем в порядке убывания, а затем просматриваете верхние значения.

Позвольте мне показать вам пример.

Ниже у меня есть набор данных, в котором у меня есть продолжительность звонков (в секундах) для 15 звонков в службу поддержки.

Что такое выбросы в данных. Смотреть фото Что такое выбросы в данных. Смотреть картинку Что такое выбросы в данных. Картинка про Что такое выбросы в данных. Фото Что такое выбросы в данныхНиже приведены шаги по сортировке этих данных, чтобы мы могли идентифицировать выбросы в наборе данных:

Вышеупомянутые шаги сортируют столбец продолжительности звонка с наивысшими значениями вверху. Теперь вы можете вручную просмотреть данные и посмотреть, есть ли выбросы.

Что такое выбросы в данных. Смотреть фото Что такое выбросы в данных. Смотреть картинку Что такое выбросы в данных. Картинка про Что такое выбросы в данных. Фото Что такое выбросы в данныхВ нашем примере я вижу, что первые два значения намного выше остальных значений (а два нижних намного ниже).

Примечание. Этот метод работает с небольшими наборами данных, где вы можете вручную сканировать данные. Это не научный метод, но он хорошо работает

Поиск выбросов с помощью функций

Теперь давайте поговорим о более научном решении, которое поможет вам определить, есть ли какие-то выбросы.

В статистике квартиль составляет четверть набора данных. Например, если у вас есть 12 точек данных, то первый квартиль будет тремя нижними точками данных, второй квартиль будет следующими тремя точками данных и так далее.

Ниже приведен набор данных, по которому я хочу найти выбросы. Для этого мне нужно будет вычислить 1-й и 3-й квартили, а затем с его помощью вычислить верхний и нижний предел.

Что такое выбросы в данных. Смотреть фото Что такое выбросы в данных. Смотреть картинку Что такое выбросы в данных. Картинка про Что такое выбросы в данных. Фото Что такое выбросы в данныхНиже приведена формула для вычисления первого квартиля в ячейке E2:

Что такое выбросы в данных. Смотреть фото Что такое выбросы в данных. Смотреть картинку Что такое выбросы в данных. Картинка про Что такое выбросы в данных. Фото Что такое выбросы в данныхи вот тот, который вычисляет третий квартиль в ячейке E3:

Что такое выбросы в данных. Смотреть фото Что такое выбросы в данных. Смотреть картинку Что такое выбросы в данных. Картинка про Что такое выбросы в данных. Фото Что такое выбросы в данныхТеперь я могу использовать два вышеупомянутых вычисления, чтобы получить межквартильный размах (который составляет 50% наших данных в пределах 1-го и 3-го квартилей).

Что такое выбросы в данных. Смотреть фото Что такое выбросы в данных. Смотреть картинку Что такое выбросы в данных. Картинка про Что такое выбросы в данных. Фото Что такое выбросы в данныхТеперь мы будем использовать межквартильный диапазон, чтобы найти нижний и верхний предел, который будет содержать большую часть наших данных.

Все, что выходит за эти нижние и верхние пределы, будет считаться выбросом.

Ниже приведена формула для расчета нижнего предела:

который в нашем примере становится:

Что такое выбросы в данных. Смотреть фото Что такое выбросы в данных. Смотреть картинку Что такое выбросы в данных. Картинка про Что такое выбросы в данных. Фото Что такое выбросы в данныхИ формула для расчета верхнего предела:

который в нашем примере становится:

Что такое выбросы в данных. Смотреть фото Что такое выбросы в данных. Смотреть картинку Что такое выбросы в данных. Картинка про Что такое выбросы в данных. Фото Что такое выбросы в данныхТеперь, когда у нас есть верхний и нижний предел в нашем наборе данных, мы можем вернуться к исходным данным и быстро определить те значения, которые не лежат в этом диапазоне.

Быстрый способ сделать это — проверить каждое значение и вернуть ИСТИНА или ЛОЖЬ в новом столбце.

Я использовал приведенную ниже формулу ИЛИ, чтобы получить ИСТИНА для тех значений, которые являются выбросами.

Что такое выбросы в данных. Смотреть фото Что такое выбросы в данных. Смотреть картинку Что такое выбросы в данных. Картинка про Что такое выбросы в данных. Фото Что такое выбросы в данныхТеперь вы можете фильтровать столбец Outlier и отображать только те записи, для которых значение TRUE.

В качестве альтернативы вы также можете использовать условное форматирование, чтобы выделить все ячейки, в которых значение TRUE.

Поиск выбросов с помощью функций НАИБОЛЬШИЙ / МАЛЕНЬКИЙ

Если вы работаете с большим количеством данных (значения в нескольких столбцах), вы можете извлечь 5 или 7 наибольших и наименьших значений и посмотреть, есть ли в них выбросы.

Если есть какие-либо выбросы, вы сможете их идентифицировать, не просматривая все данные в обоих направлениях.

Предположим, у нас есть приведенный ниже набор данных, и мы хотим знать, есть ли какие-либо выбросы.

Что такое выбросы в данных. Смотреть фото Что такое выбросы в данных. Смотреть картинку Что такое выбросы в данных. Картинка про Что такое выбросы в данных. Фото Что такое выбросы в данныхНиже приведена формула, которая даст вам наибольшее значение в наборе данных:

Точно так же второе по величине значение будет равно

Если вы не используете Microsoft 365, в котором есть динамические массивы, вы можете использовать приведенную ниже формулу, и она даст вам пять наибольших значений из набора данных с помощью одной единственной формулы:

Что такое выбросы в данных. Смотреть фото Что такое выбросы в данных. Смотреть картинку Что такое выбросы в данных. Картинка про Что такое выбросы в данных. Фото Что такое выбросы в данныхТочно так же, если вам нужны 5 наименьших значений, используйте следующую формулу:

или следующее, если у вас нет динамических массивов:

Когда у вас есть эти значения, очень легко обнаружить любые выбросы в наборе данных. Хотя я решил извлечь 5 наибольших и наименьших значений, вы можете выбрать 7 или 10 в зависимости от размера вашего набора данных.

Я не уверен, является ли это приемлемым методом для поиска выбросов в Excel или нет, но это метод, который я использовал, когда мне приходилось работать с большим количеством финансовых данных на моей работе несколько лет назад. По сравнению со всеми другими методами, описанными в этом руководстве, я считаю этот наиболее эффективным.

Как правильно обращаться с выбросами

До сих пор мы видели методы, которые помогут нам найти выбросы в нашем наборе данных. Но что делать, если вы знаете, что есть выбросы.

Вот несколько методов, которые вы можете использовать для обработки выбросов, чтобы ваш анализ данных был правильным.

Удалить выбросы

Самый простой способ удалить выбросы из набора данных — просто удалить их. Таким образом, это не исказит ваш анализ.

Это более жизнеспособное решение, когда у вас большие наборы данных и удаление пары выбросов не повлияет на общий анализ. И, конечно же, перед удалением данных обязательно создайте копию и выясните, что вызывает эти выбросы.

Нормализовать выбросы (отрегулировать значение)

Нормализация выбросов — это то, что я делал, когда работал полный рабочий день. Для всех значений выбросов я бы просто изменил их на значение, немного превышающее максимальное значение в наборе данных.

Это гарантирует, что я не удаляю данные, но в то же время я не позволяю этому искажать мои данные.

После того, как вы определили выбросы, вы можете углубиться в данные и посмотреть, что их вызывает, и в то же время выбрать один из методов обработки этих выбросов (который может удалить их или нормализовать, изменив значение)

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *