Что такое среднее время наработки на отказ
Наработка на отказ
Наработка на отказ — технический параметр, характеризующий надёжность восстанавливаемого прибора, устройства или технической системы.
Средняя продолжительность работы устройства между ремонтами, то есть показывает, какая наработка в среднем приходится на один отказ. Выражается обычно в часах.
Для программных продуктов обычно подразумевается срок до полного перезапуска программы или полной перезагрузки операционной системы.
Наработка до отказа — эквивалентный параметр для неремонтопригодного устройства. Поскольку устройство неремонтируемое, то это просто среднее время, которое проработает устройство до того момента, как сломается.
Наработка — продолжительность или объем работы объекта, измеряемая в часах, мото-часах, гектарах, километрах пробега, циклов включений и др.
Измеряется статистически, путём испытания множества приборов, или вычисляется методами теории надёжности.
где ti — наработка i-го объекта между отказами; m — число отказов.
Содержание
Определение по ГОСТ
ГОСТ 27.002-89 определяет данные параметры следующим образом:
Зарубежная терминология
Системы, связанные с обеспечением безопасности, можно условно подразделить на две категории:
IEC 61508 (англ.) русск. количественно определяет эту классификацию, устанавливая, что частота запросов на работу системы обеспечения безопасности не превышает одного раза в год в режиме низкой частоты запросов, и более раза в год в режиме высокой частоты запросов (непрерывной работы).
Значение SIL (англ.) русск. для систем обеспечения безопасности с низкой частотой запросов непосредственно зависит от диапазонов порядков средней вероятности того, что она не сможет удовлетворительно выполнить свои функции по обеспечению безопасности по запросу, или, проще говоря, от вероятности отказа при запросе (PFD). Значение SIL для систем обеспечения безопасности, работающих в режиме высокой частоты запросов (непрерывно) непосредственно зависит от вероятности возникновения опасного отказа в час (PFH).
PFD (Probability of Failure on Demand, Вероятность отказа при запросе) — средняя вероятность того, что система не выполнит свою функцию по запросу. PFH (Probability of Failure per Hour, Вероятность возникновения отказа за час) — вероятность возникновения в системе опасного отказа в течение часа. MTTR (Mean Time to Restoration, Среднее время до восстановления работоспособности) — среднее время, необходимое для восстановления нормальной работы после возникновения отказа. DC (Diagnostic Coverage, Диагностическое покрытие) — отношение количества обнаруженных отказов к общему числу отказов.
В свою очередь, λ = частота отказов = 1/ MTBF
Среднее время безотказной работы системы
Пределы несобственного интеграла изменяются от 0 до ∞, так как время не может быть отрицательным; — есть плотность вероятности возникновения отказов системы или её невосстанавливаемого элемента.
— есть вероятность безотказной работы в интервале времени
. В начальный момент вероятность Р(T) равна единице. В конце времени работы системы вероятность
равна нулю. Вероятность
связана с плотностью вероятности возникновения отказов системы или её невосстанавливаемого элемента следующим образом:
.
Проинтегрировав выражение для по частям, получим:
Графически полученное выражение для представлено на рисунке как площадь под графиком вероятности безотказной работы Р(T) от времени T. В начальный момент вероятность Р(T) равна единице. В конце времени работы системы вероятность P(T) равна нулю.
Здесь — случайное время работы системы до отказа или наработка на отказ для невосстанавливаемого элемента или системы.
MTBF (наработка на отказ) и гарантия в мире компьютеров. Что важно?
Введение
Разработчик – производитель – продавец – покупатель. Этот стандартный путь проходит любое устройство, будь то электронный блок для космического телескопа или ПК на вашем рабочем столе. И на каждом этапе используются результаты анализа, выполненного с помощью теории надежности.
Как известно, покупатели делятся на две принципиально разные категории: частные лица и фирмы. Корпоративный покупатель обеспечен внимательным отношением, так как он умеет не только защищаться, но и выбирать продавца с подходящей репутацией. А обычный покупатель и защищен плохо, и считать ему приходится каждый рубль. О нем и пойдет речь.
Не все вещи доживают до конца гарантии
Когда такой покупатель приходит в магазин компьютерной техники, один из главных вопросов, который его волнует – надежность устройства. Каждому хочется, чтобы его ПК устарел морально и физически, будучи в рабочем состоянии, и чтобы не пришлось через месяц после окончания гарантийного срока мучиться вопросом «что полетело?» и «во что обойдется теперь ремонт?».
Что такое MTBF, «наработка на отказ» или «ресурс»
Согласно ГОСТ 27.002-89 для оценки надежности используются следующие термины, с которыми мы сталкиваемся в магазине: «наработка на отказ» – наработка от окончания восстановления работоспособного состояния после отказа до возникновения следующего отказа. Это в случае ремонтопригодной продукции. Эквивалент в английской литературе – MTBF (Mean (operating) time between failures) – среднее время между отказами. В случае продукции не подлежащей ремонту используется термин «наработка до отказа» – наработка от начала эксплуатации до возникновения первого отказа. Эквивалент в английской литературе – MTTF (Mean (operating) time to failures) – среднее время до отказа.
Часто встречается также термин Lifetime warranty. Это, как правило, гарантия соответствия параметров изделия на все время его эксплуатации. Некоторые фирмы ограничивают гарантию каким то количеством лет (обычно не больше пяти) после прекращения выпуска данного изделия или изделия способного его заменить. Поэтому, если эти нюансы принципиальны, то в спецификации желательно прочесть, что подразумевает производитель под lifetime warranty.
100 лет может прожить только танк. в мирное время
Покупая то или иное устройство, мы можем, наряду с гарантийным сроком, столкнуться с упомянутой терминологией. Если продавец сообщает, что у выбранного вами процессора, который не подлежит ремонту, MTBF составляет 500000 часов – это неправильно. Для процессора должно быть указано MTTF. MTBF должно употребляться только для ремонтопригодных устройств.
Терминология, используемая производителем и продавцом, употребляется иногда достаточно вольно, так как юридически все определяет описание того в каком значении применен данный термин к данному устройству. Это должно присутствовать в прилагаемых документах. «Уши» такого подхода «растут» из принципов регулирования главного рынка планеты – США, которые вырабатываются Федеральной Комиссией по Торговле (The Federal Trade Commission).
Как оценивается MTBF? Это иллюстрирует нижеследующая диаграмма, где приведена U-образная кривая интенсивности отказов (bathtub curve) для электронного устройства некоего научного оборудования, чтобы читатель мог видеть, что можно иметь в идеале при покупке электроники, в том числе компьютерной.
По вертикальной оси отложена вероятность выхода устройства из строя. По горизонтальной оси – время без соблюдения масштаба. Левая кривая перед красной границей соответствует длительности времени в течение которого большая часть устройств выходит из строя при наличии брака. На этом этапе бракованные устройства для научного оборудования отсеиваются сразу же, на заводе при стрессовых испытаниях. Это возможно, т.к. длительность выявления брака не превышает 50 часов и число устройств не велико.
Для комплектующих обычных компьютеров длительность нисходящей кривой значительно больше. В этом случае, для получения информации о длительности периода, когда проявляется заводской брак, очень важны рекламации от покупателя, потому что невозможно выискивать дефекты в течение месяцев на заводе у многих тысяч устройств. К тому же, некоторые наименования комплектующих ПК за год устаревают и сходят с рынка.
Далее следует вторая горизонтальная часть кривой, когда вероятность отказа примерно постоянна. Длительность ее и есть MTBF. Половина этой длительности часто берется производителем в качестве ориентира для определения гарантийного срока.
Справа от красной границы, после окончания срока MTBF, кривая демонстрирует увеличение вероятности отказов. Имеются ввиду не только поломки, но и отклонение параметров работы изделия от требуемых. Это увеличение вероятности выхода обусловлено тем, что ряд элементов в устройстве достигает своего жизненного предела из-за технологии изготовления, т.е. наступает технологический износ элементной базы. Таким образом, время MTBF статистически определяет время работоспособной жизни устройства при заданных условиях эксплуатации.
СОДЕРЖАНИЕ
Обзор
Ссылаясь на рисунок выше, среднее время безотказной работы компонента представляет собой сумму длительностей периодов эксплуатации, деленную на количество наблюдаемых отказов:
Аналогичным образом среднее время простоя (MDT) можно определить как
Расчет
MTBF знак равно ∫ 0 ∞ р ( т ) d т знак равно ∫ 0 ∞ т ж ( т ) d т <\ displaystyle <\ text
Любой практически значимый расчет средней наработки на отказ или вероятностное прогнозирование отказов на основе наработки на отказ требует, чтобы система работала в течение своего «срока полезного использования», который характеризуется относительно постоянной частотой отказов (средняя часть « кривой ванны »), когда только происходят случайные отказы.
Как только MTBF системы известна, можно оценить вероятность того, что любая конкретная система будет работать во время, равное MTBF. В предположении постоянной интенсивности отказов любая конкретная система выживет до расчетного среднего времени безотказной работы с вероятностью 36,8% (т. Е. Выйдет из строя раньше с вероятностью 63,2%). То же самое относится к MTTF системы, работающей в течение этого периода времени.
Заявление
Значение MTBF можно использовать в качестве параметра надежности системы или для сравнения различных систем или конструкций. Это значение следует понимать только условно как «средний срок службы» (среднее значение), а не как количественное тождество между работающими и вышедшими из строя модулями.
MTBF и MDT для сетей компонентов
Для сети, содержащей параллельные ремонтируемые компоненты, чтобы узнать MTBF всей системы, в дополнение к MTBF компонентов, также необходимо знать их соответствующие MDT. Затем, предполагая, что MDT незначительны по сравнению с MTBF (что обычно имеет место на практике), MTBF для параллельной системы, состоящей из двух параллельных ремонтируемых компонентов, можно записать следующим образом:
Интуитивно обе эти формулы можно объяснить с точки зрения вероятностей отказа. Прежде всего, отметим, что вероятность отказа системы в течение определенного периода времени является обратной величиной ее MTBF. Затем, при рассмотрении ряда компонентов, отказ любого компонента приводит к отказу всей системы, поэтому (при условии, что вероятности отказа малы, что обычно имеет место) вероятность отказа всей системы в пределах заданного интервала может быть равна аппроксимируется как сумма вероятностей отказа компонентов. С параллельными компонентами ситуация немного сложнее: вся система выйдет из строя тогда и только тогда, когда после отказа одного из компонентов произойдет сбой другого компонента во время ремонта первого компонента; Именно здесь в игру вступает MDT: чем быстрее будет восстановлен первый компонент, тем меньше «окно уязвимости» для другого компонента.
Используя аналогичную логику, MDT для системы из двух последовательных компонентов можно рассчитать как:
а для системы из двух параллельных компонентов MDT можно рассчитать как:
Последовательно применяя эти четыре формулы, можно вычислить MTBF и MDT любой сети ремонтируемых компонентов при условии, что MTBF и MDT известны для каждого компонента. В особом, но очень важном случае нескольких последовательных компонентов расчет MTBF можно легко обобщить до
что можно показать по индукции, и аналогично
поскольку формула для mdt двух компонентов, включенных параллельно, идентична формуле mtbf для двух компонентов, включенных последовательно.
Варианты MTBF
Существует множество вариантов MTBF, таких как среднее время между сбоями системы (MTBSA), среднее время между критическими сбоями (MTBCF) или среднее время между незапланированным удалением (MTBUR). Такая номенклатура используется, когда желательно различать типы отказов, такие как критические и некритические отказы. Например, в автомобиле отказ FM-радио не препятствует основной работе автомобиля.
Рекомендуется использовать Среднее время наработки на отказ (MTTF) вместо MTBF в случаях, когда система заменяется после отказа («неремонтопригодная система»), поскольку MTBF обозначает время между отказами в системе, которую можно отремонтировать.
MTTFd является расширением MTTF и касается только сбоев, которые могут привести к опасному состоянию. Его можно рассчитать следующим образом:
MTBF с учетом цензуры
Мы видим, что разница между MTBF, учитывающим только отказы, и MTBF, включая цензурированные наблюдения, заключается в том, что время цензуры добавляется к числителю, но не к знаменателю при вычислении MTBF.
MTBF — откуда берется «миллион часов MTBF»
Просто удивительно то, насколько велико непонимание вокруг такого широко распространенного понятия, как MTBF (Mean Time Between Failure — «Время между сбоями» или «наработка на отказ» ), насколько смысла этой величины не понимают, зачастую, даже специалисты в области хранения данных.
Казалось бы — что может быть проще. «Наработка на отказ» это время беспроблемной работы, от первого включения нового диска, до момента отказа, посчитанная в часах.
Почти любой, кто поинтересуется значением, приводимым производителями, в качестве MTBF современных дисков, и с легкостью сделает несложные подсчеты, будет удивлен странной его величиной.
На сегодня величина MTBF приводится в миллион или даже полтора миллиона часов.
В году — примерно 8760 часов, значит, исходя из нашего понимания «физического смысла» этого значения, производитель планирует «наработку на отказ» для любого такого диска более ста лет (114 лет, для миллиона часов MTBF), что является очевидной нелепостью для каждого, у кого подыхали жесткие диски.
Тогда что это за «миллион часов», где и каким образом он измерен?
Конечно же производитель не гоняет диск 114 лет, оценка производится искусственно, но откуда вообще взялась величина в «миллион часов»?
Дело в том, что MTBF измеряется для всей эксплуатируемой «дисковой популяции», и распространяется на период объявленного гарантийного срока для данного типа дисков. Оба выделенных момента являются важными, и часто опускаются в описании, что и приводит к принципиальному непониманию.
Представим себе, что мы поставили в сервер жесткий диск, который проработал 3 года гарантийного срока, и, будучи исправным, был заменен на новый. Следующий проработал три года, и был заменен по истечении гарантийного срока, и так далее. И вот на 38-м диске вы вправе ожидать, что до конца гарантийного срока он не доработает.
Или же представим себе чуть более приближенную к реальности ситуацию.
Допустим, для простоты подсчета, у нас есть система хранения на 115 дисков. Для каждого диска производитель приводит MTBF равный миллиону часов. Но надо принять во внимание то, что в большой дисковой популяции общий MTBF, то есть вероятность отказа, растет, с увеличением количества используемых дисков.
Для 115 дисков, исходя из приводимой вендором величины MTBF, мы вправе ожидать, что хотя бы один диск из популяции в 115 выйдет из строя до конца трехлетнего гарантийного срока.
Этот вариант уже куда более похож на правду.
Строго говоря, на практике, вместо MTBF гораздо практичнее пользоваться параметром AFR — Annual Failure Rate, или «ежегодная вероятность сбоев», выводимом из MTBF.
Он вычисляется как: AFR = 1-exp(-8760/MTBF)
Величина AFR для диска с миллионом часов MTBF составляет 0,87%, что, в принципе, хоть и чуть завышено (Google в известном исследовании 2007 года показывает для новых дисков в пределах гарантийного срока как раз AFR в районе 1%), но, все же уже довольно хорошо согласуется с практикой.
Любопытно, что, например, такой производитель жестких дисков как WD теперь вовсе перестал указывать величину MTBF, перейдя на указание другого параметра: «power on/off cycles», по видимому не в последнюю очередь именно в связи с явно видимым непониманием и неочевидностью применения указываемой величины MTBF пользователями.
Как вычисляется среднее время до отказа и вероятность безотказной работы?
Понятиям MTTF (Mean Time To Failure — среднее время до отказа) и другим терминам теории надежности посвящено большое количество статей, в том числе на Хабре (см., например, тут). Вместе с тем, редкие публикации «для широкого круга читателей» затрагивают вопросы математической статистики, и уж тем более они не дают ответа на вопрос о принципах расчета надежности электронной аппаратуры по известным характеристикам ее составных элементов.
В последнее время мне довольно много приходится работать с расчетами надежности и рисков, и в этой статье я постараюсь восполнить этот пробел, отталкиваясь от своего предыдущего материала (из цикла о машинном обучении) о пуассоновском случайном процессе и подкрепляя текст вычислениями в Mathcad Express, повторить которые вы сможете скачав этот редактор (подробно о нем тут, обратите внимание, что нужна последняя версия 3.1, как и для цикла по machine learning). Сами маткадовские расчеты лежат здесь (вместе с XPS- копией).
1. Теория: основные характеристики отказоустойчивости
Вроде бы, из самого определения (Mean Time To Failure) понятен его смысл: сколько (конечно, в среднем, поскольку подход вероятностный) прослужит изделие. Но на практике такой параметр не очень полезен. Действительно, информация о том, что среднее время до отказа жесткого диска составляет полмиллиона часов, может поставить в тупик. Гораздо информативнее другой параметр: вероятность поломки или вероятность безотказной работы (ВБР) за определенный период (например, за год).
Для того чтобы разобраться в том, как связаны эти параметры, и как, зная MTTF, вычислить ВБР и вероятности отказа, вспомним некоторые сведения из математической статистики.
Ключевое понятие теории надежности — это понятие отказа, измеряемое, соответственно, интервальным показателем
Q(t) = вероятность того, что изделие откажет к моменту времени t.
Соотвественно, вероятность безотказной работы (ВБР, в английской терминологии «reliability»):
P(t) = вероятность того, что изделие проработает без отказа от момента t0=0 до момента времени t.
По определению, в момент t0=0 изделие находится в работоспособном состоянии, т.е. Q(0)=0, а P(0)=1.
Оба параметра — это интервальные характеристики отказоустойчивости, т.к. речь идет о вероятности отказа (или наоборот, безотказной работы) на интервале (0,t). Если отказ рассматривать, как случайное событие, то, очевидно, что Q(t) — это, по определению, его функция распределения. А точечную характеристику можно определить, как
p(t)=dQ(t)/dt = плотность вероятности, т.е. значение p(t)dt равно вероятности, что отказ произойдет в малой окрестности dt момента времени t.
И, наконец, самая важная (с практической точки зрения) характеристика: λ(t)=p(t)/P(t)=интенсивность отказов.
Это (внимание!) условная плотность вероятности, т.е. плотность вероятности возникновения отказа в момент времени t при условии, что до этого рассматриваемого момента времени t изделие работало безотказно.
Измерить параметр λ(t) экспериментально можно путём испытания партии изделий. Если к моменту времени t работоспособность сохранило N изделий, то за оценку λ(t) можно принять процент отказов в единицу времени, происходящих в окрестности t. Точнее, если в период от t до t+dt откажет n изделий, то интенсивность отказов будет примерно равна
λ(t)=n/(N*dt).
Именно эта λ-характеристика (в пренебрежении ее зависимостью от времени) и приводится чаще всего в паспортных данных различных электронных компонент и самых разных изделий. Только сразу возникает вопрос: а как вычислить вероятность безотказной работы и при чем здесь среднее время до отказа (MTTF).
2. Экспоненциальное распределение
В терминологии, которую мы только что использовали, пока не было никаких предположений о свойствах случайной величины — момента времени, в который происходит отказ изделия. Давайте теперь конкретизируем функцию распределения значения отказа, выбрав в качестве нее экспоненциальную функцию с единственным параметром λ=const (смысл которого будет ясен через несколько предложений).
Дифференцируя Q(t), получим выражение для плотности вероятности экспоненциального распределения: ,
а из него – функцию интенсивности отказов: λ(t)=p(t)/P(t)=const=λ.
Что мы получили? Что для экспоненциального распределения интенсивность отказов – есть величина постоянная, причем совпадающая с параметром распределения. Этот параметр и является главным показателем отказоустойчивости и его часто так и называют λ-характеристикой.
Мало того, если теперь посчитать среднее время до первого отказа – тот самый параметр MTTF (Mean Time To Failure), то мы получим, что он равен MTTF=1/ λ.
Но это еще не все, потому, что для экспоненциального распределения особенно легко делать расчет систем, состоящих из множества элементов. Но об этом – в следующей статье (продолжение следует).