Надежность и живучесть бортовых вычислительных систем (БЦВС).
Надежность – это свойство изделий выполнять требуемые функции, сохраняя свои эксплуатационные показатели в заданных пределах в течение требуемого промежутка времени.
Живучесть - способность вычислительной системы выполнять свои основные функции, несмотря на полученные повреждения и вышедшие из строя элементы аппаратуры.
К надежности и живучести БУВМ и БЦВС предъявляются более жесткие требования, чем к надежности и живучести универсальных и персональных ЭВМ. При отказе БЦВМ нарушается работоспособность системы, и не выполняются поставленные задачи, что может привести к непоправимым последствиям, в том числе и к человеческим жертвам.
Повторное решение задачи после восстановления БЦВМ и БЦВС часто невозможно. Так, например, при сбое в работе БЦВС зенитно-ракетного комплекса будет уничтожен обороняемый объект. И, если вы в короткий срок восстановите работу системы, то разрушения не удастся вернуть так же, как и потерянные жизни. Сбой в авионике может привести к крушению самолета или самопроизвольному сходу ракет. В этом случае восстановление работы БЦВС так же не позволит исправить последствия ошибки.
Обеспечение высокой надежности и живучести БЦВС усложняется условиями работы аппаратуры на борту при больших колебаниях температуры, влажности, действии механических нагрузок и в условии высокой запыленности. Так же ограничение накладывается на габариты и массу аппаратуры. Это в основном относится к авиации, но так же большое значение имеет и для БЦВС других направлений.
Таким образом, проблема надежности и живучести БЦВМ и БЦВС имеет ряд особенностей, обусловленных своеобразием структуры БЦВМ и характером выполняемых ими функций.
Задача обеспечения в сложной системе высокой надежности и живучести может оказаться весьма дорогостоящей, сложной и требующей больших затрат времени, хотя затруднения с выпуском продукции и проблемы, возникающие во время эксплуатации, в связи с необходимостью обеспечения и поддержания требуемого уровня надежности, могут вызвать еще большие затруднения.
Например, при уменьшении надежности ракетной системы на 10% для обеспечения одной и той же степени поражения цели потребуется увеличение, по меньшей мере, на 10% фактического количества боевых ракет. Для этих ракет нужны дополнительные пусковые площадки, испытательная аппаратура, оборудование для пуска, обслуживающий персонал и вспомогательное оборудование, что связано с большими затратами денежных средств и времени.
Чем сложнее структура вычислительной системы, тем труднее обеспечить надежность и живучесть. Следует заметить, что большинство отказов, имевших место при пусках управляемых ракет и искусственных спутников в США, не было вызвано неисправностью какого-либо экзотического устройства, конструкция которого ускорила прогресс современного уровня техники. Напротив, многие отказы были вызваны неисправностью функциональных и конструктивных элементов ранее апробированной конструкции. Иногда элементы были изготовлены неправильно, а в других случаях имели место ошибки в работе программистов или обслуживающего персонала. Нет такой мелочи, которая была бы слишком ничтожной для того, чтобы не оказаться возможной причиной отказа. Высокие потенциальная и практически достижимая надежности в значительной степени являются результатом глубокого и пристального внимания к мелочам.
Проблема повышения надежности и отказоустойчивости свойственна не только БЦВС, но и коммерческой аппаратуре. Например, в кластере Google в среднем происходит отказ 1 компьютера в день (то есть за год аварии происходят примерно на 3% компьютеров). Конечно, за счет резервирования данных и кода эти сбои пользователям незаметны, но для программиста они являются большой проблемой.
Случай, когда вычислительная система или ее часть вышли из строя, и дальнейшая работа невозможна без ремонта - называется отказом.
Теория надежности различает 3 характерных признака отказов, которые могут быть присуще аппаратуре и проявляются без всякого воздействия со стороны людей.
1. Приработные отказы. Эти отказы происходят в течение раннего периода эксплуатации и в большинстве случаев вызваны недостатком технологии производства и дефектами при изготовлении элементов вычислительных систем. Эти отказы могут быть исключены процессом отбраковки, приработки и технологического тестирования готового изделия.
2. Дефектные или постепенные отказы. Это - отказы, возникающие из-за износа отдельных параметров или частей аппаратуры. Они характеризуются постепенным изменением параметров изделия или элементов. В начале эти отказы могут проявляется как временные сбои. Однако, по мере того, как износ возрастает, временные сбои превращаются в серьезные отказы аппаратуры. Эти отказы являются признаком старения БЦВС. Они частично могут быть устранены при правильной эксплуатации, хорошей профилактике и своевременной замене изношенных элементов аппаратуры.
3. Внезапные или катастрофические отказы. Эти отказы не могут быть устранены ни при отладке аппаратуры, ни правильным обслуживанием, ни профилактикой. Внезапные отказы возникают случайно, никто не может их предсказать, однако, они подчиняются определенным законам вероятности. Так что частота внезапных отказов в течение достаточно большого периода времени становится примерно постоянной. Это происходит в любой аппаратуре. Примером случайных отказов является обрыв или замыкание цепей. Такой отказ приводит, обычно, к тому, что на выходе устанавливается постоянно либо 0, либо 1. При возникновении случайных отказов необходимо заменять элементы, в которых они произошли. Для этого вычислительная система должна быть ремонтопригодной и позволять быстро проводить профилактические работы в полевых условиях.
В отдельную группу можно выделить перемежающиеся отказы или сбои. Под сбоем подразумевается кратковременное нарушение нормальной работы БЦВМ, при котором один или несколько ее элементов, при выполнении одной или нескольких смежных операции, дает случайный результат. После сбоя вычислительная система может нормально функционировать в течение длительного времени.
Причиной возникновения сбоев могут быть электромагнитные наводки, механические воздействия и др. Часто сбои не приводит к выходу из строя комплекса, а только изменяют ход работы программного обеспечения из-за неверного выполнения одной или нескольких команд, что может привести к катастрофическим последствиям. Отличие сбоев от отказов в том, что при обнаружении последствий от сбоя, необходимо восстанавливать не аппаратуру, а информацию, искаженную сбоем.
Рассказывая о сбоях, необходимо упомянуть о, так называемых, Шрёдинбагах. Шрёдинбаг – это ошибка, при которой вычислительная система долгое время функционирует нормально, однако, при определенных условиях, например, задании нестандартных параметров работы, возникает сбой. При анализе этого сбоя оказывается, что программное обеспечение вычислительной системы имеет принципиальную ошибку, из-за которой оно в принципе не должно было функционировать.
Шрёдинбаг может быть образован сложной комбинацией парных ошибок (когда ошибка в одном месте компенсируется ошибкой противоположного действия в другом месте). При определенном стечении обстоятельств баланс ошибок разрушается, что приводит к парализации работы.
Таким образом, для БЦВС характерно еще одно свойство, определяющее ее надежность – безошибочность или достоверность функционирования. Следовательно, надежность БЦВС – это совокупность безотказности, достоверности функционирования, живучести и ремонтопригодности.
В качестве параметров надежности применяют:
1. Интенсивность отказов –
2. Средняя наработка на отказ –
3. Вероятность безотказной работы в течение заданного времени – Р
4. Вероятность отказа – Q
Интенсивность отказов
Интенсивность отказов – это частота, с которой происходят отказы. Если аппаратура состоит из нескольких элементов, то ее интенсивность отказов равна сумме интенсивности отказов всех элементов, отказы которых приводят к неисправности оборудования.
Кривая интенсивности отказов, в зависимости от времени эксплуатации, изображена на рисунке ниже.
При начале эксплуатации (в момент времени t = 0) вводится в действие большое количество элементов. Эта совокупность элементов в начале может имеет большую интенсивность отказов, за счет дефектных образцов. Поскольку дефектные элементы отказывают один за другим, интенсивность отказов относительно быстро уменьшается в течение периода приработки и становится приблизительно постоянной к моменту нормальной эксплуатации (Т норм), когда дефектные элементы уже отказали, и были заменены на работоспособные.
Совокупность элементов, прошедших период приработки, имеет самый низкий уровень отказов, который сохраняется примерно постоянным до начала выхода из строя элементов, из-за износа (Т износа). С этого момента интенсивность отказов начинает возрастать.
Средняя наработка на отказ
Средняя наработка на отказ – это отношение общего отработанного времени к общему числу отказов. В течение периода нормальной эксплуатации, когда интенсивность отказов примерно постоянна, средняя наработка на отказ представляет собой величину обратную интенсивности отказов:
Вероятность безотказной работы.
Вероятностью безотказной работы называется вероятное или ожидаемое число устройств, которое будет безотказно функционировать в течение заданного периода времени:
Эта формула справедлива для всех устройств, которые прошли приработку, но не испытывают влияние износа. Следовательно, время t не может превышать периода нормальной эксплуатации устройств.
График, показывающий вероятность безотказной работы в зависимости от времени нормальной эксплуатации, приведен ниже:
Вероятность отказа.
Вероятность отказа – это величина обратная вероятности безотказной работы.
Номинальная интенсивность отказов.
Элементы аппаратуры проектируют так, чтобы они могла выдерживать определенные номинальные: напряжение, силу тока, температуру, вибрации, влажность и так далее. Когда аппаратура в процессе работы подвергается влиянию таких воздействий, наблюдается некая определенная интенсивность отказов. Ее называют номинальной интенсивностью отказов.
При увеличении общей рабочей нагрузи или некоторых частных нагрузок, или вредных воздействий окружающей среды сверх номинальных уровней, интенсивность отказов возрастает довольно резко по сравнению со своим номинальным значением. И наоборот, интенсивность отказов уменьшается, когда нагрузка становится ниже номинального уровня.
Например, если элемент должен работать при номинальном значении температуры 60 градусов, то путем понижения температуры, в результате применения принудительной системы охлаждения, можно снизить интенсивность отказов. Однако, если снижение температуры влечет за собой слишком большое увеличение количества элементов и веса аппаратуры, то более выгодным может оказаться выбор элементов с увеличенным номинальным значением рабочей температуры и применение их при температуре, ниже номинальной. В этом случае аппаратура может стать дешевле, а масса меньше (что принципиально при работе в летательном аппарате), чем при применении принудительной системы охлаждения.
Методы определения надежности БЦВС.
Когда проектируются и создаются новые изделия механическими, электрическими, химическими или другими измерениями, нельзя определить значение интенсивности отказов. Интенсивность отказов можно определить путем сбора статистических данных, полученных при испытании на надежность этого или аналогичных изделий.
Вероятность безотказной работы в течение любого момента времени испытаний выражается формулой:
Интенсивность отказов определяется формулой:
При измерении интенсивности отказов необходимо поддерживать постоянное число элементов, участвующих в испытании, путем замены отказавших элементов новыми.
Таким образом, для получения данных о количественных характеристиках надежности аппаратуры, необходимо изготовить специальный образец аппаратуры для испытаний на надежность. Испытания на надежность должны проводиться в условиях, соответствующих реальным условиям эксплуатации оборудования по внешним воздействиям, периодичности включения и изменения параметров питания.
|