Главная    ВС и сети    Надежность ВС: повышение надежности за счет резервирования оборудования

Повышение надежности за счет резервирования оборудования

Резервирование - один из самых распространенных и кардинальных способов повышения надежности и живучести вычислительных систем. Однако, за резервирование приходится расплачиваться значительным увеличением габаритов, массы и потребляемой мощности.

Так же при этом усложняется проверка аппаратуры и ее обслуживание. Так как количество отказов увеличивается из-за увеличения количества аппаратуры. Резервирование уменьшает полезную нагрузку на аппаратуру и увеличивает ее себестоимость.

Основным параметром резервирования является кратность резервирования. Это отношение числа резервных устройств к числу рабочих (основных) устройств. Кратность резервирования ограничена жесткими пределами в отношении массы, габаритов и потребляемой мощности БЦВС.

Различают общее и раздельное резервирование. Резервирование БЦВМ в целом – это общее резервирование. В этом случае параллельно работают основная и резервные БЦВМ.

При раздельном резервировании БЦВМ разбивается на отдельные подсистемы, каждая из которых или некоторые из них резервируются отдельно. При использовании раздельного резервирования можно выделить несколько уровней резервирования:

1. Резервирование на уровни деталей

2. Резервирование на уровне элементов

3. Резервирование на уровне устройств.

На данный момент наиболее распространенным раздельным резервированием является резервирование на уровне устройств (ОЗУ, процессор, жесткие диски и т.д.), так как современные БЦВМ имеют модульное построение, а резервирование на уровне модулей значительно повышает ремонтопригодность.

В зависимости от способа включения резервного элемента или БЦВМ различают горячее и холодное резервирование.

При горячем резервировании резервные элементы работают в одинаковых условиях с основными элементами и выполняют все их функции. При этом увеличивается потребляемая мощность и усложняется обслуживание, так как необходимо выявлять отказавшие элементы и своевременно их заменять.

При холодном резервировании резервные элементы не работают, либо работают в облегченных условиях. В этом случае резервный элемент включается в работу только в случае выхода из строя основного элемента. Холодное резервирование потребляет меньше мощности, легче в обслуживании, и резервное элементы не расходуют свой ресурс. Однако, при холодном резервировании необходимо использовать специальные переключатели, позволяющие резервному элементу вступить в работу. Включение резервных элементов может происходить, как вручную, так и автоматически.

Холодное резервирование используется только на уровне крупных элементов или целых БЦВМ с применением различных методов обнаружения неисправностей.

Горячее резервирование может применяться и на более глубоких уровнях с использованием избыточности на основе мажоритарной логикой.

В реальной аппаратуре холодное и горячее резервирование обычно применятся в различных сочетаниях.

Рассмотрим различные способы резервирования:

1. Резервирование на основе мажоритарной логики.

Этот тип резервирования используется при горячем резерве элементов или целых БЦВМ. Выходные сигналы с основного и всех резервных элементов преобразуются в один сигнал на мажоритарном элементе. При этом сравниваются все сигналы, и правильным считается тот, который совпал большее число раз (2 из 3, 3 из 5 и так далее).

Достоинства мажоритарной логики резервирования:

1. Значительно увеличивается вероятность безотказной работы вычислительной системы.

2. Не требуется обнаружение неисправного элемента и переключение на резервный.

3. Подавляются все сбои.

Недостатки:

1. Существенно увеличивается объем, масса и потребляемая мощность оборудования.

2. Снижается быстродействие, так как мажоритарные элементы включаются последовательно с основными элементами вычислительной системы.

3. Отсутствует индикация отказавших устройств, что уменьшает ремонтопригодность.

4. Система отказывает, когда еще есть исправные элементы, так как мажоритарный элемент не может принять верные решения, если отказавших элементов больше, чем исправных.

2. Резервирование на основе дублирования подсистем с детектором ошибок.

При таком виде резервирования после каждого резервируемого элемента стоит детектор ошибок, фиксирующий несовпадение результатов работы основного и резервного элемента. В случае обнаружение несовпадения запускается диагностическая программа, определяющая, какой именно блок отказал, и исключающая его из работы до устранения ошибки.

Схематично подобная схема включения выглядит следующим образом:

Резервирование на основе дублирования подсистем с детектором ошибок

Здесь Ао и Ар составляют первый блок вычислительной системы, причем Ао – основной элемент, а Ар – резервный. Оба этих элемента, за исключением случая, когда один из них неисправен, имеют одинаковые выходы.

Во и Вр – составляют второй блок. Выходы этих элементов так же идентичны.

Сигналы с основных и резервных элементов объединяются с помощью логического элемента «или» для того, чтобы при исключении из работы неисправного элемента сигнал все равно поступал в оба канала.

Аналогично можно применять резервирование на три, четыре и так далее элементов. При этом увеличивается вероятность безотказной работы, однако, значительно повышается потребляемая мощность, габариты, вес, усложняется структура вычислительной системы и программирование для нее.

Преимущества резервирования дублированием с детектором отказов:

1. Значительно увеличивается вероятность безотказной работы вычислительной системы.

2. Меньше резервных элементов, чем при использовании мажоритарной логики резервирования.

3. Повышается ремонтопригодность, так как точно известно, какой элемент отказал

4. Детектор ошибок не влияет на информационные потоки и не снижает быстродействие вычислительной системы, так как подключается параллельно, относительно проверяемых устройств.

Недостатки:

1. В случае обнаружения ошибки необходимо прервать работу основного программного обеспечения для обнаружения неисправного элемента и исключения его из работы.

2. Усложняется программное обеспечение, так как требуется специальная программа обнаружения неисправных элементов.

3. Система не может обнаружить ошибку при отказе одновременно основного и резервного элемента.

3. Резервирование на основе постепенной деградации вычислительной системы.

В этом случае, если все элементы вычислительной системы исправны, они функционируют в полном объеме, и каждый элемент выполняет свою функцию. Однако, стоит выйти из строя хотя бы одному элементу, сразу же запускается диагностическая программа, определяющая, какой именно элемент вышел из строя, и исключающая его из работы. При этом функции, которые исполнял вышедший из строя элемент, перераспределяются между рабочими элементами с сохранением всех функциональных возможностей, за счет уменьшения объема обрабатываемой информации или с уменьшением функциональности при сохранении объема обрабатываемой информации.

Так как бортовые вычислительные системы рассчитаны на максимальную загрузку, которая происходит достаточно редко, подобный способ резервирования значительно повышает надежность, без серьезных затрат.

Достоинства:

1. Повышается живучесть вычислительной системы.

2. Не увеличиваются габариты, масса и потребляемая мощность.

3. Повышается ремонтопригодность, так как точно известно, какой элемент отказал.

4. Не требуются специализированные элементы, анализирующие сигналы элементов, а, следовательно, всю вычислительную систему можно разрабатывать на стандартизированном оборудовании.

Недостатки:

1. Усложняется программное обеспечение, так как необходимо реализовывать алгоритмы, отслеживающие исправность элементов вычислительной системы и перераспределяющие задачи после выхода из строя одного или нескольких элементов

2. При выходе из строя элементов вычислительной системы снижается объем обрабатываемой информации или функциональность.

3. Резервирование возможно только на уровне процессорных модулей и ЭВМ.

4. Обслуживание становится дороже, так как заменять надо целые блики и ЭВМ.

Это основные способы резервирования с помощью оборудования. Обычно, в реальной аппаратуре они применяются в различных комбинациях, в зависимости от требуемого результата, степени необходимой надежности и живучести отдельных элементов вычислительной системы и всего комплекса в целом.


Яндекс.Метрика

Рейтинг@Mail.ru