Примеры вычислительных систем, использующих технологии повышения живучести
Рассмотрим несколько вычислительных систем, реализующих различные методы повышения надежности работы и живучести. Начнем с бортовой вычислительной системы командного пункта зенитно-ракетного комплекса среднего радиуса действия.
Вычислительная система командного пункта ЗРК.
Вычислительная система командного пункта состоит из трех вычислительных модулей: центральный процессор и два периферийных процессора. Центральный процессор выполняет роль сервера, два периферийных – клиенты.
В этой вычислительной системе разработан алгоритм повышения надежности, позволяющий продолжать работу в случае выхода из строя одного из периферийных процессоров. Выход же из строя центрального процессора приводит к выходу из строя всей вычислительной системы.
При этом работа с одним периферийным процессорном ведет к отключению от работы трех из шести огневых установок, то есть выход из строя одного из периферийных процессоров приводит не к уменьшению производительности, а к потери части функций вычислительной системы.
Реализация алгоритма повышения надежности основывается на жестком разделении функций между двумя периферийными процессорами, что приводит к значительному усложнению алгоритмов штатного режима работы, так как кроме решения возлагающихся на них задач, они должны учитывать разделение на два процессорных модуля.
Вычислительная система Compaq.
Один из видов вычислительной системы повышенной надежности фирмы Compaq используется для обработки данных платежной системы банкоматов. Она состоит из четырех процессорных узлов, двухвходового RAID-массива пятого уровня и аппаратуры SAN на базе сетевых контроллеров и концентраторов ServerNet v.1. Структурная схема этой вычислительной системы приведена ниже
Каждый из сетевых контроллеров, устанавливаемых в узлах кластера, оборудован двумя портами. Поэтому установка второго концентратора гарантирует доступ узлов друг к другу даже в случае выхода из строя одного из путей доступа. Конфигурация каналов доступа, концентраторов и RAID-контроллера дискового массива также обеспечивает гарантированный доступ к нему любого узла кластера при выходе из строя какой-либо части оборудования.
Повышение живучести и надежности вычислительной системы обеспечивается за счет горячего резерва оборудования, в первую очередь резервируются каналы связи. При выходе из строя одного из контроллеров Ethernet система переключается на использование другого с автоматической миграцией IP-адресов и всех текущих IP-соединений. Резервирование устройств хранения данных позволяет с высокой надежностью хранить информацию, а идентичность вычислительных узлов кластера позволяет организовывать вычислительный процесс с использованием горячего резерва оборудования.
Вычислительная система Fujitsu Siemens Server Shield.
Основные особенности архитектуры высокой готовности Fujitsu Siemens Server Shield таковы: критические приложения работают на главном сервере, некритические приложения (разработка, тесты) работают на резервном сервере. Структурная схема кластера приведена на рисунке снизу.
В случае отказа главного сервера происходят следующие действия:
1. Отключение главного сервера
2. Переключение рабочих данных с помощью коммутатора SCSI на резервный сервер
3. Загрузка резервного сервера в качестве главного
4. Автоматическое переподключение клиентов
Кластер ServerShield обеспечивает высокую надежность, за счет резервирования оборудования, однако, резервной оборудование не простаивает, а выполняет ряд действия, что позволяет увеличить производительность основного сервера, за счет разгрузки его от некритических по надежности задач. Но такая структура требует полной перезагрузки системы, в случае выхода из строя основного сервера, и так же приводит к потере части производительности, за счет неполного использования производительности резервного сервера.
Вычислительная система фирмы Hewlett - Packard.
Схема "слабо связанного" кластера Hewlett-Packard включает до 8 серверов HP 9000 Series 800, причем семь из них являются основными системами, а восьмая находится в горячем резерве и готова заменить любую из основных систем в случае отказа. Общая структурная схема кластера приведена на рисунке ниже. На ней Сервера А, В и С - основные, а сервер D работает в режиме горячего резерва.
В нормальном режиме работы основные системы кластера посылают резервной сообщения (так называемый "пульс"), подтверждающие их работоспособное состояние. Если резервная система обнаруживает потерю "пульса" какой-либо основной системой, она прекращает выполнение своих процессов, берет на себя управление дисками отказавшей системы, осуществляет перезагрузку, переключает на себя сетевой адрес отказавшей системы и затем перезапускает приложения. Весь процесс переключения может занимать от 10 до 20 или более минут в зависимости от приложения.
Подобная организация вычислительной системы позволяет получить высокую надежность при сравнительно небольших потерях производительности, однако, узким местом этой вычислительной системы становится наличие только одного резервного узла, выход из строя которого сделает механизм восстановления неработоспособным.
Система автоматического управления высокой надежности на базе ЭВМ «Багет 23В»
Эта вычислительная система предназначена для организации как бортовых, так и стационарных пунктов автоматизированного управления с повышенными требованиями к надежности и живучести. Структурная схема данной вычислительной системы приведена на схеме ниже.
Система состоит из шести четырехпроцессорных ЭВМ разделенных на две группы по выполняемым функциям. Первая группа состоит из трех ЭВМ управления, обеспечивающих выполнение основных алгоритмов пользователей. Вторая группа состоит из трех ЭВМ индикации обеспечивающих интерфейс взаимодействия с оператором. Внутри каждой группы аппаратурный состав ЭВМ идентичный для возможности обеспечения алгоритма повышения живучести вычислительной системы за счет постепенной деградации.
Все ЭВМ соединены между собой по каналу Ethernet. Основная сеть Ethernet дублируется резервной для повышения надежности межмашинного взаимодействия. Обмен по основной и резервной сети Ethernet осуществляется независимо друг от друга, т.е. используются разные концентраторы, что позволяет в два раза уменьшить число коллизий по сравнению с тем, если бы обмен шел по общей среде.
Межпроцессорное взаимодействие осуществляется по каналу VME. Обмен по шине VME идет с использованием технологии эмуляции Ethernet на VME и представляет собой отдельные сети для каждой ЭВМ (всего 6 сетей), включающие в себя четыре процессорных модуля и имеющие выход в сети Ethernet через шлюз – первый процессорный модуль.
Для того, чтобы программы пользователей не имели дело с конкретным оборудованием и его тонкостями, инициализация каналов, настройка и функции обмена создаются на этапе инициализации системы. Это позволяет программам пользователя быть независимыми от аппаратурной платформы, используя единую функцию приема и передачи данных.
Таким образом, становится неважно, на каком процессорном модуле ведется работа программы, так как все сетевое взаимодействие становится не зависимым от аппаратуры, и зависит только от адреса приема и передачи, которые автоматически меняются в специально разработанной для этого программе переадресации, в зависимости от места работы той или иной программы.
В случае выхода из строя одной из ЭВМ комплекса, происходит автоматическая реконфигурация оборудования, изменяются ссылки на IP адреса, из работы исключается вышедшая из строя ЭВМ, а ее функции равномерно распределяются между всеми ЭВМ группы, к которой она принадлежала. При этом сохраняются все функции вычислительной системы, но снижается объем обрабатываемой информации. То есть реализуется алгоритм постепенной деградации вычислительной системы.
Так же в этой системе предусмотрено динамическое изменение ЭВМ-сервера управляющего алгоритмами повышения надежности и живучести и в случае неисправности, ЭВМ, выполняющей роль сервера, возможно продолжение работы, путем динамического выбора другой ЭВМ, которая будет выполнять роль сервера. Тогда, как в случае с фиксированным сервером, его выход из строя ведет к полной неработоспособности вычислительной системы.
На этом мы закончим наш обзор. Как видно из приведенных примеров высоконадежные вычислительные системы имеют широкое применение и разнообразие подходов повышения живучести и надежности. Несмотря на это, еще остается множество проблем в области повышения надежности вычислительных систем и кластеров, которые предстоит решить в ближайшее время.
|