Методы повышения надежности БЦВС
Обеспечение надежности системы охватывает все стадии проектирования, производства и эксплуатации системы. Совокупность мероприятий, направленных на повышение надежности системы, оформляются в виде программы обеспечения надежности, в которой предусматриваются необходимые мероприятия, гарантирующие надежность технических и программных средств.
На стадии технического предложения и эскизного проекта оценивается надежность базовой структуры вычислительной системы. Вычисленные показатели сравниваются с требуемыми, и определяется способ повышения надежности системы.
На этом этапе используются следующие методы для повышения надежности:
1. Выбор элементов с номинальными параметрами работы (частота, напряжение, температура и т.д.) выше, чем предполагают режимы эксплуатации в реальных изделиях, для снижения интенсивности отказов. Обычно, используют элементы с двукратным запасом по рабочим параметрам.
2. Уменьшение рабочей температуры элементов аппаратуры, за счет теплоотвода, мощной системы охлаждения, корректного размещения, обеспечивающего свободный обдув и отсутствие дополнительных источников тепла (двигателя, сильно греющихся элементов аппаратуры и др.).
3. Разработка структуры БЦВС с учетом резервирования отдельных ее элементов, целых БЦВМ, или программное резервирование (повтор решения отдельных задач, использование корректирующих кодов, перераспределения нагрузки и т.д.).
4. Обеспечение достаточной ремонтопригодности. Ремонтопригодность позволяет снижать затраты времени и средств на восстановление работоспособности системы. Для повышения ремонтопригодности существует множество способов, реализуемых на всех стадиях проектирования, производства и эксплуатации системы: встраивание в систему эффективных средств контроля и диагностики, унификация конструкций и рациональная их компоновка и др.
На этапе производства и эксплуатации также есть ряд методов, повышающих надежность БЦВС:
1. Тщательный отбор и тестирование деталей особо важных элементов вычислительной системы.
2. Корректная техническая эксплуатация и обслуживание. Техническая эксплуатация или техническое обслуживание– обеспечение работоспособности системы, путем создания требуемых условий эксплуатации (режим электропитания, температурный и др.) и проведения профилактических и ремонтно-восстановительных работ.
Основной показатель качества технического обслуживания – коэффициент готовности системы (компонентов), характеризующий долю времени, в течение которого система (компоненты) - работоспособна(ы). Увеличение коэффициента готовности системы достигается путем сокращения простоев оборудования из-за профилактических и ремонтно-восстановительных работ. На эффективность технического обслуживания наиболее существенно влияют следующие факторы:
а) условия эксплуатации системы (стабильность электропитания, температура, чистота среды и др.):
б) надежность и ремонтопригодность системы, степень совершенства средств контроля и диагностики;
в) режим обслуживания и квалификация обслуживающего персонала;
г) полнота денных о сбоях и отказах технических средств.
Для повышения эффективности технического обслуживания в системах предусматриваются средства накопления данных об ошибках, сбоях и отказах. Данные накапливаются путем регистрации состояния системы в момент ошибки, обнаруживаемой встроенными средствами контроля или программами. Регистрация данных производится операционной системой в специальном системном журнале – области накопителя на магнитных дисках. Данные из системного журнала периодически или при необходимости выводятся на печать и используются обслуживающим персоналом для выявления источников ошибок, сбоев и отказов, с целью проведения профилактических и ремонтно-восстановительных работ.
Серьезное влияние на качество технического обслуживания оказывает стоимость эксплуатационных и восстановительных работ. Использование универсального, серийно выпускаемого, модульного оборудования значительно снижает стоимость ремонтных работ и уменьшает количество аппаратуры, хранимой в запасе на случай выхода из строя одного из элементов вычислительной системы. Универсальность алгоритмов, позволяющая запускать их в любом из модулей системы, так же способствует значительной экономии средств и времени при эксплуатации системы.
|