Сетевой журнал: галерея ИТ-проектов

  ПРОЕКТ

Проект модернизации центра обработки данных в крупном банке


Digital Machines: самая передовая техника
Московская компания Digital Machines присутствует на рынке с 1994 года и последние пять лет является крупнейшим партнером IBM в России и СНГ. Она имеет статус дистрибьютора практически по всему оборудованию IBM (исключением являются мэйнфреймы и UNIX-серверы, для которых этот статус, вероятно, вскоре будет получен) и поставляет также ее программное обеспечение. В компании имеются авторизованный сервисный центр IBM и отдел системной интеграции. Среди ее проектов последнего времени есть очень похожие на наш.

Специалисты Digital Machines хотели бы рекомендовать условному банку кластер на основе машин pSeries 670 - последней модели в линейке UNIX-серверов IBM среднего класса. Но поскольку это предложение выходит за рамки отведенного бюджета и, возможно, окажется неприемлемым для заказчика, компания подготовила и другой, более дешевый вариант с использованием Intel-серверов той же IBM.

RISC-серверы и PC-серверы
Итак, основное предложение Digital Machines предусматривает установку кластера из двух серверов pSeries 670, работающих под управлением ОС AIX. Модель 670 - самая новая в своей серии и вобрала в себя лучшее из всего, что было сделано IBM за годы производства серверов pSeries в отношении как архитектуры процессора, так и построения системы в целом. В принципе это сервер даже не среднего, а высшего класса, который IBM по определенным соображениям "спустила" на класс ниже, просто уменьшив вдвое масштабируемость и цену своей модели p690 (Regatta).

В минимальной конфигурации сервер содержит четыре процессора с тактовой частотой 1,1 ГГц и имеет 4 Гбайт оперативной памяти. По опыту сотрудников Digital Machines (а у компании был проект, где в центре обработки данных использовались очень похожие 4-процессорные Alpha-серверы), производительность такой конфигурации несколько превышает требования задачи. Это, конечно, означает, что банку придется заплатить некоторую дополнительную сумму за мощность, которую он не в состоянии освоить немедленно, но зато банк получит резерв вычислительной мощности и попадет в основной поток развития серверов IBM среднего класса, что в дальнейшем значительно облегчит модернизацию вычислительной системы. Именно поэтому специалисты Digital Machines не стали предлагать здесь конфигурации, основанные на более ранних моделях той же серии, тем более что выигрыш в цене был бы не очень велик.

Возможности расширения данной модели позволяют довести число процессоров до 16, а объем ОЗУ - до 128 Гбайт, что, как полагают в Digital Machines, покроет потребности банка в повышении производительности как минимум на ближайшие пять лет.

Во втором, "запасном" варианте в банке устанавливается кластер из двух Intel-серверов с ПО Windows 2000 Data Center. В качестве аппаратной базы Digital Machines и в этом случае рекомендует новейшую разработку IBM - модель xSeries 440 - в конфигурации с четырьмя процессорами Xeon MP 1,6 ГГц и 14 Гбайт оперативной памяти, чего также вполне достаточно с точки зрения заявленных в задаче требований к производительности. Сервер расширяется до 16 процессоров и 128 Гбайт оперативной памяти - отметим, что на сегодня 16-процессорные конфигурации на процессорах Xeon MP производятся только компаниями IBM и Unisys. И хотя этого, видимо, не хватит, чтобы покрыть потребности банка на пять лет вперед, требования к масштабируемости будут выполнены.

При том, что серверы xSeries считаются машинами сравнительно низкого класса, они мощны и надежны. Благодаря развитию вычислительной техники в них сейчас реализован ряд технологий, которые каких-нибудь пять лет назад присутствовали только в мэйнфреймах. (Примером может служить технология Chipkill, обеспечивающая автоматическое исправление ошибок в оперативной памяти, - своего рода аналог RAID для ОЗУ.) Большинство жизненно важных компонентов этих серверов дублированы и допускают горячую замену. Так, в модели 440 можно без остановки работы менять блок питания, PCI-платы, вентиляторы, память и др.
Сервер pSeries 670 (основные сведения)
МикропроцессорыPower4
Число микропроцессоровот 4 до 16
Тактовая частота микропроцессоров1,1 ГГц
КэшL2 на каждом процессоре, L3 128 Мб на каждом процессорном модуле
Оперативная памятьот 4 до 128 Гб
Внутренний жесткий дискот 2 до 48 дисков Ultra3-SCSI объемом 18,2, 36,4 или 73,4 Гб
Внутренние отсеки для дисков8 с возможностью быстрой замены
Интегрированные отсеки для носителей5
Разъемы расширения PCIот 10 до 60 (64-разрядных)
Разрядность шины PCI64
Адаптеры ввода-выводаДва встроенных контроллера Ultra 3 Wide SCSI
ПортыДва последовательных порта и два порта для подключения консоли Hardware Management Console for pSeries
Дополнительные аккумуляторые блоки питанияОдин или два
Операционная системаAIX 5L, ver. 5.1
ГарантияБесплатная годичная (ограниченная) на месте


Кластеры
В решении на базе UNIX-серверов машины объединяются в кластер с использованием специализированного программного обеспечения IBM, которое называется HACMP. Применяемые в IBM принципы построения кластеров высокой надежности и доступности требуют вдобавок к соединениям через Fibre Channel и локальную сеть установить в каждый сервер неактивную сетевую плату и соединить системы через последовательный интерфейс. Для кластера из PC-серверов нет необходимости ни в каком другом ПО, кроме собственно Windows 2000 Data Center, и не нужно соединять машины через последовательные порты, а для коммуникации между серверами достаточно всего одной дополнительной сетевой платы.

Для pSeries 670 специалисты Digital Machines, вероятно, предложили бы заказчику обсудить возможность упрощения конфигурации за счет отказа от кластерной технологии. Действительно, в кластере только один узел является рабочим, а второй находится в резерве и фактически простаивает, ожидая отказа первого узла. Однако серверы pSeries 670 рассчитаны на непрерывную работу в ситуациях, критичных к простоям, и выход такого сервера из строя - почти невозможное событие. Практически все компоненты в pSeries 670 задублированы, в ОЗУ поддерживается технология Chipkill, при обнаружении сбоя в процессоре система самостоятельно его отключает и т. д. Специальный сервисный процессор собирает статистику автоматически исправленных ошибок, и на ее основе система определяет потенциально неисправные компоненты с тем, чтобы заменить их еще до того, как они выйдут из строя.

Коль скоро вероятность отказа сервера ничтожна, достаточно держать на этот случай резервную машину, в несколько раз менее мощную - и соответственно более дешевую, чем основная, осуществляя синхронизацию с ней средствами СУБД Oracle. Для связи не понадобятся ни ПО HACMP, ни дополнительные сетевые платы, что также позволит сэкономить средства. А чтобы банку не пришлось при аварии слишком долго работать на сервере пониженной мощности, он может заключить с IBM сервисный контракт, предусматривающий устранение любых неисправностей в течение восьми часов. Конечно, такая поддержка стоит немало, но все же значительно меньше, чем второй сервер.

В случае использования Intel-серверов кластерная конфигурация нужнее, поскольку операционная система этих машин (Windows 2000) менее надежна и более склонна к отказам, а значит, выше вероятность незапланированного простоя. К тому же эта конфигурация значительно проще AIX-кластера, и специалисты Digital Machines не видят особого смысла еще ее упрощать.

Подсистемы дисковой памяти и резервного копирования
Во всех вариантах решения, предложенного Digital Machines, непосредственно на серверах устанавливаются только диски с операционной системой (для надежности они зеркалируются), а хранение всех остальных данных возлагается на дисковую подсистему. Подключение к ней серверов может осуществляться как по волоконно-оптическому каналу (Fibre Channel, FC), так и по последовательной шине SSA. Но, поскольку в условии содержится требование о подключении к подсистеме всех серверов центра обработки данных, специалисты Digital Machines решили остановиться на интерфейсе Fibre Channel как более универсальном; кстати, он и дешевле. Для построения сети Fibre Channel потребуется FC-коммутатор. Для отказоустойчивости всю волоконно-оптическую сеть желательно продублировать.

Подсистема, монтируемая в стандартную 19-дюймовую стойку, включает сервер Fast500 и дисковый модуль, в который устанавливается 10 дисков емкостью по 36 Гбайт. Они вполне обеспечат текущие потребности заказчика, а в дальнейшем емкость системы можно будет наращивать, подключая дополнительные дисковые модули. Всего Fast500 способен обслужить до 20 модулей.

В качестве устройства резервного копирования Digital Machines рекомендует ленточную библиотеку Ultrium Tape Library общей емкостью 7,2/14,4 Тбайт, с двумя стриммерами емкостью 100/200 Гбайт (первое число соответствует емкости при записи данных без сжатия, второе - при записи со сжатием). Библиотека включается в ту же FC-сеть, которая связывает серверы с дисковой подсистемой; скорость копирования составляет 15 Мбайт/с для одного стриммера, т. е. в сумме она равна 30 Мбайт/с.

Резервное копирование данных для серверов, входящих в кластер, не требует дополнительного ПО, а вот чтобы организовать централизованное копирование информации со всех имеющихся серверов, такое ПО нужно. Digital Machines рекомендует в данном случае систему IBM Tivoli Storage Manager, компоненты которой устанавливаются на серверах центра обработки данных и обеспечивают централизованное управление хранением данных, а также резервным копированием.

Что касается запрошенного в задаче копирования на диски, то, поскольку речь идет об информации, хранящейся в базе данных, его можно организовать, установив дополнительный сервер; на нем с помощью имеющегося в СУБД Oracle стандартного механизма Standby Copy будет поддерживаться зеркальная копия основной базы. Этот сервер сможет служить резервным в рассмотренном выше варианте без кластера.

Другой способ - воспользоваться средствами самой дисковой подсистемы. Для сервера Fast500 существует дополнительное ПО FlashCopy, позволяющее практически моментально и не мешая работе основных серверов отобразить содержимое логического диска на другие диски стойки. С полученным образом далее можно выполнять любые необходимые операции - резервное копирование на ленту, подготовку выборки для аналитической системы и т. д. FlashCopy решает задачу запрошенного банком копирования данных на диски.

Резервный центр
С точки зрения Digital Machines, задачу построения резервного центра обработки данных следует рассматривать как отдельный проект с собственным, причем довольно внушительным, бюджетом. На деньги, оставшиеся после модернизации основного центра, практически нереально построить резервный, даже на базе одного из отделений банка и в самом минимальном варианте.

Необходимо понимать, что резервный центр - это не просто еще одна копия данных, а большой комплекс организационных и технических мер, который в случае крупной аварии в центральном офисе банка позволит оперативно возобновить его работу в филиале. Для возобновления потребуется перевести в филиал людей, перевезти туда уцелевшую бумажную документацию и сделать многое другое.

Рассмотрим некоторые собственно технические меры. Для поддержания в удаленном офисе копии основной базы данных можно использовать упомянутый выше механизм Standby Copy из СУБД Oracle. Однако удастся ли возобновить работу банка без информации, хранящейся на других серверах, - почтовых баз, различных файлов и др.?

Более полным решением будет географически распределенный кластер: в удаленный офис выносится один из компонентов кластера и к нему подключается такая же дисковая подсистема, как в центральном офисе. Компоненты, как и при обычном размещении, соединяются между собой волоконно-оптическим каналом и каналом Ethernet. Кластер может работать в синхронном или в асинхронном режиме. В первом случае центральная система просто посылает удаленной команды на запись требуемой информации, но не контролирует их выполнение, во втором она ожидает подтверждения того, что данные получены. Из-за необходимости дожидаться ответа производительность кластера снижается на 15-20%, зато такое решение абсолютно надежно.

Этапы модернизации
Специалисты Digital Machines рекомендуют в первую очередь установить и запустить основной кластер и дисковую подсистему, подключив ее только к кластеру. Следующим шагом выполняется подсоединение к центральной системе хранения данных других серверов банка. При этом потребуется закупить специальное оборудование для подключения серверов к FC-каналу (оно будет различным в зависимости от типа компьютера) и ПО Tivoli - пока с дисковой подсистемой работает только центральный кластер, оно не нужно.

На третьем этапе можно начать постепенно строить резервный центр обработки данных, для чего необходимо проложить в филиал волоконно-оптическую линию, закупить вторую систему хранения данных Fast500 для установки в филиале и перенести туда же один из двух компонентов центрального кластера.

Скажем здесь же о судьбе старых серверов. Увы, она незавидна, поскольку обслуживание компьютеров, по мере того как они устаревают, становится все дороже и держать их делается нерентабельно. Пока серверы исправно работают, их, вероятно, удастся использовать для выполнения каких-либо некритичных задач, может быть, для разработки и тестирования ПО (если речь идет, например, об Oracle, различия между операционными системами роли не играют). И все же у большинства клиентов Digital Machines есть проблемы с тем, чтобы найти достойное применение отслужившей технике.

Перенос ПО
Поскольку центр обработки данных банка переводится с Tru64 UNIX на платформу AIX или Windows (в зависимости от выбранного решения), естественно, потребуется перенос ПО. Сотрудники Digital Machines имеют большой опыт решения подобных задач, и данный случай не представляется им чересчур сложным, особенно для AIX, поскольку все UNIX-системы достаточно схожи.

Версии Oracle для разных платформ полностью совместимы, так что все написанные для банка процедуры, триггеры и т. д. заработают как в AIX, так и в Windows, без какой бы то ни было модификации. Если банковская система является приложением Oracle, это справедливо и для нее. Правда, изменения могут понадобиться в связи с переходом на новую версию СУБД (точно так же они понадобились бы и без смены платформы), но компания Oracle разработала стандартную процедуру переноса баз данных между версиями. По опыту сотрудников Digital Machines, перенос базы объемом в 40 Гбайт требует около шести часов работы.

Сотрудники ИТ-отдела банка наверняка пользовались скриптами, написанными на языке одной из командных оболочек, поддерживаемых в Tru64 UNIX. При условии, что их авторы не слишком злоупотребляли специфическими возможностями Tru64, эти скрипты несложно будет модифицировать для AIX. В Windows, где нет своей командной оболочки, от скриптов придется отказаться, а для задач, которые они решали, применять другие средства.

Проектные работы
Ознакомившись с пожеланиями заказчика, специалисты Digital Machines готовят предварительное предложение, после чего встречаются с представителями ИТ-отдела клиента и вместе с ними уточняют параметры будущего проекта. Обычно после одной-двух таких встреч можно уже написать более определенное и конкретное предложение, чтобы затем положить его в основу проекта. Прежде чем будет подписан договор, предложение требуется согласовать с руководителями компании-заказчика, принимающими решения относительно финансовой стороны дела; часто оно при этом еще дополнительно уточняется.

В ряде случаев заказчик хочет ознакомиться, например, с UNIX-сервером, прежде чем его покупать. Для этой цели в Digital Machines и в самой IBM имеются демонстрационные экземпляры оборудования; их можно доставить заказчику и временно установить у него. Нередко на демонстрационный сервер переносятся частично или полностью собственные данные или даже система заказчика, поскольку на одной и той же информации проще оценить выигрыш в производительности.

После заключения договора заказывается оборудование. Для оборудования IBM срок доставки по России составляет около двух месяцев, но при грамотно составленном плане реализации проекта это время не проходит впустую. В данном случае его естественнее всего потратить на перенос ПО, который ИТ-отдел заказчика в зависимости от договора может выполнять как полностью самостоятельно, так и с помощью специалистов Digital Machines на демо-оборудовании.

Серверы pSeries поставляются полностью собранными на заводе IBM с предустановленным на них программным обеспечением. Демонтаж старого оборудования и монтаж нового также может выполняться исключительно силами заказчика или с участием Digital Machines. График подключения существенно зависит от расписания работы банка. Поскольку перенос данных и перевод пользователей на другую платформу - очень ответственное мероприятие, его стараются запланировать на выходные, причем желательно на "длинные" (с присоединением праздничных дней), а все остальные работы подверстываются к этой дате.

Обучение и сопровождение
Поскольку на трех серверах банка (двух файловых и почтовом) используется ОС Windows 2000, в нем заведомо есть специалисты по администрированию Windows-серверов. А вот для AIX может потребоваться обучение. Сотрудники Digital Machines советуют обратить внимание на курс "AIX для администраторов UNIX", который читают в IBM. Он продолжается неделю и рассчитан на специалистов, знакомых с другими версиями UNIX.

Обслуживание серверов линейки pSeries имеет право осуществлять только сама корпорация IBM, так что заказчик должен будет заключить договор непосредственно с ней. Все остальное оборудование может быть обслужено также в авторизованном IBM сервисном центре Digital Machines. Минимальный срок гарантии на оборудование IBM составляет один год, и его можно как периодически продлевать, так и сразу установить в договоре равным трем или пяти годам. Существуют, кроме того, специальные, более дорогие контракты IBM, гарантирующие восстановление работоспособности системы в заданное время: например, упомянутый выше контракт, который предусматривает устранение неисправностей в течение восьми часов с момента обращения (естественно, 24 часа в сутки и 365 дней в году), стоит вдвое дороже базового. Заметим, что поддержка серверов ориентирована на устранение неисправностей до отказа: IBM по собственной инициативе заменяет компоненты, если мониторинг показывает, что они могут вскоре выйти из строя.

сетевой форум
поиск
подписка на журнал
о сетевом