Компания «Инфосистемы Джет» построила ИТ-платформу высокой готовности для «Фольксваген Груп Рус»: создан распределенный виртуализованный ЦОД, реализована многоуровневая защита данных для сервисов разной степени критичности, детально проработаны процедуры аварийного восстановления. ИТ-комплекс обеспечивает стабильную работу основных производственных систем компании. Гарантированное время возобновления работы при сбоях составляет не более 40 минут – период автономной работы заводского конвейера.
«Фольксваген Груп Рус» выпускает автомобили 337 дней в году, 21 час в день. Каждые 2 минуты с конвейера сходит 1 автомобиль. Такой плотный производственный цикл предъявляет повышенные требования к надежности ИТ-комплекса и уровню его обслуживания. Ранее многие системы функционировали без резервирования и встроенных механизмов защиты. Для предотвращения возможных простоев систем в случае аварийных ситуаций был запущен комплексный проект по созданию инфраструктуры высокой доступности, исполнителем которого стала компания «Инфосистемы Джет».
Провести миграцию основных производственных систем на новую ИТ-инфраструктуру можно было только в период заводского отпуска, до которого с момента старта проекта оставалось всего 2,5 месяца. В эти рекордные сроки на базе двух ЦОД была создана и протестирована отказоустойчивая вычислительная платформа, включающая виртуальные фермы, кластеры баз данных, сети хранения и систему резервного копирования.
Следующей задачей стала проработка комплексной системы защиты данных от программных и аппаратных сбоев. В полном варианте она включает периодическое резервное копирование, непрерывное журналирование изменений данных на дисковых массивах (для возможности восстанавливать данные на любой момент времени) и зеркалирование между площадками, а также репликацию виртуальных машин. Однако механизмы защиты для любой системы можно подбирать индивидуально – в зависимости от ее бизнес-критичности. Это оптимизирует затраты на создание, масштабирование и эксплуатацию ИТ-инфраструктуры и обеспечивает необходимый уровень обслуживания по каждому из 75 прикладных сервисов компании.
Для эффективного управления взаимодействием аутсорсеров, отвечающих за различные участки инфраструктуры, детально проработаны и протестированы процедуры аварийного восстановления. Выделены 16 типовых чрезвычайных ситуаций, по каждой из которых разработаны подробные инструкции с описанием методов диагностики и устранения сбоев в установленные сроки.
Развернут комплекс по мониторингу, включающий системы мониторинга СХД, виртуальных машин и сетевой инфраструктуры. В дополнение разработана система анализа состояния ключевых технологических блоков на соответствие базовым показателям. Данное решение выявляет тренды развития ИТ-ландшафта: нехватку или избыток ресурсов, производительность отдельных компонентов и инфраструктуры в целом, исправность оборудования, работоспособность системного ПО и СУБД и др. Таким образом, не только сокращается время простоев (благодаря быстрому обнаружению и диагностике возникающих неисправностей), но и в целом значительно уменьшается число сбоев за счет проактивного обслуживания ИТ-инфраструктуры.
«В данном проекте мы создавали не инфраструктуру под конкретные приложения, а единую платформу для обеспечения отказоустойчивости любых размещенных на ней ИТ-сервисов, – комментирует главный архитектор проекта Вячеслав Медведев, компания ”Инфосистемы Джет”. – Применяемые технологии, а также разработанные стандарты развития и обслуживания ИТ-комплекса позволяют быстро трансформировать его под запросы бизнеса: менять уровень отказоустойчивости приложений, наращивать мощности под внедряемые системы. На внедрение новых ИТ-сервисов теперь требуется около недели (тогда как раньше – порядка полугода)».