Управление авариями в большом интернет-проекте

Хорошо, что аварии случаются! Звучит странно, но если уточнить, что речь идет про тестовые аварии, устраиваемые на постоянной основе, то это один из примеров того, как можно научиться авариями управлять.

Отказ железного компонента для нас является стандартным событием, происходящим по нескольку раз за день, но вот потеря датацентра по питанию или отказ корневого сетевого устройства — это всегда возможность получить полезную информацию и сделать определенные выводы.

Андрей подробно расскажет о самой крупной технической аварии в Рунете от первого лица и о том, как они научились управлять авариями.

Скачать презентацию.

Андрей Губа

Андрей закончил Высшую школу бизнеса, искусств и технологий RISEBA в Риге. В течение семи лет работал системным администратором в Lattelecom Technology — одной из первых IT-компаний Прибалтики. В компании Андрей предложил и запустил коммерческий сервис предоставления виртуальных серверов.

В 2008 году Андрей присоединился в качестве ведущего системного администратора к команде крупной латвийской социальной сети ONE.LV.

В 2010 году перешел ведущим системным администратором в Одноклассники. Сейчас в должности СТО отвечает за разработку, включая обеспечение технологиями и формирование команды разработчиков, и за эксплуатацию. Андрей участвовал во всех серьезных технических проектах Одноклассников. Он — эксперт в администрировании высоконагруженных отказоустойчивых систем.

Андрей Губа
Андрей Губа Одноклассники

CTO
Эксперт по эксплуатации решений