Надежность в распределенных системах

Одноклассники — это одна из самых больших, сложных и нагруженных распределенных систем в мире. Тысячи серверов участвуют в обработке запросов пользователей в реальном времени. Каждый из этих серверов владеет только частью данных или логики. Эти части в социальной сети изолировать друг от друга невозможно, поэтому между серверами происходит много сетевого взаимодействия, разнообразного и большого по объему.

В распределенной системе такого размера что-то постоянно тупит и отказывает. Как же построить систему так, чтобы, несмотря на постоянные сбои, все продолжало работать? Что делать с полными и частичными отказами?

Что такое идемпотентность и спекуляция? Что нужно предусмотреть на случай неработоспособности целой подсистемы или «главной» БД? Как организовать надежное препродакшн-тестирование и выкатку релизов?

Вопросов в таких системах всегда много. Приходите, и мы расскажем ответы Одноклассников на эти вопросы.

Скачать презентацию.

Начал карьеру программиста в далеком 1995 году. Разрабатывал ПО в банковской сфере, телекоме, транспорте. Работает главным инженером в Одноклассниках. В его обязанности входит разработка архитектур и решений для высоконагруженных систем, больших хранилищ данных, решение проблем производительности и надежности портала.

Олег Анастасьев Одноклассники

Все доклады