Skip to content

Scalability Meetup #11

Photo of Zlata
Hosted By
Zlata
Scalability Meetup #11

Details

Месяц SRE в Scalability Camp!
В программе доклады про инфрастурктуру Skyeng и Nvidia, а также — гость из Санк-Петербурга, организатор Go и SRE митапов https://www.meetup.com/SPb-Reliability-Meetup.

Если вам не хватает хардкора на IT-конференциях, приходите к нам! Всем привет! https://t.me/scalability_camp

===================================================================

  1. Инфраструктура компании как продукт
    Артём Науменко, руководитель DevOps @ Skyeng

Как в Skyeng строят инфраструктуру, и как это влияет на работу бизнеса. Реальные кейсы из практики.

  • Можно ли рассматривать инфраструктуру как продукт?
  • Можно и нужно ли считать ROI для инфраструктуры?
  • Какие ключевые метрики выбрать для подсчета?
  • Как работать над улучшением выбранных метрик?

===================================================================
2. Балансировка кластера Kafka как задача линейного программирования
Виталий Добровольский, системный инженер @ NVIDIA

Виталий поддерживает и развивает инфраструктуру по сбору и анализу метрик в Nvidia. В своем докладе он расскажет, как он готовил кафку, чтобы достичь равномерной нагрузки на кластер, переместив минимальное количество партиций с брокера на брокер.

===================================================================
3. Балансировка запросов, таймауты и обработка ошибок: сколько запросов мы потеряем, и как с этим жить
Виталий Левченко, лидер SRE-сообщества Санкт-Петербурга

Итак, у вас есть дерево микросервисов с кучей баз, и вам важна работа состоящего из них сервиса. Вы знаете, сколько запросов вы потеряете, если одна из нод начнёт перестанет отвечать? Сколько отвалится с клиентским таймаутом, сколько с серверным, сколько с 500-ыми? А если нода будет просто тормозить? А если — сеть?

В докладе рассмотрим, что с этим можно сделать: таймауты со всех сторон, редиректы ошибочных запросов, хелсчеки, аварийный режим — и почему все эти методы не работают в общем случае. Рассмотрим разные промышленные решения: nginx, envoy, traefik — и почему приходится писать собственное решение.

В качестве бонуса — как это всё мониторить, чтобы не было мучительно больно искать реальные причины проблем.

===================================================================
SRE в современной компании @ Круглый стол с DevOps Deflope

Ведущие подкаста обсудят со спикерами вопросы: когда такой человек нужен, выносить ли их в отдельный отдел, круг их обязаностей и компетенций, растут ли они с компанией и т.д. Обсуждение начнется в зале, а продолжится в одном из ближайших баров)

Photo of Scalability Camp group
Scalability Camp
See more events
Skyeng: online English school
Ulitsa Aleksandra Solzhenitsyna, 23а, строение 1 · Moskva