Scalability Meetup #11


Details
Месяц SRE в Scalability Camp!
В программе доклады про инфрастурктуру Skyeng и Nvidia, а также — гость из Санк-Петербурга, организатор Go и SRE митапов https://www.meetup.com/SPb-Reliability-Meetup.
Если вам не хватает хардкора на IT-конференциях, приходите к нам! Всем привет! https://t.me/scalability_camp
===================================================================
- Инфраструктура компании как продукт
Артём Науменко, руководитель DevOps @ Skyeng
Как в Skyeng строят инфраструктуру, и как это влияет на работу бизнеса. Реальные кейсы из практики.
- Можно ли рассматривать инфраструктуру как продукт?
- Можно и нужно ли считать ROI для инфраструктуры?
- Какие ключевые метрики выбрать для подсчета?
- Как работать над улучшением выбранных метрик?
===================================================================
2. Балансировка кластера Kafka как задача линейного программирования
Виталий Добровольский, системный инженер @ NVIDIA
Виталий поддерживает и развивает инфраструктуру по сбору и анализу метрик в Nvidia. В своем докладе он расскажет, как он готовил кафку, чтобы достичь равномерной нагрузки на кластер, переместив минимальное количество партиций с брокера на брокер.
===================================================================
3. Балансировка запросов, таймауты и обработка ошибок: сколько запросов мы потеряем, и как с этим жить
Виталий Левченко, лидер SRE-сообщества Санкт-Петербурга
Итак, у вас есть дерево микросервисов с кучей баз, и вам важна работа состоящего из них сервиса. Вы знаете, сколько запросов вы потеряете, если одна из нод начнёт перестанет отвечать? Сколько отвалится с клиентским таймаутом, сколько с серверным, сколько с 500-ыми? А если нода будет просто тормозить? А если — сеть?
В докладе рассмотрим, что с этим можно сделать: таймауты со всех сторон, редиректы ошибочных запросов, хелсчеки, аварийный режим — и почему все эти методы не работают в общем случае. Рассмотрим разные промышленные решения: nginx, envoy, traefik — и почему приходится писать собственное решение.
В качестве бонуса — как это всё мониторить, чтобы не было мучительно больно искать реальные причины проблем.
===================================================================
SRE в современной компании @ Круглый стол с DevOps Deflope
Ведущие подкаста обсудят со спикерами вопросы: когда такой человек нужен, выносить ли их в отдельный отдел, круг их обязаностей и компетенций, растут ли они с компанией и т.д. Обсуждение начнется в зале, а продолжится в одном из ближайших баров)

Scalability Meetup #11