Site Reliability Engineer (SRE)

Гарда Технологии
Нижний Новгород Опыт работы от 3 лет Постоянная занятость Полный день
Поделиться

Описание

Чем предстоит заниматься:

  • обеспечение надежности и доступности приватного облака и ключевых сервисов в двух ЦОД на основе SLO/SLI, error budget;
  • эксплуатация и развитие облачной платформы с акцентом на отказоустойчивость, предсказуемость поведения и скорость восстановления;
  • проектирование и развитие наблюдаемости: метрики, логи, трейсы; определение SLI/SLO, настройка алертинга, борьба с шумом, создание эксплуатационных дашбордов;
  • участие в on call (2nd/3rd line): разбор инцидентов, локализация проблем в платформе и сервисах, координация действий с DevOps и сетевой командой, подготовка и проведение postmortem, реализация предотвращающих мер;
  • планирование устойчивости и отказоустойчивости: сценарии отказов между двумя ЦОД, определение RTO/RPO, подготовка и регулярная проверка DR плана;
  • планирование емкости и производительности: анализ трендов нагрузки, выявление bottleneck ов, подготовка рекомендаций по масштабированию, квотированию и оптимизации использования ресурсов;
  • автоматизация эксплуатационных операций в парадигме IaC: создание и сопровождение модулей Terraform/Ansible и утилит на Python/Go/Bash для диагностики, self healing, health checks, ротаций, housekeeping и типовых изменений;
  • участие в архитектурных ревью сервисов (со стороны надежности): требования к readiness/liveness пробам, ретраям, timeouts, деградации, feature flags, идемпотентности операций;
  • совместная работа с DevOps по улучшению релизных практик: стратегии rollout/rollback (canary, blue green), проверки на этапах пайплайна, требования к артефактам и манифестам с точки зрения эксплуатации;
  • совместная работа с сетевыми специалистами: формулирование требований к отказоустойчивости и наблюдаемости сети, участие в тестах отказов и анализе сетевых инцидентов;
  • ведение эксплуатационной документации и базы знаний: ранбуки, инструкции для on call, схемы взаимодействия сервисов, чек листы для релизов и крупных изменений.

Наши ожидания от кандидата:

  • опыт в роли SRE / инженера эксплуатации / DevOps в production средах с критичными сервисами и участием в on call;
  • практический опыт работы с приватными или публичными облаками (желательно Selectel / VK Cloud / K2 Cloud или аналогичные), понимание типовых сервисов IaaS/PaaS;
  • уверенный Linux/Unix: диагностика проблем (CPU, память, диски, сеть на уровне хоста), работа с системными логами и инструментами трейсинга/профилирования;
  • понимание принципов надежных распределённых систем: кворумы, консистентность, ретраи с backoff, circuit breaker, кэширование, очереди, лимитирование и управление приоритетами;
  • опыт эксплуатации Kubernetes или иных систем оркестрации и/или IaaS платформ: понимание типичных failure mode ов кластера и приложений, умение читать и разбирать манифесты;
  • уверенные навыки скриптинга (Python или Go, возможно Bash) для автоматизации эксплуатационных задач и интеграции с API облаков, систем мониторинга и CMDB;
  • практический опыт построения мониторинга и логирования (Prometheus/Zabbix, Grafana, ELK/Loki/аналогичные) с упором на SLO ориентированный алертинг;
  • опыт применения Infrastructure as Code: Terraform, Ansible или аналогичные инструменты, ведение инфраструктуры в Git, code review инфраструктурного кода, понимание GitOps подхода.

Будет плюсом:

  • опыт работы с managed сервисами российских облаков: Kubernetes, базы данных, очереди/шины сообщений, object storage, балансировщики;
  • опыт в высоконагруженных и/или высокорегулируемых доменах (финансы, корпоративный сектор, gov), понимание требований к SLA, безопасности и аудиту;
  • знакомство с практиками DevSecOps: управление секретами, сканирование образов и IaC, безопасные пайплайны;
  • готовность разделять ответственность за надежность платформы и дежурства с другим SRE, участвовать в построении процессов on call;
  • системное мышление и ориентация на данные: опора на метрики, логи, эксперименты и результаты postmortem, а не на интуицию и ручные решения;
  • умение ясно и структурированно коммуницировать с разработчиками, DevOps, сетевыми инженерами и менеджментом, формулировать понятные требования и аргументировать решения;
  • прагматичный подход: умение балансировать между идеальной надежностью, реальными SLO, error budget и ресурсами команды.
23 часа назад Источник: hh.ru
Обращаем Ваше внимание, что вакансия взята с внешнего источника hh.ru. Администрация сайта не несет ответственность за ее содержание.
Рекомендуемые вакансии
  • Т-Банк
  • Нижний Новгород
Требуется Site Reliability Engineer (SRE) / Software Engineer. Т-Банк это амбициозные ИТ-проекты и высоконагруженные системы: от мобильного банка и облачного колл-центра до инвестиционных площадок и ML-продуктов. Наша пользовательская аудитория более 36 ...
11.02.2026; Источник: hh.ru
от 88 000 Р до 175 000 Р
  • Negotiations Expert
  • Нижний Новгород
Работа Playwright QA Automation Engineer. Бланк заявления вы найдете в конце документа. We are seeking an experienced QA Automation Engineer for our browser-based business game. Enjoy the flexibility of working from home or wherever ...
20.02.2026; Источник: hh.ru
от 88 000 Р до 175 000 Р
  • СтратоСфера
  • Нижний Новгород
Требуется Тестировщик ПО (Middle)/QA Engineer. Компания Стратосфера в связи с устойчивым ростом бизнеса приглашает на работу Тестировщика ПО (Middle) / QA Engineer. Работа над федеральными проектами, в том числе в финансовом секторе у ...
19.02.2026; Источник: hh.ru