Мы привыкли думать, что SLA — это цифры. Проценты доступности, латентность, среднее время отклика. Но реальность сложнее. Особенно когда твоя платформа — это фундамент для чужих продуктов, а не конечная услуга.
В начале мы пытались делали, как все: измерять доступность и отклик. Клиенты требовали цифр, и мы давали, но в силу того. как устроена реальность — цифры эти показывали погоду на Марсе, и на самом деле не давали клиентам ничего. Приложения падали из-за внешних факторов — сети, виртуализации, архитектурных решений клиентов. Но страдали мы: "Ваш SLA нарушен!"
Мы пытались исправить это: выдумывали новые метрики, отделяли свою зону ответственности от чужой, искали показатели, которые точно отражали бы нашу работу. Но всё равно оставалось ощущение, что мы просто играем в математику, не решая корневую проблему.
Прорыв случился, когда мы задали себе ключевой вопрос:
а что мы на самом деле даём клиенту?Мы не продукт. Мы — платформа. И наша задача — не просто "держать доступность", а обеспечивать предсказуемость, стабильность, управляемость среды. Мы перестроили подход: вместо того, чтобы оправдываться за чужие сбои, мы внедрили метрики, которые реально влияли на надёжность.
Так появился манифест уровня обслуживания — не просто документ, а система принципов, описывающая:
- Как мы взаимодействуем с зависимостями (инфраструктура, сеть, виртуализация).
- Как строятся процессы расследования инцидентов.
- Как SLI превращаются в инструмент выявления проблем, а не повод для штрафов.
SLA — это не просто цифры. Это способность влиять, разбираться в причинах, предлагать решения. Я отказался от формального соответствия и сделал SLA инструментом, который помогает бизнесу работать лучше.