Observability & Monitoring 2026 - se vad som händer i ditt system
Från enkel uppetidsövervakning till full observability med loggar, metriker och traces. En komplett guide för team som vill förstå sina system på djupet.
Monitoring vs Observability
De två begreppen används ofta omväxlande, men de beskriver fundamentalt olika saker. Att förstå skillnaden är nyckeln till att bygga rätt system.
Monitoring
Svarar på kända frågor: "Är servern uppe?", "Hur mycket CPU används?". Du definierar i förväg vad du vill mäta och får larm när tröskelvärden överskridits.
Reaktivt - du vet vad du letar efter
Observability
Svarar på okända frågor: "Varför är det långt just nu?", "Vad orsakade felet för just den här användaren?". Du kan utforska systemets tillstånd fritt utan att ha förutsett problemet.
Proaktivt - du kan utforska det okända
De tre pelarna
Modern observability vilar på tre datakällor som tillsammans ger en komplett bild av systemets tillstånd.
Loggar
Textuella händelser från applikationer och infrastruktur. Strukturerade loggar (JSON) är sökbara och parserbara. Ostrukturerade loggar är svåra att analysera i skala.
Verktyg: Grafana Loki, Elasticsearch, Datadog Logs
Tips: Logga alltid med correlation ID (trace_id) för att kunna följa en request genom hela systemet.
Metriker
Numeriska mätningar över tid: CPU, minne, request rate, error rate, latency. Kompakta, effektiva att lagra, perfekta för dashboards och alerting.
Verktyg: Prometheus, Grafana, Datadog, CloudWatch
Tips: RED-metoden för tjänster: Rate, Errors, Duration. USE-metoden för infra: Utilization, Saturation, Errors.
Traces
Följer en request genom alla tjänster den passerar. Visar exakt var tid spenderas och var fel uppstår i distribuerade system.
Verktyg: Jaeger, Tempo, Datadog APM, Honeycomb
Tips: Börja med auto-instrumentation (OpenTelemetry SDK). Lägg till custom spans för affärslogik.
OpenTelemetry - standarden för instrumentering
OpenTelemetry (OTel) är CNCF-standarden för att samla in loggar, metriker och traces. Istället för att vara inlåst i en vendor instrumenterar du med OTel och skickar data till valfri backend.
OTel-arkitektur
- SDK: Instrumentera din app (auto + manuellt). Finns för alla språk.
- Collector: Tar emot, processar och exporterar telemetridata. Körs som sidecar eller centralt.
- Backend: Valfri - Datadog, Grafana Cloud, Honeycomb, New Relic. Byt utan att ändra appkoden.
- OTLP: Standardprotokoll för transport. Alla moderna verktyg stöder det.
Verktygslandskapet
| Verktyg | Typ | Bäst för | Pris |
|---|---|---|---|
| Datadog | All-in-one | Team som vill ha allt i en plattform. Bäst APM och dashboards. | Fr. $15/host/mo |
| Grafana Stack | Open source + Cloud | Team som vill ha kontroll och låg kostnad. Loki + Mimir + Tempo. | Gratis self-host / Cloud fr. $0 |
| New Relic | All-in-one | Generöst gratis tier (100GB/mo). Bra för startups. | Fr. gratis |
| Sentry | Error tracking | Frontend och backend error tracking. Source maps, replay. | Fr. gratis |
| Better Uptime | Uptime monitoring | Enkel uppetidsövervakning med status pages. Europeisk. | Fr. gratis |
Alerting-filosofi
Dåliga alerts är värre än inga alerts. Alert fatigue leder till att riktiga problem ignoreras. Här är principerna för alerting som faktiskt fungerar.
Principer
- Alerta på symptom, inte orsak. "Error rate över 5%" istället för "CPU över 80%". Symptom-alerts kopplar till användarpåverkan.
- SLO-baserad alerting. Definiera Service Level Objectives (99.9% availability, p95 latency <200ms). Alerta när error budget bränns för snabbt.
- Varje alert ska vara actionable. Om mottagaren inte kan göra något åt det - ta bort alertet. Informational data hör hemma i dashboards.
- Runbooks för varje alert. Länka till runbook i varje alert-notifikation. Minskar MTTR drastiskt, speciellt nattetid.
Implementationsroadmap - 4 faser
Fas 1: Grundläggande monitoring (Vecka 1-4)
- Uppetidsövervakning för alla externa tjänster (Better Uptime / Pingdom)
- Centraliserad loggning (Loki eller Datadog Logs)
- Grundläggande infra-metriker (CPU, minne, disk)
- Sentry för error tracking i frontend och backend
- Status page för kunder
Fas 2: APM & Traces (Vecka 5-8)
- OpenTelemetry SDK i alla tjänster
- Distributed tracing för request-flow
- Request latency dashboards (p50, p95, p99)
- Database query performance monitoring
Fas 3: SLO & Alerting (Vecka 9-12)
- Definiera SLO:er för alla kundvänliga tjänster
- Error budget tracking och burn rate alerts
- Runbooks för alla kritiska alerts
- On-call rotation med PagerDuty/Opsgenie
Fas 4: Proaktiv observability (Vecka 13+)
- Anomaly detection på nyckelmetriker
- Business metrics i observability-plattformen
- Chaos engineering (Gremlin / Litmus)
- Quarterly game days för incident response
Vanliga frågor
Datadog eller Grafana Stack?
Datadog om du vill ha allt i en plattform och har budget. Grafana Stack om du vill ha kontroll, låg kostnad och är beredd att själv hosta. För svenska startups är Grafana Cloud ofta bäst - generöst gratis tier.
Behöver vi OpenTelemetry?
Ja, för alla nya projekt. Det är CNCF-standard, vendor-agnostiskt och framtidssäkert. Auto-instrumentation ger 80% av värdet med minimal ansträngning.
Hur många dashboards behöver vi?
Börja med 3: ett för infra-överblick, ett per tjänst/team, ett för SLO:er. För många dashboards leder till att ingen tittar på något.
Vad kostar det?
Grafana Cloud: gratis för små team. Datadog: $15-50/host/mo beroende på features. Sentry: gratis tier räcker för de flesta startups. New Relic: 100GB/mo gratis.
Simon Axelsson
Grundare, SIAX Technology AB
Driver monitoring för 50+ anställda och flera produktionssystem. Praktisk erfarenhet av Grafana, Datadog, Sentry och PagerDuty.