Prometheus و Grafana و Loki و OpenTelemetry

الهدف من الدرس

ستفهم أدوار Prometheus و Grafana و Loki و OpenTelemetry، وكيف تربطها بمؤشرات Production مثل latency و error rate و saturation.

الفكرة ببساطة

Observability تجيب عن: ماذا يحدث؟ لماذا يحدث؟ من تأثر؟ وهل نحتاج rollback؟

stack عملي

flowchart LR
  App[Application] --> Metrics[Prometheus]
  App --> Logs[Loki]
  App --> Traces[OpenTelemetry Collector]
  Metrics --> Grafana[Grafana]
  Logs --> Grafana
  Traces --> Grafana
  Metrics --> Alertmanager[Alertmanager]

تثبيت kube-prometheus-stack

helm repo add prometheus-community https://prometheus-community.github.io/helm-charts
helm repo update
helm upgrade --install monitoring prometheus-community/kube-prometheus-stack \
  --namespace monitoring --create-namespace
kubectl -n monitoring get pods

Expected output:

monitoring-grafana-...        3/3   Running
monitoring-kube-prometheus... 1/1   Running
monitoring-prometheus...      2/2   Running

مؤشرات مهمة

المؤشر	لماذا يهم؟
Request rate	حجم traffic
Error rate	نسبة الفشل
Duration p95/p99	تجربة المستخدم
CPU/Memory	ضغط الموارد
Restarts	استقرار Pods

مثال ServiceMonitor

apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:
  name: web
  labels:
    release: monitoring
spec:
  selector:
    matchLabels:
      app: web
  endpoints:
    - port: metrics
      path: /metrics
      interval: 30s

Lab: تشغيل monitoring stack محلي

المستوى: مبتدئ الوقت: 45 دقيقة الأدوات: helm, kubectl

الهدف: تثبيت kube-prometheus-stack وفحص Pods وفتح Grafana.

Prerequisites

Helm مثبت.
Cluster محلي بموارد كافية.

Steps

helm repo add prometheus-community https://prometheus-community.github.io/helm-charts
helm repo update
helm upgrade --install monitoring prometheus-community/kube-prometheus-stack --namespace monitoring --create-namespace
kubectl -n monitoring get pods
kubectl -n monitoring port-forward svc/monitoring-grafana 3000:80

Expected output

Forwarding from 127.0.0.1:3000 -> 3000

Cleanup

helm uninstall monitoring -n monitoring
kubectl delete namespace monitoring

أخطاء شائعة

الخطأ	الحل
alerts كثيرة بلا action	اجعل كل alert مرتبطا بإجراء واضح
logs فقط بدون metrics	لن تعرف التأثير الكلي
metrics بلا labels جيدة	صعب فصل services والبيئات