/ Çözümler

HPC Gözlemlenebilirlik (Observability)

HPC cluster gözlemlenebilirlik stack: Prometheus, Grafana, DCGM Exporter, SLURM Exporter ve Alertmanager kurulumu ve yapılandırması.

HPC Gözlemlenebilirlik Nedir?

HPC gözlemlenebilirliği, bir yüksek performanslı hesaplama altyapısının anlık ve tarihsel durumunu bütünüyle görebilme kapasitesidir. Metrikler (CPU/GPU kullanımı, bellek, ağ, sıcaklık), loglar (iş zamanlayıcısı çıktıları, hata mesajları) ve izler (iş yükü yürütme akışları) olmak üzere üç temel veri türü, tek bir gözlemlenebilirlik platformunda bir araya getirilir.

Klasik sistem izleme “bir şey bozuldu mu?” sorusunu yanıtlarken, gözlemlenebilirlik “neden bozuldu ve bu durum sistemi nasıl etkiliyor?” sorularına da cevap verir. Yüzlerce node, binlerce işin eş zamanlı çalıştığı HPC ortamlarında bu ayrım kritik önem taşır: Bir düğümün GPU kullanımının beklenmedik biçimde düştüğünü yalnızca izleyen değil, bunun hangi işi etkilediğini, hangi sürücü veya ağ hatasının tetiklediğini de anlayan bir sisteme ihtiyaç vardır.

Neden HPC Ortamlarında Gözlemlenebilirlik Gereklidir?

Kaynak Verimliliği ve Maliyet Kontrolü

GPU ve CPU node’ları yüksek yatırım maliyeti taşır. Boş kalan ya da düşük verimde çalışan kaynak, doğrudan gelir kaybıdır. Gözlemlenebilirlik altyapısı, hangi kullanıcının veya projenin ne kadar kaynak tükettiğini, hangi node’ların neden atıl kaldığını ve potansiyel darboğazların nerede oluştuğunu görünür kılar.

Proaktif Arıza Yönetimi

Saatler ya da günler süren HPC işleri, çalışma ortasında yaşanan bir donanım arızasına son derece duyarlıdır. Sıcaklık eşiği aşımları, ECC bellek hataları veya ağ paket kayıpları önceden tespit edilip uyarı üretildiğinde, iş yükleri farklı node’lara zamanında taşınabilir; daha uzun kesintilerin önüne geçilir.

SLA ve Kapasite Planlaması

Araştırma kurumları ve ticari HPC hizmet sağlayıcıları, kullanıcılarına belirli kaynak garantileri taahhüt eder. Tarihsel metrikler, iş tamamlanma süreleri ve kaynak kullanım raporları hem SLA uyumluluğunu kanıtlamak hem de önümüzdeki dönem için kapasite planlaması yapmak açısından vazgeçilmezdir.

Gözlemlenebilirlik Yığını: Bileşenler ve Roller

Mevasis’in HPC observability çözümü, endüstri standardı açık kaynak bileşenlerinden oluşur ve şu mimariyi izler:

┌─────────────────────────────────────────────────────────────┐
│                        Veri Toplama Katmanı                 │
│                                                             │
│  [DCGM Exporter]   [SLURM Exporter]   [Node Exporter]      │
│   GPU metrikleri    İş istatistikleri  Sistem metrikleri    │
│        │                  │                  │              │
└────────┼──────────────────┼──────────────────┼─────────────┘
         │                  │                  │
         └──────────────────┼──────────────────┘
                            ▼
                     [Prometheus]
                   (Metrik depolama
                   ve sorgulama)
                            │
              ┌─────────────┴──────────────┐
              ▼                            ▼
          [Grafana]                 [Alertmanager]
      (Dashboard ve               (Uyarı yönlendirme:
       görselleştirme)             e-posta, Slack,
                                   PagerDuty vb.)

Aşağıdaki tablo her bileşenin rolünü ve tipik yapılandırma parametrelerini özetler:

BileşenRolTipik Scrape Aralığı
DCGM ExporterGPU kullanımı, bellek, sıcaklık, güç, ECC hataları10 saniye
SLURM ExporterKuyruk derinliği, iş durumu, node durumu, kaynak tahsisi30 saniye
Node ExporterCPU, RAM, disk, ağ, sistem çağrıları15 saniye
PrometheusTüm exporter’lardan metrik toplama ve zaman serisi depolama
GrafanaEtkileşimli dashboard, uyarı görselleştirme
AlertmanagerUyarı birleştirme, susturma, yönlendirme

Örnek Prometheus Yapılandırması

# prometheus.yml — temel HPC scrape yapılandırması
global:
  scrape_interval: 15s
  evaluation_interval: 15s

alerting:
  alertmanagers:
    - static_configs:
        - targets: ["alertmanager:9093"]

rule_files:
  - "rules/gpu_alerts.yml"
  - "rules/slurm_alerts.yml"
  - "rules/node_alerts.yml"

scrape_configs:
  - job_name: "dcgm"
    static_configs:
      - targets:
          - "gpu-node-01:9400"
          - "gpu-node-02:9400"
          - "gpu-node-03:9400"

  - job_name: "slurm"
    static_configs:
      - targets: ["slurm-master:8080"]

  - job_name: "node"
    static_configs:
      - targets:
          - "gpu-node-01:9100"
          - "gpu-node-02:9100"
          - "login-node:9100"

Kritik Uyarı Kuralları

Etkili bir gözlemlenebilirlik sistemi yalnızca metrik toplamaz; anlamlı eşikler aşıldığında ilgili kişiyi zamanında uyarır. Mevasis kurulumlarında aşağıdaki uyarı kategorileri standart olarak yapılandırılır:

GPU Sağlık Uyarıları

# rules/gpu_alerts.yml
groups:
  - name: gpu_health
    rules:
      - alert: GPUSicaklikYuksek
        expr: DCGM_FI_DEV_GPU_TEMP > 85
        for: 5m
        labels:
          severity: warning
        annotations:
          summary: "GPU sıcaklığı kritik eşiği aştı ({{ $value }}°C)"

      - alert: GPUBellekDolmakUzere
        expr: DCGM_FI_DEV_FB_USED / DCGM_FI_DEV_FB_TOTAL > 0.95
        for: 2m
        labels:
          severity: critical
        annotations:
          summary: "GPU belleği %95 doluluk oranını aştı"

      - alert: ECCHatasıAlgılandi
        expr: increase(DCGM_FI_DEV_ECC_DBE_VOL_TOTAL[10m]) > 0
        for: 0m
        labels:
          severity: critical
        annotations:
          summary: "Düzeltilemez ECC bellek hatası tespit edildi"

SLURM Kuyruk Uyarıları

      - alert: KuyrukDerinligiYuksek
        expr: slurm_queue_pending > 50
        for: 15m
        labels:
          severity: warning
        annotations:
          summary: "SLURM kuyruğunda {{ $value }} iş bekliyor"

      - alert: NodeUzunSureBoşta
        expr: slurm_node_state{state="idle"} == 1
          and on(node) slurm_node_state offset 2h{state="idle"} == 1
        for: 0m
        labels:
          severity: info
        annotations:
          summary: "Node 2 saatten fazladır boşta"

Grafana Dashboard Yapısı

Mevasis, her kurulumda dört temel dashboard grubu oluşturur:

Cluster Genel Bakış: Tüm node’ların GPU/CPU kullanım ısı haritası, toplam kaynak tahsis oranı, etkin iş sayısı ve anlık güç tüketimi. Yöneticilerin günlük operasyonel durumu saniyeler içinde kavramasını sağlar.

GPU Detay Dashboard: Node başına GPU metrikleri; sıcaklık trendi, bellek bant genişliği kullanımı, NVLink/PCIe trafik oranları ve ECC hata geçmişi. Performans sorunlarını node ve GPU çipine kadar daraltır.

SLURM İş Analizi: Kullanıcı ve proje bazında kaynak tüketim raporları, iş tamamlanma süreleri dağılımı, bekleyen kuyruk analizi ve verimsiz iş tahsislerinin tespiti.

Ağ ve Depolama: InfiniBand veya Ethernet ağ bant genişliği kullanımı, paralel dosya sistemi (BeeGFS/Lustre) okuma-yazma performansı ve gecikme trendi.

Mevasis’in Uygulama Yöntemi

1. Mevcut Altyapı Analizi

Proje başlangıcında cluster bileşenleri, işletim sistemi sürümleri, SLURM kurulumu ve mevcut izleme araçları detaylı biçimde incelenir. Bu analiz, hangi exporter’ların kurulacağını, Prometheus retention süresini ve Grafana dashboard önceliklerini belirler.

2. Exporter Kurulum ve Yapılandırması

DCGM Exporter, NVIDIA sürücü sürümüyle uyumlu biçimde her GPU node’una dağıtılır. SLURM Exporter, zamanlayıcı ana düğümüne kurularak iş durumu verilerini düzenli aralıklarla toplar. Node Exporter ise tüm node’lara standart otomasyon araçlarıyla (Ansible veya benzeri) dağıtılır.

3. Prometheus ve Alertmanager Yapılandırması

Scrape aralıkları, node sayısına ve disk kapasitesine göre optimize edilir. Retention süresi ve depolama boyutu hesaplanır. Kuruma özgü uyarı eşikleri belirlenerek Alertmanager, mevcut bildirim kanallarıyla (e-posta, Slack, PagerDuty) entegre edilir.

4. Özel Dashboard Geliştirme

Standart Grafana şablonları, kuruluşun ihtiyaçlarına göre özelleştirilir. Yöneticiler için operasyonel özet, kullanıcılar için kendi iş istatistikleri, yöneticiler için kapasite planlama görünümü ayrı ayrı oluşturulur.

5. Devir, Eğitim ve Destek

Sistem devredilmeden önce ekibe yönelik hands-on eğitim verilir: Dashboard okuma, uyarı yorumlama, exporter durumu kontrol etme ve basit sorun giderme adımları aktarılır. İsteğe bağlı olarak Mevasis, bakım anlaşması kapsamında sistem güncellemeleri ve yeni bileşen entegrasyonları için destek sunar.

Kimler İçin Uygundur?

HPC gözlemlenebilirlik çözümü özellikle şu ortamlar için uygundur:

  • Birden fazla araştırma grubuna paylaşımlı GPU/CPU kaynağı sunan üniversiteler ve araştırma merkezleri
  • AI eğitim altyapısını iç ekiplere tahsis eden teknoloji şirketleri
  • Müşterilerine SLA garantisi taahhüt eden HPC hizmet sağlayıcıları
  • Kaynak kullanımını optimize ederek işletme maliyetini düşürmeyi hedefleyen her ölçekten kuruluş

Sonraki Adım

HPC cluster altyapınıza kapsamlı gözlemlenebilirlik kazandırmak ve ekibinizin her sorunu kök nedenine kadar izleyebildiği bir izleme platformu kurmak için iletişim sayfamızı ziyaret edin. Mevcut altyapınızı paylaşın; size özel observability mimarisi ve fiyatlandırma önerisiyle en kısa sürede dönelim.

← Tüm Çözümler

Sıkça Sorulan Sorular

Bu çözüm ne zaman tercih edilmeli?

HPC gözlemlenebilirlik çözümü; GPU veya CPU cluster altyapısı üzerinde birden fazla kullanıcı ya da ekibin iş yükü çalıştırdığı, kaynak kullanımının izlenmesi ve kapasitel planlamasının kritik önem taşıdığı ortamlarda tercih edilmelidir. Yavaşlayan işlerin kök nedenini bulmakta güçlük çekiyorsanız, GPU veya bellek tükenmesinden kaynaklanan kesintiler yaşıyorsanız ya da SLA taahhütlerini kanıtlamanız gerekiyorsa bu çözüm sizin için doğru seçimdir.

Mevasis bu çözümü nasıl sağlıyor?

Mevasis, DCGM Exporter, SLURM Exporter, Node Exporter ve Prometheus'tan oluşan veri toplama katmanını; Grafana ile görselleştirme katmanını; Alertmanager ile bildirim katmanını bir bütün olarak tasarlar, kurar ve yapılandırır. Deneyimli mühendislerimiz mevcut cluster altyapınızı analiz ederek özelleştirilmiş dashboard ve uyarı kuralları oluşturur, ekibinize sistemin etkin kullanımı konusunda eğitim verir.

Fiyatlandırma nasıl?

Gözlemlenebilirlik çözümlerinin kapsamı cluster büyüklüğüne, izlenecek bileşen sayısına, özel dashboard gereksinimlerine ve destek süresine göre değiştiğinden fiyatlandırma projeye özeldir. Doğru teklifi alabilmek için teklif formumuzu doldurmanızı öneririz; ekibimiz gereksinimlerinizi değerlendirerek en kısa sürede size ulaşır.