HPC Monitoring Hizmeti | Mevasis

Kurumsal HPC altyapısı sorunsuz çalıştığında fark edilmez; ancak arıza anında her dakika kritik önem taşır. Proaktif monitoring sistemi, sorunları kullanıcılar etkilenmeden önce tespit eder.

Monitoring Stack Bileşenleri

Prometheus — Metrik Toplama

Prometheus, zamana bağlı veri toplama ve sorgulama sistemidir. HPC cluster’ında birden fazla exporter kullanılır:

# Prometheus scrape yapılandırması
scrape_configs:
  - job_name: 'node'
    static_configs:
      - targets: ['compute[01-32]:9100']  # node_exporter

  - job_name: 'slurm'
    static_configs:
      - targets: ['mgmt01:9341']          # slurm_exporter

  - job_name: 'dcgm'
    static_configs:
      - targets: ['gpu[01-04]:9400']      # DCGM exporter

node_exporter — Donanım Metrikleri

Her hesaplama node’unda çalışır:

CPU kullanım oranı (çekirdek bazlı)
Bellek ve swap kullanımı
Disk I/O (okuma/yazma MB/s, IOPS)
Ağ trafiği (InfiniBand ve Ethernet)
Sistem yükü (load average)
Donanım sensörleri (CPU sıcaklığı, fan hızı)

DCGM Exporter — GPU Sağlık Monitoring

NVIDIA Data Center GPU Manager, GPU metriklerini Prometheus formatına dönüştürür:

GPU kullanım oranı (%)
GPU bellek kullanımı ve bant genişliği
GPU güç tüketimi (Watt)
GPU sıcaklığı ve termal kısıtlama durumu
PCIe ve NVLink hata sayacı
Bellek ECC hata sayısı (düzeltilebilir / düzeltilemez)

SLURM Exporter — İş Kuyruğu Metrikleri

Çalışan / bekleyen / askıya alınan iş sayısı
Partition doluluk oranı
Kullanıcı ve proje bazlı kaynak kullanımı
Ortalama kuyruk bekleme süresi

Grafana — Görselleştirme

Önceden yapılandırılmış HPC dashboard’ları:

Cluster Genel Bakış: Tüm node’ların durumu tek ekranda
GPU Health: 4 panel GPU sıcaklık, kullanım, güç haritası
Storage Performance: I/O throughput ve gecikme
Job Accounting: Proje/kullanıcı bazlı CPU ve GPU saati

Alertmanager — Akıllı Uyarı

# Kritik uyarı örneği
- alert: GPUHighTemp
  expr: dcgm_gpu_temp > 85
  for: 5m
  labels:
    severity: critical
  annotations:
    summary: "GPU sıcaklığı kritik eşiği aştı"

Uyarılar e-posta, SMS veya Slack kanalına iletilir.

Monitoring altyapınızı kurmak veya mevcut sisteminizi iyileştirmek için bizimle iletişime geçin.

Sıkça Sorulan Sorular

Monitoring stack'i mevcut altyapıma entegre edebilir misiniz?

Evet. Prometheus ve Grafana, mevcut herhangi bir Linux tabanlı HPC cluster'a entegre edilebilir. Mevcut monitoring araçlarıyla (Zabbix, Nagios) entegrasyon da desteklenir.

GPU monitoring için özel gereksinim var mı?

DCGM (Data Center GPU Manager) kurulumu gereklidir. Mevasis bu kurulum ve yapılandırmayı üstlenir.

HPC Monitoring Hizmeti — Altyapı İzleme ve Uyarı Sistemi