HPC Monitoring Hizmeti — Altyapı İzleme ve Uyarı Sistemi
Kurumsal HPC cluster izleme hizmeti. Prometheus + Grafana, DCGM GPU monitoring, SLURM metrikleri ve proaktif uyarı sistemi.
Kurumsal HPC altyapısı sorunsuz çalıştığında fark edilmez; ancak arıza anında her dakika kritik önem taşır. Proaktif monitoring sistemi, sorunları kullanıcılar etkilenmeden önce tespit eder.
Monitoring Stack Bileşenleri
Prometheus — Metrik Toplama
Prometheus, zamana bağlı veri toplama ve sorgulama sistemidir. HPC cluster’ında birden fazla exporter kullanılır:
# Prometheus scrape yapılandırması
scrape_configs:
- job_name: 'node'
static_configs:
- targets: ['compute[01-32]:9100'] # node_exporter
- job_name: 'slurm'
static_configs:
- targets: ['mgmt01:9341'] # slurm_exporter
- job_name: 'dcgm'
static_configs:
- targets: ['gpu[01-04]:9400'] # DCGM exporter
node_exporter — Donanım Metrikleri
Her hesaplama node’unda çalışır:
- CPU kullanım oranı (çekirdek bazlı)
- Bellek ve swap kullanımı
- Disk I/O (okuma/yazma MB/s, IOPS)
- Ağ trafiği (InfiniBand ve Ethernet)
- Sistem yükü (load average)
- Donanım sensörleri (CPU sıcaklığı, fan hızı)
DCGM Exporter — GPU Sağlık Monitoring
NVIDIA Data Center GPU Manager, GPU metriklerini Prometheus formatına dönüştürür:
- GPU kullanım oranı (%)
- GPU bellek kullanımı ve bant genişliği
- GPU güç tüketimi (Watt)
- GPU sıcaklığı ve termal kısıtlama durumu
- PCIe ve NVLink hata sayacı
- Bellek ECC hata sayısı (düzeltilebilir / düzeltilemez)
SLURM Exporter — İş Kuyruğu Metrikleri
- Çalışan / bekleyen / askıya alınan iş sayısı
- Partition doluluk oranı
- Kullanıcı ve proje bazlı kaynak kullanımı
- Ortalama kuyruk bekleme süresi
Grafana — Görselleştirme
Önceden yapılandırılmış HPC dashboard’ları:
- Cluster Genel Bakış: Tüm node’ların durumu tek ekranda
- GPU Health: 4 panel GPU sıcaklık, kullanım, güç haritası
- Storage Performance: I/O throughput ve gecikme
- Job Accounting: Proje/kullanıcı bazlı CPU ve GPU saati
Alertmanager — Akıllı Uyarı
# Kritik uyarı örneği
- alert: GPUHighTemp
expr: dcgm_gpu_temp > 85
for: 5m
labels:
severity: critical
annotations:
summary: "GPU sıcaklığı kritik eşiği aştı"
Uyarılar e-posta, SMS veya Slack kanalına iletilir.
Monitoring altyapınızı kurmak veya mevcut sisteminizi iyileştirmek için bizimle iletişime geçin.
Sıkça Sorulan Sorular
Monitoring stack'i mevcut altyapıma entegre edebilir misiniz?
Evet. Prometheus ve Grafana, mevcut herhangi bir Linux tabanlı HPC cluster'a entegre edilebilir. Mevcut monitoring araçlarıyla (Zabbix, Nagios) entegrasyon da desteklenir.
GPU monitoring için özel gereksinim var mı?
DCGM (Data Center GPU Manager) kurulumu gereklidir. Mevasis bu kurulum ve yapılandırmayı üstlenir.