HPC Bakım ve Teknik Destek — Yönetilen Operasyon Hizmetleri
Kurumsal HPC cluster bakım, izleme, yazılım güncelleme ve 7/24 teknik destek hizmetleri. Proaktif monitoring ile arıza öncesi müdahale.
Yüksek başarımlı hesaplama altyapısı, üretim ortamında sürekli bakım ve uzman operasyon gerektirir. Donanım arızaları, yazılım uyumsuzlukları, performans düşüşleri ve güvenlik açıkları — bunlarla başa çıkmak için tam zamanlı HPC sistem uzmanı gerekir. Mevasis HPC Bakım hizmetleri, bu yükü tamamen üstlenir.
Hizmet Kapsamı
Proaktif Monitoring
Prometheus + Grafana: CPU, bellek, depolama, ağ metrikleri
DCGM Exporter: GPU sağlık ve performans (güç, sıcaklık, hata sayısı)
SLURM Exporter: Kuyruk doluluk, bekleyen iş sayısı, kaynak kullanımı
node_exporter: Donanım sensörleri, disk SMART durumu
Alertmanager: Eşik aşımında otomatik bildirim (e-posta, SMS, Slack)
Eşik değerleri aşıldığında — örneğin CPU kullanımı %95 üstünde sürekli devam ettiğinde veya disk sağlık durumu kötüleştiğinde — Mevasis ekibi müşteri farkında olmadan önce müdahaleye başlar.
Yazılım Güncellemeleri ve Yama Yönetimi
- İşletim sistemi güvenlik yamaları (koordineli bakım pencerelerinde)
- SLURM, MPI kütüphaneleri, Lmod güncellemeleri
- CUDA ve sürücü güncellemeleri
- Uygulama yazılımı (GROMACS, OpenFOAM vb.) güncelleme desteği
Donanım Bakımı
- Disk başarısızlık tespiti ve değişimi
- Bellek hata izleme (ECC log analizi)
- GPU sağlık değerlendirmesi
- Ağ switch ve InfiniBand port durumu takibi
- Planlı bakım (fan, filtre, termal macun değişimi)
Kullanıcı ve İş Yükü Yönetimi
- SLURM kullanıcı hesabı ve partition yönetimi
- İş kuyruğu öncelik politikaları
- Kullanım raporlaması (bölüm/proje bazlı)
- Sorunlu iş tespiti ve müdahalesi
Destek Seviyeleri
| Seviye | Tanım | Yanıt Süresi |
|---|---|---|
| Kritik | Sistem tamamen erişilemez durumda | 4 saat |
| Yüksek | Önemli bileşen arızası, kullanıcı etkisi var | İş günü içinde |
| Orta | Performans düşüşü, kısmi etki | 2 iş günü |
| Düşük | Yapılandırma talebi, iyileştirme | 5 iş günü |
Aylık Raporlama
Her ay sonunda ayrıntılı operasyon raporu iletilir:
- Uptime ve SLA uyumluluğu
- Kuyruk doluluk ve bekleyen iş istatistikleri
- Kaynak kullanım trendleri (CPU/GPU/depolama)
- Gerçekleştirilen bakım işlemleri özeti
- Önerilen kapasite veya yapılandırma iyileştirmeleri
Mevasis HPC Bakım hizmetleri hakkında teklif alın veya mevcut altyapınızı ücretsiz değerlendirtmek için ekibimizle iletişime geçin.
Sıkça Sorulan Sorular
Bakım sözleşmesi kapsamında neler yer alıyor?
Proaktif monitoring, yazılım güncelleme ve yama, donanım arıza tespiti, kapasitesi performans raporlama, kullanıcı yönetimi desteği ve SLA kapsamında teknik müdahale.
Uzaktan mı, yerinde mi destek sağlanıyor?
Her iki model de mevcuttur. Çoğu müdahale uzaktan gerçekleştirilir; donanım arızaları ve kritik durumlarda yerinde ekip gönderilir.
Destek yanıt süresi nedir?
Kritik arızalarda (sistem down) 4 saat, yüksek öncelikli sorunlarda iş günü içinde, standart talepler için 1 iş günü içinde yanıt verilir.