/ HPC Çözümleri

HPC Bakım ve Teknik Destek — Yönetilen Operasyon Hizmetleri

Kurumsal HPC cluster bakım, izleme, yazılım güncelleme ve 7/24 teknik destek hizmetleri. Proaktif monitoring ile arıza öncesi müdahale.

7/24 Kritik Destek
Proaktif Monitoring
SLA Garantili
<4 Saat Yanıt Süresi

Yüksek başarımlı hesaplama altyapısı, üretim ortamında sürekli bakım ve uzman operasyon gerektirir. Donanım arızaları, yazılım uyumsuzlukları, performans düşüşleri ve güvenlik açıkları — bunlarla başa çıkmak için tam zamanlı HPC sistem uzmanı gerekir. Mevasis HPC Bakım hizmetleri, bu yükü tamamen üstlenir.

Hizmet Kapsamı

Proaktif Monitoring

Prometheus + Grafana: CPU, bellek, depolama, ağ metrikleri
DCGM Exporter: GPU sağlık ve performans (güç, sıcaklık, hata sayısı)
SLURM Exporter: Kuyruk doluluk, bekleyen iş sayısı, kaynak kullanımı
node_exporter: Donanım sensörleri, disk SMART durumu
Alertmanager: Eşik aşımında otomatik bildirim (e-posta, SMS, Slack)

Eşik değerleri aşıldığında — örneğin CPU kullanımı %95 üstünde sürekli devam ettiğinde veya disk sağlık durumu kötüleştiğinde — Mevasis ekibi müşteri farkında olmadan önce müdahaleye başlar.

Yazılım Güncellemeleri ve Yama Yönetimi

  • İşletim sistemi güvenlik yamaları (koordineli bakım pencerelerinde)
  • SLURM, MPI kütüphaneleri, Lmod güncellemeleri
  • CUDA ve sürücü güncellemeleri
  • Uygulama yazılımı (GROMACS, OpenFOAM vb.) güncelleme desteği

Donanım Bakımı

  • Disk başarısızlık tespiti ve değişimi
  • Bellek hata izleme (ECC log analizi)
  • GPU sağlık değerlendirmesi
  • Ağ switch ve InfiniBand port durumu takibi
  • Planlı bakım (fan, filtre, termal macun değişimi)

Kullanıcı ve İş Yükü Yönetimi

  • SLURM kullanıcı hesabı ve partition yönetimi
  • İş kuyruğu öncelik politikaları
  • Kullanım raporlaması (bölüm/proje bazlı)
  • Sorunlu iş tespiti ve müdahalesi

Destek Seviyeleri

SeviyeTanımYanıt Süresi
KritikSistem tamamen erişilemez durumda4 saat
YüksekÖnemli bileşen arızası, kullanıcı etkisi varİş günü içinde
OrtaPerformans düşüşü, kısmi etki2 iş günü
DüşükYapılandırma talebi, iyileştirme5 iş günü

Aylık Raporlama

Her ay sonunda ayrıntılı operasyon raporu iletilir:

  • Uptime ve SLA uyumluluğu
  • Kuyruk doluluk ve bekleyen iş istatistikleri
  • Kaynak kullanım trendleri (CPU/GPU/depolama)
  • Gerçekleştirilen bakım işlemleri özeti
  • Önerilen kapasite veya yapılandırma iyileştirmeleri

Mevasis HPC Bakım hizmetleri hakkında teklif alın veya mevcut altyapınızı ücretsiz değerlendirtmek için ekibimizle iletişime geçin.

Sıkça Sorulan Sorular

Bakım sözleşmesi kapsamında neler yer alıyor?

Proaktif monitoring, yazılım güncelleme ve yama, donanım arıza tespiti, kapasitesi performans raporlama, kullanıcı yönetimi desteği ve SLA kapsamında teknik müdahale.

Uzaktan mı, yerinde mi destek sağlanıyor?

Her iki model de mevcuttur. Çoğu müdahale uzaktan gerçekleştirilir; donanım arızaları ve kritik durumlarda yerinde ekip gönderilir.

Destek yanıt süresi nedir?

Kritik arızalarda (sistem down) 4 saat, yüksek öncelikli sorunlarda iş günü içinde, standart talepler için 1 iş günü içinde yanıt verilir.