CPU Cluster Çözümü
AMD EPYC ve Intel Xeon tabanlı yüksek çekirdek sayılı CPU cluster. MPI iş yükleri, moleküler dinamik ve CFD simülasyonları için ideal.
Yüksek başarımlı hesaplama (HPC) projelerinin önemli bir bölümü, GPU’nun sağlayamayacağı türde büyük çekirdek havuzları ve düşük gecikmeli ara bağlantı gerektirir. AMD EPYC ve Intel Xeon Scalable işlemcilere dayanan CPU cluster altyapısı, bu iş yüklerini doğru mimariyle karşılar. Mevasis, kurumsal ölçekte CPU cluster tasarımı, kurulumu ve yönetimini tek elden sunar.
CPU Cluster Nedir?
CPU cluster, yüksek hızlı bir ağ (genellikle InfiniBand) aracılığıyla birbirine bağlı çok sayıda sunucudan (düğümden) oluşan paralel hesaplama altyapısıdır. Her düğüm kendi işlemcisini, belleğini ve yerel depolama alanını barındırır; iş yükleri ise bir iş planlayıcısı (SLURM) tarafından bu düğümlere dağıtılır.
Tek bir sunucunun sunabileceği çekirdek sayısı ve bellek kapasitesi fiziksel sınırlarla kısıtlıdır. Cluster mimarisi bu sınırı ortadan kaldırır: onlarca, hatta yüzlerce düğümü tek bir hesaplama havuzu olarak yönetebilir, uygulamalarınızı yüzlerce çekirdeğe ve terabaytlarca belleğe erişim sağlayacak biçimde çalıştırabilirsiniz.
Hangi İş Yükleri için Uygundur?
CPU cluster, aşağıdaki uygulama alanlarında GPU’ya kıyasla çoğunlukla daha etkin ve maliyet uygun bir seçenektir:
- MPI tabanlı paralel simülasyonlar: OpenMPI veya MPICH ile yazılmış mevcut kodlar, yeniden yazılmaya gerek kalmadan doğrudan cluster üzerinde çalışır.
- Moleküler dinamik: GROMACS, NAMD ve LAMMPS gibi yazılımlar CPU cluster üzerinde olgunlaşmış ve iyi ölçeklenen performans sunar.
- CFD simülasyonları: OpenFOAM, Fluent ve Star-CCM+ gibi araçlar yüksek çekirdek sayısından doğrudan fayda sağlar.
- Yapısal mekanik analizi: Ansys Mechanical, Abaqus ve Nastran gibi FEA yazılımları çok çekirdekli ortamlarda verimli çalışır.
- Büyük ölçekli veri ön işleme: Petabayt ölçeğinde veri dönüşümü ve özellik mühendisliği adımları için yoğun CPU hesabı gerekir.
- Monte Carlo simülasyonları: Paralel bağımsız çalışmalar (embarrassingly parallel workload) doğrusal ölçeklenme sağlar.
Donanım Mimarisi
Mevasis CPU cluster çözümünde kullandığı başlıca donanım platformları şunlardır:
| Bileşen | AMD EPYC Platformu | Intel Xeon Scalable Platformu |
|---|---|---|
| İşlemci | AMD EPYC 9004 (Genoa) / 9654 | Intel Xeon 6 (Granite Rapids) |
| Çekirdek / Soket | 96 çekirdeğe kadar | 128 çekirdeğe kadar |
| Bellek Kanalı | 12 kanal DDR5 | 8 kanal DDR5 |
| L3 Cache | 384 MB | 504 MB |
| PCIe | Gen 5 | Gen 5 |
| Ara Bağlantı | HDR/NDR InfiniBand | HDR/NDR InfiniBand |
Düğüm sayısı, iş yüküne bağlı olarak 8 düğümden başlayıp yüzlerce düğüme kadar ölçeklenebilir. Küçük başlangıç konfigürasyonları kapasite ihtiyacı arttıkça kolayca genişletilebilir.
Yazılım Yığını
Donanımın yanı sıra yazılım katmanı, cluster’ın verimli çalışmasında belirleyici rol oynar. Mevasis aşağıdaki yazılım yığınını kurar ve yapılandırır:
İş Planlayıcısı: SLURM
SLURM (Simple Linux Utility for Resource Management), HPC dünyasında fiili standart haline gelmiş iş planlayıcısıdır. Kaynakları adil biçimde paylaştırır, öncelik politikaları uygular ve çok kullanıcılı ortamlarda iş yüklerini yönetir.
#!/bin/bash
#SBATCH --job-name=cfd_sim
#SBATCH --nodes=16
#SBATCH --ntasks-per-node=96
#SBATCH --time=48:00:00
#SBATCH --partition=epyc
#SBATCH --output=cfd_%j.out
module load openmpi/4.1.6
module load openfoam/v2312
cd $SLURM_SUBMIT_DIR
mpirun -np $SLURM_NTASKS simpleFoam -parallel
Yüksek Hızlı Ağ
MPI iş yüklerinde düğümler arası gecikme ve bant genişliği doğrudan performansı etkiler. Mevasis cluster altyapısında Mellanox/NVIDIA HDR (200 Gb/s) veya NDR (400 Gb/s) InfiniBand kullanılır. Bu, standart Ethernet ağına göre belirgin biçimde düşük gecikme ve yüksek bant genişliği sağlar.
Paralel Dosya Sistemi
Yüzlerce çekirdeğin eş zamanlı okuma/yazma yaptığı ortamlarda standart NFS yetersiz kalır. Mevasis, BeeGFS veya Lustre tabanlı paralel dosya sistemi kurarak yüksek I/O iş yüklerini destekler. Bu sistemler, düzinelerce GB/s toplam bant genişliği sağlayacak biçimde yapılandırılabilir.
Çevre Yönetimi
Farklı projeler farklı yazılım versiyonlarına ihtiyaç duyar. Lmod modül sistemi, kullanıcıların gerekli araç setini kolayca yükleyip değiştirmesini sağlar:
# Kullanılabilir modülleri listele
module avail
# MPI ve derleyiciyi yükle
module load gcc/13.2.0 openmpi/4.1.6
# Uygulama ortamını hazırla
module load gromacs/2024.1
Mevasis’in Uygulama Süreci
Bir CPU cluster projesinde Mevasis’in izlediği aşamalar şu şekildedir:
Gereksinim Analizi: Uygulamanızın ölçeklenme karakteristiklerini, tipik iş yükü boyutlarını ve I/O paternlerini analiz ederek doğru donanım ve ağ boyutlandırması yaparız.
Altyapı Tasarımı: İşlemci seçimi, düğüm sayısı, bellek kapasitesi, ağ topolojisi ve depolama mimarisi tasarımı tek bir bütünleşik mimari olarak planlanır.
Kurulum ve Yapılandırma: Donanım kurulumu, işletim sistemi ve yazılım yığını kurulumu, ağ yapılandırması ve performans ince ayarı (NUMA pinning, CPU governor, hugepages vb.) eksiksiz uygulanır.
Kabul Testi: Teslim öncesinde standart HPC benchmark’ları (HPL, STREAM, OSU Micro-Benchmarks) çalıştırılarak tasarım hedeflerine ulaşıldığı doğrulanır.
Operasyonel Destek: Cluster devreye alındıktan sonra izleme, yazılım güncelleme ve arıza müdahalesi hizmetleri sürdürülür.
Performans Beklentileri
Doğru boyutlandırılmış ve ince ayar yapılmış bir CPU cluster, teorik zirve performansın yüzde seksenini veya üzerini gerçek iş yüklerinde tutturabilir. Bunun için kritik etkenler şunlardır: NUMA mimarisine uygun süreç bağlama, InfiniBand UCX ayarları, büyük sayfalı bellek (hugepages) kullanımı ve dosya sistemi stripe yapılandırması.
Doğru Seçim: CPU mu, GPU mu?
Her hesaplama problemi GPU’ya taşınamaz ya da taşınması maliyet-fayda açısından uygun olmayabilir. Mevcut MPI kodunuz varsa, uygulamanız GPU desteği sunmuyorsa veya iş yükünüz geniş bellek adreslemesi gerektiriyorsa CPU cluster genellikle daha hızlı ve hesaplı bir yol sunar. Karma ihtiyaçlar için ise CPU ve GPU düğümlerini aynı SLURM cluster’ı altında birleştiren hibrit mimari de uygulanabilir.
Projenizin ihtiyaçlarına uygun CPU cluster mimarisini birlikte belirleyelim. Bizimle iletişime geçin — HPC mühendislerimiz gereksinim analizinden başlayarak size özel çözüm önerir.
Sıkça Sorulan Sorular
Bu çözüm ne zaman tercih edilmeli?
CPU cluster, hesaplama yükünüzün GPU hızlandırması yerine yüksek çekirdek sayısına ve büyük bellek bant genişliğine ihtiyaç duyduğu durumlarda tercih edilmelidir. MPI tabanlı paralel uygulamalar, CFD (hesaplamalı akışkanlar dinamiği) simülasyonları, moleküler dinamik, yapısal mekanik analizi ve büyük ölçekli veri ön işleme iş akışları bu kategoriye girer. Eğer uygulamanız GPU mimarisine uygun değilse veya mevcut kodunuzu GPU'ya taşıma maliyeti yüksekse, CPU cluster çoğunlukla daha hızlı ve maliyet etkin sonuç verir.
Mevasis bu çözümü nasıl sağlıyor?
Mevasis, AMD EPYC ve Intel Xeon Scalable işlemci ailelerini kullanarak çok düğümlü CPU cluster altyapısı kurar ve yönetir. SLURM iş planlayıcısı, InfiniBand yüksek hızlı ağ bağlantısı ve BeeGFS veya Lustre paralel dosya sistemi entegrasyonuyla eksiksiz bir HPC ortamı sunarız. Altyapı tasarımından kuruluma, performans ince ayarından operasyonel desteğe kadar tüm aşamalarda deneyimli HPC mühendislerimiz yanınızda olur.
Fiyatlandırma nasıl?
CPU cluster fiyatlandırması, düğüm sayısı, işlemci modeli, bellek kapasitesi, depolama gereksinimi ve ağ topolojisine göre değişir. Her proje kendine özgü ihtiyaçlar taşıdığından standart bir fiyat listesi sunmak yerine size özel teklif hazırlıyoruz. Teklif almak için lütfen /iletisim/ sayfasındaki formu doldurun; HPC mühendislerimiz kısa sürede sizinle iletişime geçer.