Clusters

Attualmente SSC ospita una moltitudine di clusters HPC privati. Se vuoi richiedere l'hosting di nuovo hardware contatta l'assistenza SSC.

L'unico cluster liberamente utilizzabile dalla comunità scientifica (previa autorizzazione e definizione di una quota economica) è il cluster con nome in codice ZEUS.

Zeus

Zeus è un cluster HPC avanzato composto da nodi NVIDIA DGX, progettato per gestire applicazioni di intelligenza artificiale (AI), machine learning (ML) e calcolo ad alte prestazioni (HPC). I nodi DGX sono rinomati per le loro capacità di accelerazione GPU, potendo offrire prestazioni eccezionali in termini di elaborazione parallela, ideali per le applicazioni scientifiche e industriali più impegnative.

Punti di forza del cluster Zeus:

  1. Architettura GPU di ultima generazione:
    I nodi NVIDIA DGX di Zeus sono dotati di GPU NVIDIA A100, una delle più potenti attualmente disponibili. Ogni nodo ha 8 GPU connesse da un'interconnessione NVLink ad alta velocità, garantendo un trasferimento dati tra GPU ultra-rapido e la massima efficienza in termini di calcolo parallelo.

  2. Ottimizzazione per AI e Deep Learning:
    Zeus è particolarmente adatto per carichi di lavoro di deep learning e AI. Le GPU A100 sono progettate per gestire training di reti neurali di grandi dimensioni, riducendo significativamente i tempi di elaborazione e accelerando lo sviluppo di modelli complessi. Inoltre, l'infrastruttura software NVIDIA, come CUDA e TensorRT, è ottimizzata per garantire il massimo delle prestazioni.

  3. Supporto per Mixed Precision Computing:
    Grazie alla tecnologia Tensor Cores presente nelle GPU A100, Zeus supporta il calcolo a precisione mista (FP16/FP32), permettendo di ottenere prestazioni elevate senza compromettere l'accuratezza dei risultati. Questo è particolarmente utile in applicazioni AI e scientifiche dove è richiesto un elevato throughput.

  4. Scalabilità:
    Il cluster Zeus è altamente scalabile e può crescere in base alle necessità degli utenti. I nodi DGX sono connessi attraverso una rete ad alta velocità come Infiniband, che consente di collegare centinaia o migliaia di GPU, garantendo un'ottima scalabilità per eseguire simulazioni e analisi su larga scala.

  5. Ecosistema Software Avanzato:
    Zeus viene fornito con un ecosistema software ottimizzato, tra cui NVIDIA NGC, un catalogo di container pre-configurati per applicazioni HPC, AI e ML, che consente agli utenti di avviare rapidamente carichi di lavoro senza dover preoccuparsi della configurazione delle dipendenze software.

  6. Efficienza Energetica:
    Sebbene dotato di grande potenza computazionale, Zeus è progettato per essere efficiente in termini di consumi energetici. Le GPU NVIDIA A100 sono ottimizzate per offrire prestazioni elevate con un consumo ridotto, rendendolo una soluzione sostenibile per calcoli intensivi.

  7. Supporto per Multi-Tenancy e Virtualizzazione:
    Zeus supporta la virtualizzazione GPU con la tecnologia NVIDIA MIG (Multi-Instance GPU), che permette di dividere una singola GPU in più istanze virtuali. Questo è particolarmente utile per ottimizzare l'uso delle risorse, consentendo a più utenti di utilizzare simultaneamente parti della stessa GPU.

Applicazioni ideali:

  • Addestramento di modelli di deep learning per riconoscimento immagini, elaborazione del linguaggio naturale e analisi predittiva.
  • Simulazioni scientifiche complesse, come la dinamica molecolare, l'analisi climatica e la fisica delle particelle.
  • Ricerca in AI per applicazioni in ambito biomedico, ingegneristico e finanziario.
  • Rendering e visualizzazione avanzata di grandi dataset 3D e modellazione virtuale.

In sintesi, il cluster Zeus offre potenza, flessibilità e scalabilità per affrontare le sfide computazionali più impegnative, con una particolare attenzione alle applicazioni di intelligenza artificiale e machine learning grazie alla potenza delle GPU NVIDIA DGX.

Partizioni

Il custer contiene partizioni (code) che gli utenti possono richiedere per eseguire i loro lavori. Non tutte le partizioni sono disponibili per tutti gli utenti. Di seguito sono riportate le descrizioni delle partizioni.

  • defq-noprio: Partizione di default
  • low-prio: Partizione con più bassa priorità ma minor costo
  • debug: Partizione di breve durata per aiutare gli utenti a fare debug dei loro workflow
  • high-prio: Partizione ad alta priorità ma maggior costo
  • queue-dip-ingegneria: partizione dedicata al dipartimento di ingegneria*

*Per poter ottenere una partizione dedicata per i propri workflow è necessario contribuire economicamente all'acquisto di hardware dell'infrastruttura HPC SSC. Contatta l'assistenza SSC per maggiori info

Tipi di Nodi

SSC ha diversi tipi di nodi disponibili nei nostri cluster. Ogni tipo di nodo è destinato a determinati compiti. Questi tipi di nodi sono relativamente comuni in altri centri HPC. Di seguito discuteremo ogni tipo di nodo e il suo uso previsto.

Nodi di Login

  • Usati per: modificare script, spostare file, piccoli trasferimenti di dati, inviare lavori
  • Non usati per: Computazioni, compilare software o processi di lunga durata
  • Molti utenti sono solitamente connessi a questi nodi contemporaneamente
  • Le connessioni sono bilanciate tra più server

Nodi di Calcolo

  • Dove i lavori vengono eseguiti dopo essere stati inviati allo scheduler slurm
  • Destinati a computazioni pesanti
  • Quando si esegue un lavoro interattivo, si svolgono i compiti direttamente sui nodi di calcolo

Nodi Storage

  • Espongono uno storage distribuito ai vari clusters