Δύο καθοριστικά χαρακτηριστικά ξεχωρίζουν για το NVIDIA DGX Spark: 128 GB ενοποιημένη μνήμη σε μονάδα επιτραπέζιου υπολογιστή αξίας 4.000 $ και ενσωματωμένο δίκτυο βαθμού κέντρου δεδομένων 200 Gb. Το ύφασμα υψηλής ταχύτητας το διαφοροποιεί από τους κανονικούς σταθμούς εργασίας, επιτρέποντας τη ομαδοποίηση πολλών κόμβων κάποτε αποκλειστική για διακομιστές που είναι τοποθετημένοι σε rack. Αυτή η ανασκόπηση κατανέμει τα συμπεράσματα σε παραλλαγές Dell, GIGABYTE και HP Spark σε συμπλέγματα δύο κόμβων 200 GbE σε διαφορετικά μοντέλα και φόρτους εργασίας. Αναλύει επίσης τον παραλληλισμό σωλήνων (PP), μια εναλλακτική μέθοδο διαχωρισμού που ξεπερνά τον προεπιλεγμένο παραλληλισμό τανυστών (TP) της NVIDIA.
200 Gb Network Fabric
Κάθε Spark εξοπλίζει δύο κλωβούς QSFP56 σε συνδυασμό με ένα ενσωματωμένο ConnectX-7 SmartNIC. Περιορίζεται από το εύρος ζώνης PCIe Gen5 x4, τα χρησιμοποιήσιμα όρια ταχύτητας δικτύου περιορίζονται στα 200 Gb, με μία θύρα επαρκή για πλήρες εύρος ζώνης. η δεύτερη θύρα προσφέρει ευελιξία τοπολογίας. Τρεις κοινές διαμορφώσεις είναι διαθέσιμες: άμεσες συνδέσεις Spark-to-Spark 200 Gb, τοπολογία δακτυλίου χωρίς διακόπτη μέσω διπλών θυρών 100 Gb και υβριδική ομαδοποίηση με πρόσβαση αποθήκευσης υψηλής ταχύτητας NVMe-oF. Η NVIDIA πουλά επιτραπέζιους υπολογιστές μίας μονάδας, επικυρωμένα συμπλέγματα δύο κόμβων και νέες ρυθμίσεις τεσσάρων κόμβων. Η διαμόρφωση dual-Spark είναι η πιο πρακτική για συμπέρασμα τύπου παραγωγής και το επίκεντρο αυτής της δοκιμής.
Το σκεπτικό για το Spark Clustering
Το κύριο πλεονέκτημα είναι η επέκταση της χωρητικότητας του μοντέλου: δύο συνδεδεμένα Sparks μπορούν να εκτελούν μοντέλα παραμέτρων 120B που υπερβαίνουν τα όρια μνήμης μιας μονάδας. Το πιο σημαντικό, η πλατφόρμα λειτουργεί ως οικονομικό εκπαιδευτικό εργαλείο. Η NVIDIA σχεδιάζει το Spark για αρχάριους που μαθαίνουν ροές εργασίας AI, με επίσημους οδηγούς που καλύπτουν την ανάπτυξη μοντέλων, τη λεπτομέρεια και την ανάπτυξη PyTorch/JAX. Τα συμπλέγματα διπλού κόμβου διδάσκουν περαιτέρω τον παραλληλισμό πολλών κόμβων και την ανάλυση σημείων συμφόρησης δικτύου χωρίς δαπανηρό υλικό κέντρων δεδομένων. Σημειωτέον, το Spark δεν είναι βελτιστοποιημένο για συμπεράσματα παραγωγής. Περιορίζεται από το εύρος ζώνης μνήμης και την καθυστέρηση μεταξύ των κόμβων, η σύνδεσή του 200 GbE είναι πιο αργή από τις εσωτερικές συνδέσεις PCIe. Τα μεγαλύτερα συμπλέγματα υφίστανται σοβαρή υποβάθμιση της απόδοσης, με χαμηλή απόδοση συμβολαίων, που τα περιορίζει στην εκπαιδευτική χρήση και όχι στην εμπορική εξυπηρέτηση.
Δοκιμή απόδοσης: PP vs TP
Επιλογή στρατηγικής παραλληλισμού
Η NVIDIA έχει ορίσει ως προεπιλογή το TP, το οποίο χωρίζει κάθε επίπεδο μετασχηματιστή σε δύο GPU με συχνές ανταλλαγές δεδομένων. Αντίθετα, το PP διαιρεί τα μοντέλα ανά στρώμα, μεταφέροντας τις ενεργοποιήσεις μόνο μία φορά μεταξύ των κόμβων. Σε συνδέσμους 200 GbE, το PP ελαχιστοποιεί την επικοινωνία μεταξύ κόμβων. Για μεγάλα μοντέλα σε υψηλά μεγέθη παρτίδων, το PP ξεπερνά κατά πολύ το TP. Το TP υπερέχει μόνο σε σενάρια συνομιλίας χαμηλής καθυστέρησης ενός αιτήματος.
Οι δοκιμές στο GPT-OSS-120B επιβεβαιώνουν αυτό το κενό. Στο μέγεθος παρτίδας 128, το PP φτάνει τα 554,69 tok/s (2,20× ταχύτερα από το TP) σε ισορροπημένο φόρτο εργασίας, 310,63 tok/s έναντι 164,99 tok/s σε εργασίες βαριές προγεμίσεις. Το TP οδηγεί μόνο στο μέγεθος παρτίδας 1. Για μικρά μοντέλα όπως το Llama-3.1-8B, το TP κυριαρχεί στα περισσότερα μεγέθη παρτίδας λόγω του ελαφρού υπολογισμού του στρώματος, με το PP να προσπερνά το TP απλώς σε υψηλή ταυτόχρονη χρήση.
Αποτελέσματα συγκριτικής αξιολόγησης πολλαπλών μοντέλων (PP=2)
Σειρά GPT-OSS
Για το GPT-OSS-120B, η HP ξεπέρασε τη μέγιστη απόδοση σε ισορροπημένο (504,88 tok/s) και βαρύ προγεμισμένο φόρτο εργασίας (441,63 tok/s). Δοκιμές βαριάς αποκωδικοποίησης της GIGABYTE (494,37 tok/s). Για το GPT-OSS-20B, η Dell κυριάρχησε σε σενάρια ισορροπίας (976,77 tok/s) και προγεμίσματος (852,39 tok/s), ενώ η GIGABYTE ηγήθηκε των εργασιών αποκωδικοποίησης (945,55 tok/s).
Llama 3.1 8B Variants
Στην ακρίβεια BF16, η Dell οδήγησε σε ισορροπημένο (689,53 tok/s) και βαρύ φορτίο αποκωδικοποίησης (581,43 tok/s). Η GIGABYTE κέρδισε βαριές δοκιμές προπλήρωσης (539,27 tok/s). Η βελτιστοποίηση του FP4 ενίσχυσε απότομα την απόδοση: εργασίες GIGABYTE ισορροπημένες (1458,86 tok/s) και βαριές προγεμίσεις (954,23 tok/s) οδήγησαν στην GIGABYTE. Για το FP8, η Dell διατήρησε περιορισμένες απαιτήσεις σε σενάρια ισορροπίας (1105,42 tok/s) και σενάρια βαριάς αποκωδικοποίησης (862,33 tok/s).
Mistral & Qwen Models
Το Mistral Small 3.1 24B είδε ελάχιστα κενά: η GIGABYTE κορυφώθηκε στα 255,09 tok/s σε ισορροπημένο φόρτο εργασίας. Για το Qwen3 Coder 30B (Βάση A3B), η GIGABYTE οδήγησε σε προπληρωμένες εργασίες (1862,40 tok/s). Η Dell διέπρεψε στα σενάρια αποκωδικοποίησης. Στο πλαίσιο της κβαντοποίησης FB8, η GIGABYTE ξεπέρασε την προγεμισμένη απόδοση (3088,62 tok/s), ενώ η Dell ηγήθηκε των εργασιών αποκωδικοποίησης (705,77 tok/s).
Σύνοψη Peak Output Systems Dual Spark
|
Μοντέλο
|
Σενάριο (BS – 64)
|
Έξοδος αιχμής της Dell
|
Κορυφαία έξοδος GIGABYTE
|
HP Peak Output
|
|---|---|---|---|---|
|
GPT-OSS-120B
|
Ίσο ISL/OSL
|
463,97 tok/s
|
497,26 tok/s
|
504,88 tok/s
|
|
GPT-OSS-120B
|
Προγεμιστικό Heavy
|
419,56 tok/s
|
417,34 tok/s
|
441,63 tok/s
|
|
GPT-OSS-120B
|
Αποκωδικοποίηση Heavy
|
451,18 tok/s
|
494,37 tok/s
|
474,85 tok/s
|
|
GPT-OSS-20B
|
Ίσο ISL/OSL
|
976,77 tok/s
|
952,31 tok/s
|
915,72 tok/s
|
|
GPT-OSS-20B
|
Προγεμιστικό Heavy
|
852,39 tok/s
|
802,37 tok/s
|
757,05 tok/s
|
|
GPT-OSS-20B
|
Αποκωδικοποίηση Heavy
|
938,65 tok/s
|
945,55 tok/s
|
865,78 tok/s
|
|
Llama-3.1-8B-Instruct
|
Ίσο ISL/OSL
|
689,53 tok/s
|
687,48 tok/s
|
618,87 tok/s
|
|
Llama-3.1-8B-Instruct
|
Προγεμιστικό Heavy
|
515,45 tok/s
|
539,27 tok/s
|
463,39 tok/s
|
|
Llama-3.1-8B-Instruct
|
Αποκωδικοποίηση Heavy
|
581,43 tok/s
|
576,91 tok/s
|
531,07 tok/s
|
|
Λάμα-3.1-8B-FP4
|
Ίσο ISL/OSL
|
1427,39 tok/s
|
1458,86 tok/s
|
1413,51 tok/s
|
|
Λάμα-3.1-8B-FP4
|
Προγεμιστικό Heavy
|
884,22 tok/s
|
954,23 tok/s
|
843,57 tok/s
|
|
Λάμα-3.1-8B-FP4
|
Αποκωδικοποίηση Heavy
|
1008,98 tok/s
|
1007,23 tok/s
|
943,73 tok/s
|
|
Λάμα-3.1-8B-FP8
|
Ίσο ISL/OSL
|
1105,42 tok/s
|
1089,85 tok/s
|
1076,68 tok/s
|
|
Λάμα-3.1-8B-FP8
|
Προγεμιστικό Heavy
|
759,50 tok/s
|
827,40 tok/s
|
725,51 tok/s
|
|
Λάμα-3.1-8B-FP8
|
Αποκωδικοποίηση Heavy
|
862,33 tok/s
|
855,81 tok/s
|
800,78 tok/s
|
|
Mistral-Small-3.1-24B
|
Ίσο ISL/OSL
|
249,77 tok/s
|
255,09 tok/s
|
239,09 tok/s
|
|
Mistral-Small-3.1-24B
|
Προγεμιστικό Heavy
|
216,01 tok/s
|
214,38 tok/s
|
197,92 tok/s
|
|
Mistral-Small-3.1-24B
|
Αποκωδικοποίηση Heavy
|
238,44 tok/s
|
237,97 tok/s
|
221,41 tok/s
|
Σύναψη
Οι μονάδες Dell, GIGABYTE και HP Spark προσφέρουν αμελητέα κενά απόδοσης, με μικρές απώλειες για συγκεκριμένες παρτίδες. Οι αποφάσεις αγοράς θα πρέπει να δίνουν προτεραιότητα στο σχεδιασμό του πλαισίου, τη θερμική απόδοση, την εγγύηση και την υποστήριξη μετά την πώληση σε σχέση με τις ασήμαντες διαφορές στα σημεία αναφοράς. Η στρατηγική παραλληλισμού ασκεί πολύ μεγαλύτερο αντίκτυπο από τις παραλλαγές OEM: το PP υπερτερεί του TP για ομαδικά συμπεράσματα, ενώ το TP ταιριάζει στην αλληλεπίδραση χαμηλής καθυστέρησης μιας ροής. Η σύσταση TP της NVIDIA ευθυγραμμίζεται με τη θέση του Spark ως διαδραστικής συσκευής εκμάθησης και όχι ως υποδομής παραγωγής. Ένα σύμπλεγμα Spark διπλού κόμβου χρησιμεύει ως μια προσιτή πλατφόρμα διδασκαλίας για κατανεμημένη τεχνητή νοημοσύνη. Οι μελλοντικές δοκιμές θα καλύπτουν μεγαλύτερα cluster και εκπαίδευση μικρού μοντέλου από άκρο σε άκρο, εν αναμονή της ανάπτυξης του διακόπτη 800Gb στο εργαστήριο.
Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Διευθυντής Παγκόσμιας Στρατηγικής
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Ιστοσελίδα: www.qianxingdata.com/www.storagesserver.com
Επιχειρηματική εστίαση:
Διανομή προϊόντων ΤΠΕ/Ενοποίηση συστήματος & Υπηρεσίες/Λύσεις υποδομής
Με 20+ χρόνια εμπειρίας διανομής πληροφορικής, συνεργαζόμαστε με κορυφαίες παγκόσμιες μάρκες για την παροχή αξιόπιστων προϊόντων και επαγγελματικών υπηρεσιών.
«Χρησιμοποιώντας την τεχνολογία για τη δημιουργία ενός ευφυούς κόσμου» Ο αξιόπιστος πάροχος υπηρεσιών προϊόντων ΤΠΕ!
Sandy Yang/Διευθυντής Παγκόσμιας Στρατηγικής
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Ιστοσελίδα: www.qianxingdata.com/www.storagesserver.com
Επιχειρηματική εστίαση:
Διανομή προϊόντων ΤΠΕ/Ενοποίηση συστήματος & Υπηρεσίες/Λύσεις υποδομής
Με 20+ χρόνια εμπειρίας διανομής πληροφορικής, συνεργαζόμαστε με κορυφαίες παγκόσμιες μάρκες για την παροχή αξιόπιστων προϊόντων και επαγγελματικών υπηρεσιών.
«Χρησιμοποιώντας την τεχνολογία για τη δημιουργία ενός ευφυούς κόσμου» Ο αξιόπιστος πάροχος υπηρεσιών προϊόντων ΤΠΕ!



