Ανασκόπηση NVIDIA DGX Spark Cluster: Distributed Inference για Dell, GIGABYTE και HP

Όλα τα Προϊόντα

Κεντρικός υπολογιστής αποθήκευσης ραφιών
(165)

Κεντρικός υπολογιστής τήξης Huawei
(31)

Κεντρικός υπολογιστής της Dell Poweredge
(59)

H3C κεντρικός υπολογιστής
(31)

Διακόπτες Datacom
(96)

Συσκευή WLAN
(21)

Έξυπνος ασύρματος δρομολογητής
(10)

Σκληρός δίσκος HDD
(78)

Εσωτερικός σκληρός δίσκος SSD
(16)

Γραφική κάρτα Geforce
(27)

Επεξεργαστής της INTEL ΚΜΕ
(20)

RAM μνήμης κεντρικών υπολογιστών
(6)

Ανανεωμένος κεντρικός υπολογιστής αποθήκευσης
(6)

Ενότητα πομποδεκτών SFP
(4)

Διακόπτης καναλιών ινών
(42)

Πιστοποίηση

Κίνα Beijing Qianxing Jietong Technology Co., Ltd. Πιστοποιήσεις

Αναθεωρήσεις πελατών

Το προσωπικό πωλήσεων της Co. τεχνολογίας του Πεκίνου Qianxing Jietong, ΕΠΕ είναι πολύ επαγγελματικό και υπομονετικό. Μπορούν να παρέχουν τις αναφορές γρήγορα. Η ποιότητα και η συσκευασία των προϊόντων είναι επίσης πολύ υψηλές. Η συνεργασία μας είναι πολύ ομαλή.

—— 《Festfing DV》 LLC

Όταν έψαχνα τη Intel ΚΜΕ και Toshiba SSD επειγόντως, αμμώδης από το Πεκίνο Qianxing Jietong η Co. τεχνολογίας, ΕΠΕ μου έδωσε πολλή βοήθεια και με πήρε τα προϊόντα που χρειάστηκα γρήγορα. Την εκτιμώ πραγματικά.

—— Γεν γατακιών

Αμμώδης του Πεκίνου Qianxing Jietong η Co. τεχνολογίας, ΕΠΕ είναι πολύ προσεκτικός πωλητής, ο οποίος μπορεί να υπενθυμίσει σε με τα λάθη διαμόρφωσης εγκαίρως πότε αγοράζω έναν κεντρικό υπολογιστή. Οι μηχανικοί είναι επίσης πολύ επαγγελματικοί και μπορούν γρήγορα να ολοκληρώσουν την εξεταστική διαδικασία.

—— Strelkin Mikhail Vladimirovich

Είμαστε πολύ ευχαριστημένοι με την εμπειρία μας συνεργασίας με την Beijing Qianxing Jietong. Η ποιότητα των προϊόντων είναι εξαιρετική και η παράδοση γίνεται πάντα στην ώρα της. Η ομάδα πωλήσεων είναι επαγγελματική, υπομονετική και πολύ εξυπηρετική με όλα μας τα ερωτήματα. Εκτιμούμε πραγματικά την υποστήριξή τους και προσβλέπουμε σε μια μακροχρόνια συνεργασία. Συνιστάται ανεπιφύλακτα!

—— Ahmad Navid

Ποιότητα: Μεγάλη εμπειρία με τον προμηθευτή μου.Το MikroTik RB3011 είχε ήδη χρησιμοποιηθεί, αλλά ήταν σε πολύ καλή κατάσταση και όλα λειτουργούν τέλεια.Η επικοινωνία ήταν γρήγορη και ομαλή.Και όλες μου οι ανησυχίες λύθηκαν γρήγορα.- Πολύ αξιόπιστος προμηθευτής.

—— Γκεράν Κολέσιο

Είμαι Online Chat Now

Ανασκόπηση NVIDIA DGX Spark Cluster: Distributed Inference για Dell, GIGABYTE και HP

May 15, 2026

Δύο καθοριστικά χαρακτηριστικά ξεχωρίζουν για το NVIDIA DGX Spark: 128 GB ενοποιημένη μνήμη σε μονάδα επιτραπέζιου υπολογιστή αξίας 4.000 $ και ενσωματωμένο δίκτυο βαθμού κέντρου δεδομένων 200 Gb. Το ύφασμα υψηλής ταχύτητας το διαφοροποιεί από τους κανονικούς σταθμούς εργασίας, επιτρέποντας τη ομαδοποίηση πολλών κόμβων κάποτε αποκλειστική για διακομιστές που είναι τοποθετημένοι σε rack. Αυτή η ανασκόπηση κατανέμει τα συμπεράσματα σε παραλλαγές Dell, GIGABYTE και HP Spark σε συμπλέγματα δύο κόμβων 200 GbE σε διαφορετικά μοντέλα και φόρτους εργασίας. Αναλύει επίσης τον παραλληλισμό σωλήνων (PP), μια εναλλακτική μέθοδο διαχωρισμού που ξεπερνά τον προεπιλεγμένο παραλληλισμό τανυστών (TP) της NVIDIA.

200 Gb Network Fabric

Κάθε Spark εξοπλίζει δύο κλωβούς QSFP56 σε συνδυασμό με ένα ενσωματωμένο ConnectX-7 SmartNIC. Περιορίζεται από το εύρος ζώνης PCIe Gen5 x4, τα χρησιμοποιήσιμα όρια ταχύτητας δικτύου περιορίζονται στα 200 Gb, με μία θύρα επαρκή για πλήρες εύρος ζώνης. η δεύτερη θύρα προσφέρει ευελιξία τοπολογίας. Τρεις κοινές διαμορφώσεις είναι διαθέσιμες: άμεσες συνδέσεις Spark-to-Spark 200 Gb, τοπολογία δακτυλίου χωρίς διακόπτη μέσω διπλών θυρών 100 Gb και υβριδική ομαδοποίηση με πρόσβαση αποθήκευσης υψηλής ταχύτητας NVMe-oF. Η NVIDIA πουλά επιτραπέζιους υπολογιστές μίας μονάδας, επικυρωμένα συμπλέγματα δύο κόμβων και νέες ρυθμίσεις τεσσάρων κόμβων. Η διαμόρφωση dual-Spark είναι η πιο πρακτική για συμπέρασμα τύπου παραγωγής και το επίκεντρο αυτής της δοκιμής.

Το σκεπτικό για το Spark Clustering

Το κύριο πλεονέκτημα είναι η επέκταση της χωρητικότητας του μοντέλου: δύο συνδεδεμένα Sparks μπορούν να εκτελούν μοντέλα παραμέτρων 120B που υπερβαίνουν τα όρια μνήμης μιας μονάδας. Το πιο σημαντικό, η πλατφόρμα λειτουργεί ως οικονομικό εκπαιδευτικό εργαλείο. Η NVIDIA σχεδιάζει το Spark για αρχάριους που μαθαίνουν ροές εργασίας AI, με επίσημους οδηγούς που καλύπτουν την ανάπτυξη μοντέλων, τη λεπτομέρεια και την ανάπτυξη PyTorch/JAX. Τα συμπλέγματα διπλού κόμβου διδάσκουν περαιτέρω τον παραλληλισμό πολλών κόμβων και την ανάλυση σημείων συμφόρησης δικτύου χωρίς δαπανηρό υλικό κέντρων δεδομένων. Σημειωτέον, το Spark δεν είναι βελτιστοποιημένο για συμπεράσματα παραγωγής. Περιορίζεται από το εύρος ζώνης μνήμης και την καθυστέρηση μεταξύ των κόμβων, η σύνδεσή του 200 GbE είναι πιο αργή από τις εσωτερικές συνδέσεις PCIe. Τα μεγαλύτερα συμπλέγματα υφίστανται σοβαρή υποβάθμιση της απόδοσης, με χαμηλή απόδοση συμβολαίων, που τα περιορίζει στην εκπαιδευτική χρήση και όχι στην εμπορική εξυπηρέτηση.

Δοκιμή απόδοσης: PP vs TP

Επιλογή στρατηγικής παραλληλισμού

Η NVIDIA έχει ορίσει ως προεπιλογή το TP, το οποίο χωρίζει κάθε επίπεδο μετασχηματιστή σε δύο GPU με συχνές ανταλλαγές δεδομένων. Αντίθετα, το PP διαιρεί τα μοντέλα ανά στρώμα, μεταφέροντας τις ενεργοποιήσεις μόνο μία φορά μεταξύ των κόμβων. Σε συνδέσμους 200 GbE, το PP ελαχιστοποιεί την επικοινωνία μεταξύ κόμβων. Για μεγάλα μοντέλα σε υψηλά μεγέθη παρτίδων, το PP ξεπερνά κατά πολύ το TP. Το TP υπερέχει μόνο σε σενάρια συνομιλίας χαμηλής καθυστέρησης ενός αιτήματος.

Οι δοκιμές στο GPT-OSS-120B επιβεβαιώνουν αυτό το κενό. Στο μέγεθος παρτίδας 128, το PP φτάνει τα 554,69 tok/s (2,20× ταχύτερα από το TP) σε ισορροπημένο φόρτο εργασίας, 310,63 tok/s έναντι 164,99 tok/s σε εργασίες βαριές προγεμίσεις. Το TP οδηγεί μόνο στο μέγεθος παρτίδας 1. Για μικρά μοντέλα όπως το Llama-3.1-8B, το TP κυριαρχεί στα περισσότερα μεγέθη παρτίδας λόγω του ελαφρού υπολογισμού του στρώματος, με το PP να προσπερνά το TP απλώς σε υψηλή ταυτόχρονη χρήση.

Αποτελέσματα συγκριτικής αξιολόγησης πολλαπλών μοντέλων (PP=2)

Σειρά GPT-OSS

Για το GPT-OSS-120B, η HP ξεπέρασε τη μέγιστη απόδοση σε ισορροπημένο (504,88 tok/s) και βαρύ προγεμισμένο φόρτο εργασίας (441,63 tok/s). Δοκιμές βαριάς αποκωδικοποίησης της GIGABYTE (494,37 tok/s). Για το GPT-OSS-20B, η Dell κυριάρχησε σε σενάρια ισορροπίας (976,77 tok/s) και προγεμίσματος (852,39 tok/s), ενώ η GIGABYTE ηγήθηκε των εργασιών αποκωδικοποίησης (945,55 tok/s).

Llama 3.1 8B Variants

Στην ακρίβεια BF16, η Dell οδήγησε σε ισορροπημένο (689,53 tok/s) και βαρύ φορτίο αποκωδικοποίησης (581,43 tok/s). Η GIGABYTE κέρδισε βαριές δοκιμές προπλήρωσης (539,27 tok/s). Η βελτιστοποίηση του FP4 ενίσχυσε απότομα την απόδοση: εργασίες GIGABYTE ισορροπημένες (1458,86 tok/s) και βαριές προγεμίσεις (954,23 tok/s) οδήγησαν στην GIGABYTE. Για το FP8, η Dell διατήρησε περιορισμένες απαιτήσεις σε σενάρια ισορροπίας (1105,42 tok/s) και σενάρια βαριάς αποκωδικοποίησης (862,33 tok/s).

Mistral & Qwen Models

Το Mistral Small 3.1 24B είδε ελάχιστα κενά: η GIGABYTE κορυφώθηκε στα 255,09 tok/s σε ισορροπημένο φόρτο εργασίας. Για το Qwen3 Coder 30B (Βάση A3B), η GIGABYTE οδήγησε σε προπληρωμένες εργασίες (1862,40 tok/s). Η Dell διέπρεψε στα σενάρια αποκωδικοποίησης. Στο πλαίσιο της κβαντοποίησης FB8, η GIGABYTE ξεπέρασε την προγεμισμένη απόδοση (3088,62 tok/s), ενώ η Dell ηγήθηκε των εργασιών αποκωδικοποίησης (705,77 tok/s).

Σύνοψη Peak Output Systems Dual Spark

Μοντέλο	Σενάριο (BS – 64)	Έξοδος αιχμής της Dell	Κορυφαία έξοδος GIGABYTE	HP Peak Output
GPT-OSS-120B	Ίσο ISL/OSL	463,97 tok/s	497,26 tok/s	504,88 tok/s
GPT-OSS-120B	Προγεμιστικό Heavy	419,56 tok/s	417,34 tok/s	441,63 tok/s
GPT-OSS-120B	Αποκωδικοποίηση Heavy	451,18 tok/s	494,37 tok/s	474,85 tok/s
GPT-OSS-20B	Ίσο ISL/OSL	976,77 tok/s	952,31 tok/s	915,72 tok/s
GPT-OSS-20B	Προγεμιστικό Heavy	852,39 tok/s	802,37 tok/s	757,05 tok/s
GPT-OSS-20B	Αποκωδικοποίηση Heavy	938,65 tok/s	945,55 tok/s	865,78 tok/s
Llama-3.1-8B-Instruct	Ίσο ISL/OSL	689,53 tok/s	687,48 tok/s	618,87 tok/s
Llama-3.1-8B-Instruct	Προγεμιστικό Heavy	515,45 tok/s	539,27 tok/s	463,39 tok/s
Llama-3.1-8B-Instruct	Αποκωδικοποίηση Heavy	581,43 tok/s	576,91 tok/s	531,07 tok/s
Λάμα-3.1-8B-FP4	Ίσο ISL/OSL	1427,39 tok/s	1458,86 tok/s	1413,51 tok/s
Λάμα-3.1-8B-FP4	Προγεμιστικό Heavy	884,22 tok/s	954,23 tok/s	843,57 tok/s
Λάμα-3.1-8B-FP4	Αποκωδικοποίηση Heavy	1008,98 tok/s	1007,23 tok/s	943,73 tok/s
Λάμα-3.1-8B-FP8	Ίσο ISL/OSL	1105,42 tok/s	1089,85 tok/s	1076,68 tok/s
Λάμα-3.1-8B-FP8	Προγεμιστικό Heavy	759,50 tok/s	827,40 tok/s	725,51 tok/s
Λάμα-3.1-8B-FP8	Αποκωδικοποίηση Heavy	862,33 tok/s	855,81 tok/s	800,78 tok/s
Mistral-Small-3.1-24B	Ίσο ISL/OSL	249,77 tok/s	255,09 tok/s	239,09 tok/s
Mistral-Small-3.1-24B	Προγεμιστικό Heavy	216,01 tok/s	214,38 tok/s	197,92 tok/s
Mistral-Small-3.1-24B	Αποκωδικοποίηση Heavy	238,44 tok/s	237,97 tok/s	221,41 tok/s

Σύναψη

Οι μονάδες Dell, GIGABYTE και HP Spark προσφέρουν αμελητέα κενά απόδοσης, με μικρές απώλειες για συγκεκριμένες παρτίδες. Οι αποφάσεις αγοράς θα πρέπει να δίνουν προτεραιότητα στο σχεδιασμό του πλαισίου, τη θερμική απόδοση, την εγγύηση και την υποστήριξη μετά την πώληση σε σχέση με τις ασήμαντες διαφορές στα σημεία αναφοράς. Η στρατηγική παραλληλισμού ασκεί πολύ μεγαλύτερο αντίκτυπο από τις παραλλαγές OEM: το PP υπερτερεί του TP για ομαδικά συμπεράσματα, ενώ το TP ταιριάζει στην αλληλεπίδραση χαμηλής καθυστέρησης μιας ροής. Η σύσταση TP της NVIDIA ευθυγραμμίζεται με τη θέση του Spark ως διαδραστικής συσκευής εκμάθησης και όχι ως υποδομής παραγωγής. Ένα σύμπλεγμα Spark διπλού κόμβου χρησιμεύει ως μια προσιτή πλατφόρμα διδασκαλίας για κατανεμημένη τεχνητή νοημοσύνη. Οι μελλοντικές δοκιμές θα καλύπτουν μεγαλύτερα cluster και εκπαίδευση μικρού μοντέλου από άκρο σε άκρο, εν αναμονή της ανάπτυξης του διακόπτη 800Gb στο εργαστήριο.

Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Διευθυντής Παγκόσμιας Στρατηγικής
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Ιστοσελίδα: www.qianxingdata.com/www.storagesserver.com
Επιχειρηματική εστίαση:
Διανομή προϊόντων ΤΠΕ/Ενοποίηση συστήματος & Υπηρεσίες/Λύσεις υποδομής
Με 20+ χρόνια εμπειρίας διανομής πληροφορικής, συνεργαζόμαστε με κορυφαίες παγκόσμιες μάρκες για την παροχή αξιόπιστων προϊόντων και επαγγελματικών υπηρεσιών.
«Χρησιμοποιώντας την τεχνολογία για τη δημιουργία ενός ευφυούς κόσμου» Ο αξιόπιστος πάροχος υπηρεσιών προϊόντων ΤΠΕ!

PREV: ORICO X50 Review: Thunderbolt 5 Speed σε φορητό περίβλημα SSD

NEXT: Ανασκόπηση Seagate IronWolf Pro 32TB: Top-of-Stack Capacity για Multi-Bay NAS

Στοιχεία επικοινωνίας

Beijing Qianxing Jietong Technology Co., Ltd.

Υπεύθυνος Επικοινωνίας: Ms. Sandy Yang

Τηλ.:: 13426366826

Ανασκόπηση NVIDIA DGX Spark Cluster: Distributed Inference για Dell, GIGABYTE και HP

Κεντρικός υπολογιστής αποθήκευσης ραφιών

Κεντρικός υπολογιστής τήξης Huawei

Κεντρικός υπολογιστής της Dell Poweredge

H3C κεντρικός υπολογιστής

Διακόπτες Datacom

Συσκευή WLAN

Έξυπνος ασύρματος δρομολογητής

Σκληρός δίσκος HDD

Εσωτερικός σκληρός δίσκος SSD

Γραφική κάρτα Geforce

Επεξεργαστής της INTEL ΚΜΕ

RAM μνήμης κεντρικών υπολογιστών

Ανανεωμένος κεντρικός υπολογιστής αποθήκευσης

Ενότητα πομποδεκτών SFP

Διακόπτης καναλιών ινών

Ανασκόπηση NVIDIA DGX Spark Cluster: Distributed Inference για Dell, GIGABYTE και HP

200 Gb Network Fabric

Το σκεπτικό για το Spark Clustering

Δοκιμή απόδοσης: PP vs TP

Επιλογή στρατηγικής παραλληλισμού

Αποτελέσματα συγκριτικής αξιολόγησης πολλαπλών μοντέλων (PP=2)

Σειρά GPT-OSS

Llama 3.1 8B Variants

Mistral & Qwen Models

Σύνοψη Peak Output Systems Dual Spark

Σύναψη

Κεντρικός υπολογιστής αποθήκευσης ραφιών

12 κεντρικός υπολογιστής ραφιών Lenovo ThinkSystem SR630 κεντρικών υπολογιστών κόλπων 1U Rackmount

Επεξεργαστής της Intel Xeon ε-2378G κεντρικών υπολογιστών αποθήκευσης ραφιών ThinkSystem SR250 V2 4SFF

Το ράφι Inspur NF5180M6 1U κεντρικών υπολογιστών αποθήκευσης ραφιών της Intel C621A τοποθετεί τον κεντρικό υπολογιστή

Κεντρικός υπολογιστής τήξης Huawei

FusionServer 5288 κεντρικός υπολογιστής 32 DDR4 DIMMs ραφιών V6 4U 44 σκληροί δίσκοι 3,5 ιντσών

Υπερβολικός κεντρικός υπολογιστής 1288H V5 αποθήκευσης δικτύων κεντρικών υπολογιστών 1U τήξης Huawei υψηλής πυκνότητας

Νέο GEN OceanStor 5310 υβριδική αποθήκευση λάμψης κεντρικών υπολογιστών ραφιών Huawei