Ανασκόπηση NVIDIA L4 GPU – Μαγικό Ραβδί Συμπερασμάτων Χαμηλής Ισχύος

Όλα τα Προϊόντα

Κεντρικός υπολογιστής αποθήκευσης ραφιών
(165)

Κεντρικός υπολογιστής τήξης Huawei
(31)

Κεντρικός υπολογιστής της Dell Poweredge
(59)

H3C κεντρικός υπολογιστής
(30)

Διακόπτες Datacom
(97)

Συσκευή WLAN
(21)

Έξυπνος ασύρματος δρομολογητής
(10)

Σκληρός δίσκος HDD
(24)

Εσωτερικός σκληρός δίσκος SSD
(16)

Γραφική κάρτα Geforce
(27)

Επεξεργαστής της INTEL ΚΜΕ
(20)

RAM μνήμης κεντρικών υπολογιστών
(6)

Ανανεωμένος κεντρικός υπολογιστής αποθήκευσης
(6)

Ενότητα πομποδεκτών SFP
(4)

Διακόπτης καναλιών ινών
(42)

Πιστοποίηση

Κίνα Beijing Qianxing Jietong Technology Co., Ltd. Πιστοποιήσεις

Αναθεωρήσεις πελατών

Το προσωπικό πωλήσεων της Co. τεχνολογίας του Πεκίνου Qianxing Jietong, ΕΠΕ είναι πολύ επαγγελματικό και υπομονετικό. Μπορούν να παρέχουν τις αναφορές γρήγορα. Η ποιότητα και η συσκευασία των προϊόντων είναι επίσης πολύ υψηλές. Η συνεργασία μας είναι πολύ ομαλή.

—— 《Festfing DV》 LLC

Όταν έψαχνα τη Intel ΚΜΕ και Toshiba SSD επειγόντως, αμμώδης από το Πεκίνο Qianxing Jietong η Co. τεχνολογίας, ΕΠΕ μου έδωσε πολλή βοήθεια και με πήρε τα προϊόντα που χρειάστηκα γρήγορα. Την εκτιμώ πραγματικά.

—— Γεν γατακιών

Αμμώδης του Πεκίνου Qianxing Jietong η Co. τεχνολογίας, ΕΠΕ είναι πολύ προσεκτικός πωλητής, ο οποίος μπορεί να υπενθυμίσει σε με τα λάθη διαμόρφωσης εγκαίρως πότε αγοράζω έναν κεντρικό υπολογιστή. Οι μηχανικοί είναι επίσης πολύ επαγγελματικοί και μπορούν γρήγορα να ολοκληρώσουν την εξεταστική διαδικασία.

—— Strelkin Mikhail Vladimirovich

Είμαστε πολύ ευχαριστημένοι με την εμπειρία μας συνεργασίας με την Beijing Qianxing Jietong. Η ποιότητα των προϊόντων είναι εξαιρετική και η παράδοση γίνεται πάντα στην ώρα της. Η ομάδα πωλήσεων είναι επαγγελματική, υπομονετική και πολύ εξυπηρετική με όλα μας τα ερωτήματα. Εκτιμούμε πραγματικά την υποστήριξή τους και προσβλέπουμε σε μια μακροχρόνια συνεργασία. Συνιστάται ανεπιφύλακτα!

—— Ahmad Navid

Ποιότητα: Μεγάλη εμπειρία με τον προμηθευτή μου.Το MikroTik RB3011 είχε ήδη χρησιμοποιηθεί, αλλά ήταν σε πολύ καλή κατάσταση και όλα λειτουργούν τέλεια.Η επικοινωνία ήταν γρήγορη και ομαλή.Και όλες μου οι ανησυχίες λύθηκαν γρήγορα.- Πολύ αξιόπιστος προμηθευτής.

—— Γκεράν Κολέσιο

Είμαι Online Chat Now

Ανασκόπηση NVIDIA L4 GPU – Μαγικό Ραβδί Συμπερασμάτων Χαμηλής Ισχύος

March 13, 2026

Στο αδυσώπητο κύμα καινοτομίας στο σημερινό τοπίο της τεχνητής νοημοσύνης, η μέτρηση και η κατανόηση των δυνατοτήτων διαφόρων πλατφορμών υλικού είναι κρίσιμης σημασίας. Δεν απαιτούν όλες οι εφαρμογές τεχνητής νοημοσύνης τεράστιες φάρμες εκπαίδευσης GPU—υπάρχει ένα σημαντικό τμήμα συμπερασμάτων τεχνητής νοημοσύνης που συχνά απαιτεί λιγότερη ισχύ GPU, ιδιαίτερα στην άκρη. Σε αυτήν την ανασκόπηση, εξετάζουμε πολλές GPU NVIDIA L4 σε τρεις διαφορετικούς διακομιστές Dell και μια σειρά φόρτων εργασίας, συμπεριλαμβανομένου του MLperf, για να αξιολογήσουμε την απόδοση του L4.

NVIDIA L4

GPU NVIDIA L4

Στον πυρήνα του, το L4 προσφέρει εντυπωσιακές επιδόσεις 30,3 teraFLOP FP32, καθιστώντας το ιδανικό για υπολογιστικές εργασίες υψηλής ακρίβειας. Οι δυνατότητές του επεκτείνονται σε υπολογισμούς μικτής ακρίβειας μέσω TF32, FP16 και BFLOAT16 Tensor Cores - κρίσιμα χαρακτηριστικά για τη βελτίωση της αποτελεσματικότητας βαθιάς μάθησης. Σύμφωνα με το φύλλο προδιαγραφών L4, η απόδοση σε αυτές τις λειτουργίες μικτής ακρίβειας κυμαίνεται από 60 έως 121 teraFLOP.

Το L4 υπερέχει σε εργασίες χαμηλής ακρίβειας, διαθέτοντας 242,5 teraFLOP με τους πυρήνες τανυστού FP8 και INT8, οι οποίοι ενισχύουν σημαντικά την απόδοση συμπερασμάτων νευρωνικών δικτύων. Εξοπλισμένο με 24 GB μνήμης GDDR6 και εύρος ζώνης 300 GB/s, μπορεί εύκολα να χειριστεί μεγάλα σύνολα δεδομένων και πολύπλοκα μοντέλα. Αυτό που ξεχωρίζει περισσότερο στο L4, ωστόσο, είναι η ενεργειακή του απόδοση: με 72W TDP, είναι κατάλληλο για μια μεγάλη ποικιλία υπολογιστικών περιβαλλόντων. Αυτός ο συνδυασμός υψηλής απόδοσης, απόδοσης μνήμης και χαμηλής κατανάλωσης ενέργειας καθιστά το NVIDIA L4 μια συναρπαστική επιλογή για την αντιμετώπιση προκλήσεων υπολογιστών αιχμής.

Προδιαγραφές NVIDIA L4
ΠΠ 32	30,3 teraFLOP
TF32 Tensor Core	60 teraFLOP
FP16 Tensor Core	121 teraFLOP
BFLOAT16 Tensor Core	121 teraFLOP
FP8 Tensor Core	242,5 teraFLOP
INT8 Tensor Core	242,5 ΤΟΠ
Μνήμη GPU	24 GB GDDR6
Εύρος ζώνης μνήμης GPU	300 GB/s
Μέγιστη θερμική ισχύς σχεδιασμού (TDP)	72W
Form Factor	PCIe χαμηλού προφίλ 1 υποδοχής
Αλληλοσυνδέω	PCIe Gen4 x16
Διάγραμμα προδιαγραφών	L4

Φυσικά, με την τιμή του L4 κάπου κοντά στα 2500 $, το A2 να έρχεται περίπου στη μισή τιμή και το παλιό (αλλά ακόμα αρκετά ικανό) T4 διαθέσιμο για λιγότερο από 1000 $, το προφανές ερώτημα είναι ποια είναι η διαφορά μεταξύ αυτών των τριών GPU συμπερασμάτων.

Προδιαγραφές NVIDIA L4, A2 και T4	NVIDIA L4	NVIDIA A2	NVIDIA T4
ΠΠ 32	30,3 teraFLOP	4,5 teraFLOP	8,1 teraFLOP
TF32 Tensor Core	60 teraFLOP	9 teraFLOP	N/A
FP16 Tensor Core	121 teraFLOP	18 teraFLOP	N/A
BFLOAT16 Tensor Core	121 teraFLOP	18 teraFLOP	N/A
FP8 Tensor Core	242,5 teraFLOP	N/A	N/A
INT8 Tensor Core	242,5 ΤΟΠ	36 ΚΟΡΥΦΕΣ	130 ΚΟΡΥΦΕΣ
Μνήμη GPU	24 GB GDDR6	16 GB GDDR6	16 GB GDDR6
Εύρος ζώνης μνήμης GPU	300 GB/s	200 GB/s	320+ GB/s
Μέγιστη θερμική ισχύς σχεδιασμού (TDP)	72W	40-60W	70W
Form Factor	PCIe χαμηλού προφίλ 1 υποδοχής
Αλληλοσυνδέω	PCIe Gen4 x16	PCIe Gen4 x8	PCIe Gen3 x16
Διάγραμμα προδιαγραφών	L4	Α2	Τ4

Ένα πράγμα που πρέπει να καταλάβετε όταν εξετάζετε αυτές τις τρεις κάρτες είναι ότι δεν είναι ακριβώς αντικαταστάσεις μία προς μία γενιά, γεγονός που εξηγεί γιατί το T4 εξακολουθεί να παραμένει, πολλά χρόνια αργότερα, μια δημοφιλής επιλογή για ορισμένες περιπτώσεις χρήσης. Το A2 βγήκε ως αντικατάσταση του T4 ως επιλογή χαμηλής κατανάλωσης και πιο συμβατή (x8 vs x16 μηχανική). Τεχνικά, το L4 αντικαθιστά τότε το T4, με το A2 να βρίσκεται στο ενδιάμεσο που μπορεί να ανανεωθεί ή να μην ανανεωθεί κάποια στιγμή στο μέλλον.

MLPerf Inference 3.1 Απόδοση

Η MLPerf είναι μια κοινοπραξία ηγετών τεχνητής νοημοσύνης από τον ακαδημαϊκό χώρο, την έρευνα και τη βιομηχανία που ιδρύθηκε για να παρέχει δίκαια και σχετικά σημεία αναφοράς υλικού και λογισμικού τεχνητής νοημοσύνης. Αυτά τα σημεία αναφοράς έχουν σχεδιαστεί για να μετρούν την απόδοση του υλικού, του λογισμικού και των υπηρεσιών μηχανικής εκμάθησης σε διάφορες εργασίες και σενάρια.

Οι δοκιμές μας επικεντρώνονται σε δύο συγκεκριμένα σημεία αναφοράς MLPerf: Resnet50 και BERT.

Resnet50: Αυτό είναι ένα συνελικτικό νευρωνικό δίκτυο που χρησιμοποιείται κυρίως για ταξινόμηση εικόνων. Είναι ένας καλός δείκτης του πόσο καλά ένα σύστημα μπορεί να χειριστεί εργασίες βαθιάς μάθησης που σχετίζονται με την επεξεργασία εικόνας.
BERT (Αμφίδρομες αναπαραστάσεις κωδικοποιητή από μετασχηματιστές): Αυτό το σημείο αναφοράς εστιάζει σε εργασίες επεξεργασίας φυσικής γλώσσας, προσφέροντας πληροφορίες για το πώς λειτουργεί ένα σύστημα στην κατανόηση και την επεξεργασία της ανθρώπινης γλώσσας.

Και οι δύο αυτές δοκιμές είναι ζωτικής σημασίας για την αξιολόγηση των δυνατοτήτων του υλικού τεχνητής νοημοσύνης σε σενάρια πραγματικού κόσμου που περιλαμβάνουν επεξεργασία εικόνας και γλώσσας.

Η αξιολόγηση του NVIDIA L4 με αυτά τα σημεία αναφοράς είναι κρίσιμη για να βοηθήσει στην κατανόηση των δυνατοτήτων της GPU L4 σε συγκεκριμένες εργασίες AI. Προσφέρει επίσης πληροφορίες σχετικά με το πώς οι διαφορετικές διαμορφώσεις (μονές, διπλές και τέσσερις ρυθμίσεις) επηρεάζουν την απόδοση. Αυτές οι πληροφορίες είναι ζωτικής σημασίας για επαγγελματίες και οργανισμούς που θέλουν να βελτιστοποιήσουν την υποδομή AI τους.

Τα μοντέλα λειτουργούν σε δύο βασικές λειτουργίες: Διακομιστής και Εκτός σύνδεσης.

Λειτουργία εκτός σύνδεσης: Αυτή η λειτουργία μετρά την απόδοση ενός συστήματος όταν όλα τα δεδομένα είναι διαθέσιμα για επεξεργασία ταυτόχρονα. Είναι παρόμοιο με τη μαζική επεξεργασία, όπου το σύστημα επεξεργάζεται ένα μεγάλο σύνολο δεδομένων σε μία μόνο παρτίδα. Η λειτουργία εκτός σύνδεσης είναι ζωτικής σημασίας για σενάρια όπου η καθυστέρηση δεν είναι πρωταρχικό μέλημα, αλλά η απόδοση και η αποτελεσματικότητα.
Λειτουργία διακομιστή: Αντίθετα, η λειτουργία διακομιστή αξιολογεί την απόδοση του συστήματος σε ένα σενάριο που μιμείται ένα πραγματικό περιβάλλον διακομιστή, όπου τα αιτήματα έρχονται ένα κάθε φορά. Αυτή η λειτουργία είναι ευαίσθητη σε καθυστέρηση, μετρώντας πόσο γρήγορα το σύστημα μπορεί να ανταποκριθεί σε κάθε αίτημα. Είναι απαραίτητο για εφαρμογές σε πραγματικό χρόνο, όπως διακομιστές ιστού ή διαδραστικές εφαρμογές, όπου είναι απαραίτητη η άμεση απόκριση.

1 x NVIDIA L4 – Dell PowerEdge XR7620

Ως μέρος της πρόσφατης ανασκόπησης του Dell PowerEdge XR7620, εξοπλισμένο με ένα μόνο NVIDIA L4, το καταφέραμε να εκτελέσουμε πολλές εργασίες, συμπεριλαμβανομένου του MLPerf.

Η διαμόρφωση του συστήματος δοκιμής μας περιελάμβανε τα ακόλουθα στοιχεία:

2 x Xeon Gold 6426Y – 16 πυρήνων 2,5 GHz
1 x NVIDIA L4
8 x 16 GB DDR5
480 GB BOSS RAID1
Διακομιστής Ubuntu 22.04
NVIDIA Πρόγραμμα οδήγησης 535

Dell PowerEdge XR7620 1x NVIDIA L4	Σκορ
Resnet50 – Διακομιστής	12.204,40
Resnet50 – Εκτός σύνδεσης	13.010,20
BERT K99 – Διακομιστής	898.945
BERT K99 – Εκτός σύνδεσης	973.435

Η απόδοση σε σενάρια διακομιστή και εκτός σύνδεσης για το Resnet50 και το BERT K99 είναι σχεδόν πανομοιότυπη, υποδεικνύοντας ότι το L4 διατηρεί σταθερή απόδοση σε διαφορετικά μοντέλα διακομιστών.

1, 2 και 4 NVIDIA L4 - Dell PowerEdge T560

Η διαμόρφωση της μονάδας ελέγχου μας περιελάμβανε τα ακόλουθα στοιχεία:

2 x Intel Xeon Gold 6448Y (32 πυρήνων/64 νημάτων το καθένα, 225 watt TDP, 2,1-4,1 GHz)
8 x 1,6 TB Solidigm P5520 SSD με κάρτα RAID PERC 12
1-4x NVIDIA L4 GPU
8 x 64 GB RDIMM
Διακομιστής Ubuntu 22.04
NVIDIA Πρόγραμμα οδήγησης 535

Επιστρέφοντας στο κέντρο δεδομένων από την άκρη και χρησιμοποιώντας τον ευέλικτο διακομιστή Dell T560 Tower, παρατηρήσαμε ότι το L4 αποδίδει εξίσου καλά στη δοκιμή μεμονωμένης GPU. Αυτό δείχνει ότι και οι δύο πλατφόρμες μπορούν να προσφέρουν μια σταθερή βάση στο L4 χωρίς εμπόδια.

Dell PowerEdge T560 1x NVIDIA L4	Σκορ
Resnet50 – Διακομιστής	12.204,40
Resnet50 – Εκτός σύνδεσης	12.872,10
Bert K99 – Διακομιστής	898.945
Bert K99 – Εκτός σύνδεσης	945.146

Στις δοκιμές μας με δύο L4 στο Dell T560, παρατηρήσαμε αυτή τη σχεδόν γραμμική κλιμάκωση στην απόδοση τόσο για τα σημεία αναφοράς Resnet50 όσο και για το BERT K99. Αυτή η κλιμάκωση είναι απόδειξη της αποτελεσματικότητας των GPU L4 και της ικανότητάς τους να λειτουργούν παράλληλα χωρίς σημαντικές απώλειες λόγω γενικών εξόδων ή αναποτελεσματικότητας.

Dell PowerEdge T560 2x NVIDIA L4	Σκορ
Resnet50 – Διακομιστής	24.407,50
Resnet50 – Εκτός σύνδεσης	25.463,20
BERT K99 – Διακομιστής	1.801,28
BERT K99 – Εκτός σύνδεσης	1.904,10

Η σταθερή γραμμική κλιμάκωση που είδαμε με δύο GPU NVIDIA L4 επεκτείνεται εντυπωσιακά σε διαμορφώσεις που διαθέτουν τέσσερις μονάδες L4. Αυτή η κλιμάκωση είναι ιδιαίτερα αξιοσημείωτη, καθώς η διατήρηση γραμμικών κερδών απόδοσης γίνεται όλο και πιο δύσκολη με κάθε προσθήκη GPU λόγω της πολυπλοκότητας της παράλληλης επεξεργασίας και διαχείρισης πόρων.

Dell PowerEdge T560 4x NVIDIA L4	Σκορ
Resnet50 – Διακομιστής	48.818,30
Resnet50 – Εκτός σύνδεσης	51.381,70
BERT K99 – Διακομιστής	3.604,96
BERT K99 – Εκτός σύνδεσης	3.821,46

Αυτά τα αποτελέσματα είναι μόνο για επεξηγηματικούς σκοπούς και όχι ανταγωνιστικά ή επίσημα αποτελέσματα MLPerf. Για μια πλήρη λίστα επίσημων αποτελεσμάτων, επισκεφθείτε τη σελίδα αποτελεσμάτων MLPerf.

Εκτός από την επικύρωση της γραμμικής επεκτασιμότητας των GPU της NVIDIA L4, οι δοκιμές μας στο εργαστήριο ρίχνουν φως στις πρακτικές συνέπειες της ανάπτυξης αυτών των μονάδων σε διαφορετικά λειτουργικά σενάρια. Για παράδειγμα, η συνέπεια στην απόδοση μεταξύ των λειτουργιών διακομιστή και εκτός σύνδεσης σε όλες τις διαμορφώσεις με τις GPU L4 αποκαλύπτει την αξιοπιστία και την ευελιξία τους.

Αυτή η πτυχή είναι ιδιαίτερα σημαντική για τις επιχειρήσεις και τα ερευνητικά ιδρύματα όπου τα λειτουργικά πλαίσια ποικίλλουν σημαντικά. Επιπλέον, οι παρατηρήσεις μας σχετικά με τον ελάχιστο αντίκτυπο των σημείων συμφόρησης διασύνδεσης και την αποτελεσματικότητα του συγχρονισμού GPU σε ρυθμίσεις πολλαπλών GPU παρέχουν πολύτιμες πληροφορίες για όσους θέλουν να κλιμακώσουν την υποδομή AI τους. Αυτές οι γνώσεις ξεπερνούν τους απλούς αριθμούς αναφοράς, προσφέροντας μια βαθύτερη κατανόηση του τρόπου με τον οποίο τέτοιο υλικό μπορεί να χρησιμοποιηθεί βέλτιστα σε σενάρια πραγματικού κόσμου, καθοδηγώντας καλύτερες αρχιτεκτονικές αποφάσεις και επενδυτικές στρατηγικές σε υποδομές AI και HPC.

NVIDIA L4 – Απόδοση εφαρμογής

Συγκρίναμε την απόδοση του νέου NVIDIA L4 με το NVIDIA A2 και το NVIDIA T4 που προηγήθηκε. Για να παρουσιάσουμε αυτήν την αναβάθμιση απόδοσης σε σχέση με τα προηγούμενα μοντέλα, αναπτύξαμε και τα τρία μοντέλα σε έναν διακομιστή στο εργαστήριό μας, με τον Windows Server 2022 και τα πιο πρόσφατα προγράμματα οδήγησης NVIDIA, αξιοποιώντας ολόκληρη τη σουίτα δοκιμών GPU.

Αυτές οι κάρτες δοκιμάστηκαν σε Dell Poweredge R760 με την ακόλουθη διαμόρφωση:

2 x Intel Xeon Gold 6430 (32 πυρήνες, 2,1 GHz)
Windows Server 2022
Πρόγραμμα οδήγησης NVIDIA 538.15
Το ECC απενεργοποιήθηκε σε όλες τις κάρτες για 1x δειγματοληψία

Καθώς ξεκινάμε τη δοκιμή απόδοσης μεταξύ αυτής της ομάδας τριών εταιρικών GPU, είναι σημαντικό να σημειωθούν οι μοναδικές διαφορές απόδοσης μεταξύ των προηγούμενων μοντέλων A2 και T4. Όταν κυκλοφόρησε το A2, προσέφερε μερικές αξιοσημείωτες βελτιώσεις, όπως χαμηλότερη κατανάλωση ενέργειας και λειτουργία σε μικρότερη υποδοχή PCIe Gen4 x8, αντί για τη μεγαλύτερη υποδοχή PCIe Gen3 x16 που απαιτούσε το παλαιότερο T4. Από το ρόπαλο του επέτρεψε να εισχωρήσει σε περισσότερα συστήματα, ειδικά με το μικρότερο αποτύπωμα που χρειαζόταν.

Blender OptiX 4.0

Το Blender OptiX είναι μια εφαρμογή μοντελοποίησης 3D ανοιχτού κώδικα. Αυτή η δοκιμή μπορεί να εκτελεστεί τόσο για CPU όσο και για GPU, αλλά κάναμε μόνο GPU όπως οι περισσότερες άλλες δοκιμές εδώ. Αυτό το σημείο αναφοράς εκτελέστηκε χρησιμοποιώντας το βοηθητικό πρόγραμμα Blender Benchmark CLI. Η βαθμολογία είναι δείγματα ανά λεπτό, με το υψηλότερο να είναι καλύτερο.

Μπλέντερ 4.0 (Το ψηλότερο είναι καλύτερο)	NVIDIA L4	NVIDIA A2	Nvidia T4
GPU Blender CLI – Monster	2.207.765	458.692	850.076
GPU Blender CLI – Junkshop	1.127.829	292.553	517.243
GPU Blender CLI – Τάξη	1.111.753	262.387	478.786

Blackmagic RAW Speed Test

Δοκιμάζουμε CPU και GPU με το RAW Speed Test της Blackmagic που ελέγχει τις ταχύτητες αναπαραγωγής βίντεο. Αυτό είναι περισσότερο μια υβριδική δοκιμή που περιλαμβάνει απόδοση CPU και GPU για αποκωδικοποίηση RAW σε πραγματικό κόσμο. Αυτά εμφανίζονται ως ξεχωριστά αποτελέσματα, αλλά εστιάζουμε μόνο στις GPU εδώ, επομένως τα αποτελέσματα της CPU παραλείπονται.

Blackmagic RAW Speed Test (Το ψηλότερο είναι καλύτερο)	NVIDIA L4	NVIDIA A2	NVIDIA T4
8Κ CUDA	95 FPS	38 FPS	53 FPS

GPU Cinebench 2024

Το Maxon's Cinebench 2024 είναι ένα σημείο αναφοράς απόδοσης CPU και GPU που χρησιμοποιεί όλους τους πυρήνες και τα νήματα της CPU. Και πάλι, δεδομένου ότι εστιάζουμε στα αποτελέσματα της GPU, δεν εκτελέσαμε τα τμήματα της CPU της δοκιμής. Οι υψηλότερες βαθμολογίες είναι καλύτερες.

Cinebench 2024 (Το ψηλότερο είναι καλύτερο)	NVIDIA L4	NVIDIA A2	NVIDIA T4
GPU	15.263	4.006	5.644

GPU PI

Το GPUPI 3.3.3 είναι μια έκδοση του ελαφρού βοηθητικού προγράμματος συγκριτικής αξιολόγησης που έχει σχεδιαστεί για τον υπολογισμό π (pi) σε δισεκατομμύρια δεκαδικά ψηφία χρησιμοποιώντας επιτάχυνση υλικού μέσω GPU και CPU. Αξιοποιεί την υπολογιστική ισχύ των OpenCL και CUDA που περιλαμβάνει τόσο κεντρική όσο και γραφική μονάδα επεξεργασίας. Τρέξαμε το CUDA μόνο και στις 3 GPU και οι αριθμοί εδώ είναι ο χρόνος υπολογισμού χωρίς να προστεθεί χρόνος μείωσης. Το χαμηλότερο είναι καλύτερο.

Χρόνος υπολογισμού GPU PI σε δευτερόλεπτα (Το χαμηλότερο είναι καλύτερο)	NVIDIA L4	NVIDIA A2	NVIDIA T4
GPUPI v3.3 – 1B	3.732 δευτ	19.799 δευτ	7.504 δευτ
GPUPI v3.3 – 32B	244.380	1.210.801 δευτ	486.231s

Ενώ τα προηγούμενα αποτελέσματα εξέταζαν μόνο μία επανάληψη κάθε κάρτας, είχαμε επίσης την ευκαιρία να δούμε μια ανάπτυξη 5x NVIDIA L4 μέσα στο Dell PowerEdge T560.

Χρόνος υπολογισμού GPU PI σε δευτερόλεπτα (Το χαμηλότερο είναι καλύτερο)	Dell PowerEdge T560 (2x Xeon Gold 6448Y) με 5x NVIDIA L4
GPUPI v3.3 – 1B	0sec 850ms
GPUPI v3.3 – 32B	50 δευτερόλεπτα 361 ms

Οκτανόπαγκος

Το OctaneBench είναι ένα βοηθητικό πρόγραμμα συγκριτικής αξιολόγησης για το OctaneRender, ένα άλλο 3D renderer με υποστήριξη RTX παρόμοια με το V-Ray.

Οκτάνια (Το υψηλότερο είναι καλύτερο)
Σκηνή	Πυρήνας	NVIDIA L4	NVIDIA A2	NVIDIA T4
Εσωτερικό	Κανάλια πληροφοριών	15.59	4.49	6.39
	Άμεσος φωτισμός	50,85	14.32	21,76
	Ανίχνευση διαδρομής	64.02	18.46	25,76
Ιδέα	Κανάλια πληροφοριών	9.30	2.77	3,93
	Άμεσος φωτισμός	39,34	11.53	16,79
	Ανίχνευση διαδρομής	48,24	14.21	20.32
ATV	Κανάλια πληροφοριών	24.38	6,83	9,50
	Άμεσος φωτισμός	54,86	16.05	21.98
	Ανίχνευση διαδρομής	68,98	20.06	27.50
Κουτί	Κανάλια πληροφοριών	12,89	3,88	5.42
	Άμεσος φωτισμός	48,80	14.59	21.36
	Ανίχνευση διαδρομής	54,56	16.51	23,85
Συνολική βαθμολογία		491,83	143,71	204,56

Geekbench 6 GPU

Το Geekbench 6 είναι ένα σημείο αναφοράς πολλαπλών πλατφορμών που μετρά τη συνολική απόδοση του συστήματος. Υπάρχουν επιλογές δοκιμής τόσο για τη συγκριτική αξιολόγηση CPU όσο και για GPU. Οι υψηλότερες βαθμολογίες είναι καλύτερες. Και πάλι, εξετάσαμε μόνο τα αποτελέσματα της GPU.

Μπορείτε να βρείτε συγκρίσεις με οποιοδήποτε σύστημα θέλετε στο πρόγραμμα περιήγησης Geekbench.

Geekbench 6.1.0 (Το υψηλότερο είναι καλύτερο)	NVIDIA L4	NVIDIA A2	NVIDIA T4
Geekbench GPU OpenCL	156.224	35.835	83.046

Luxmark

Το LuxMark είναι ένα εργαλείο συγκριτικής αξιολόγησης OpenCL μεταξύ πλατφορμών από εκείνους που διατηρούν τη μηχανή απόδοσης 3D ανοιχτού κώδικα LuxRender. Αυτό το εργαλείο εξετάζει την απόδοση της GPU στην τρισδιάστατη μοντελοποίηση, τον φωτισμό και την εργασία βίντεο. Για αυτήν την αναθεώρηση, χρησιμοποιήσαμε την πιο πρόσφατη έκδοση, v4alpha0. Στο LuxMark, το υψηλότερο είναι καλύτερο όταν πρόκειται για τη βαθμολογία.

Luxmark v4.0alpha0 GPU OpenCL (Το ψηλότερο είναι καλύτερο)	NVIDIA L4	NVIDIA A2	NVIDIA T4
Πάγκος αίθουσας	14.328	3.759	5.893
Πάγκος φαγητού	5.330	1.258	2.033

GROMACS CUDA

Προμηθεύουμε επίσης το μεταγλωττισμένο GROMACS, ένα λογισμικό μοριακής δυναμικής, ειδικά για το CUDA. Αυτή η κατά παραγγελία συλλογή είχε ως στόχο να αξιοποιήσει τις δυνατότητες παράλληλης επεξεργασίας των 5 GPU της NVIDIA L4, απαραίτητες για την επιτάχυνση των υπολογιστικών προσομοιώσεων.

Η διαδικασία περιλάμβανε τη χρήση του nvcc, του μεταγλωττιστή CUDA της NVIDIA, μαζί με πολλές επαναλήψεις των κατάλληλων σημαιών βελτιστοποίησης για να διασφαλιστεί ότι τα δυαδικά ήταν σωστά συντονισμένα στην αρχιτεκτονική του διακομιστή. Η συμπερίληψη της υποστήριξης CUDA στη συλλογή GROMACS επιτρέπει στο λογισμικό να διασυνδέεται απευθείας με το υλικό GPU, γεγονός που μπορεί να βελτιώσει δραστικά τους χρόνους υπολογισμού για πολύπλοκες προσομοιώσεις.

Η δοκιμή: Προσαρμοσμένη αλληλεπίδραση πρωτεϊνών στο Gromacs

Αξιοποιώντας ένα αρχείο εισόδου που παρέχεται από την κοινότητα από το διαφορετικό Discord μας, το οποίο περιείχε παραμέτρους και δομές προσαρμοσμένες για μια συγκεκριμένη μελέτη αλληλεπίδρασης πρωτεϊνών, ξεκινήσαμε μια προσομοίωση μοριακής δυναμικής. Τα αποτελέσματα ήταν αξιοσημείωτα—το σύστημα πέτυχε ρυθμό προσομοίωσης 170,268 νανοδευτερόλεπτα την ημέρα.

GPU	Σύστημα	ns/ημέρα	βασικός χρόνος (οι)
NVIDIA A4000	Whitebox AMD Ryzen 5950x	84.415	163.763
RTX NVIDIA 4070	Whitebox AMD Ryzen 7950x3d	131,85	209.692,3
5x NVIDIA L4	Dell T560 με 2x Intel Xeon Gold 6448Y	170.268	608.912,7

Περισσότερα από AI

NVIDIA L4

GPU NVIDIA L4

Στον πυρήνα του, το L4 προσφέρει εντυπωσιακές επιδόσεις 30,3 teraFLOP FP32, καθιστώντας το ιδανικό για υπολογιστ

PREV: Ανασκόπηση Samsung 990 EVO Plus SSD

NEXT: CoolIT Systems λανσάρει νέες μονάδες ψύξης υγρού (CDUs) για λύσεις ψύξης AI και HPC

Στοιχεία επικοινωνίας

Beijing Qianxing Jietong Technology Co., Ltd.

Υπεύθυνος Επικοινωνίας: Ms. Sandy Yang

Τηλ.:: 13426366826

περίπου

Κεντρικός υπολογιστής αποθήκευσης ραφιών: 12 κεντρικός υπολογιστής ραφιών Lenovo ThinkSystem SR630 κεντρικών υπολογιστών κόλπων 1U Rackmount; Επεξεργαστής της Intel Xeon ε-2378G κεντρικών υπολογιστών αποθήκευσης ραφιών ThinkSystem SR250 V2 4SFF; Το ράφι Inspur NF5180M6 1U κεντρικών υπολογιστών αποθήκευσης ραφιών της Intel C621A τοποθετεί τον κεντρικό υπολογιστή

Κεντρικός υπολογιστής τήξης Huawei: FusionServer 5288 κεντρικός υπολογιστής 32 DDR4 DIMMs ραφιών V6 4U 44 σκληροί δίσκοι 3,5 ιντσών; Υπερβολικός κεντρικός υπολογιστής 1288H V5 αποθήκευσης δικτύων κεντρικών υπολογιστών 1U τήξης Huawei υψηλής πυκνότητας; Νέο GEN OceanStor 5310 υβριδική αποθήκευση λάμψης κεντρικών υπολογιστών ραφιών Huawei

Αφήστε μήνυμα

Ανασκόπηση NVIDIA L4 GPU – Μαγικό Ραβδί Συμπερασμάτων Χαμηλής Ισχύος

Ανασκόπηση NVIDIA L4 GPU – Μαγικό Ραβδί Συμπερασμάτων Χαμηλής Ισχύος

MLPerf Inference 3.1 Απόδοση

1 x NVIDIA L4 – Dell PowerEdge XR7620

1, 2 και 4 NVIDIA L4 - Dell PowerEdge T560

NVIDIA L4 – Απόδοση εφαρμογής

Blender OptiX 4.0

Blackmagic RAW Speed ​​Test

GPU Cinebench 2024

GPU PI

Οκτανόπαγκος

Geekbench 6 GPU

Luxmark

GROMACS CUDA

Η δοκιμή: Προσαρμοσμένη αλληλεπίδραση πρωτεϊνών στο Gromacs

Περισσότερα από AI

Blackmagic RAW Speed Test