logo
Αρχική Σελίδα Υποθέσεις

Ανασκόπηση NVIDIA L4 GPU – Μαγικό Ραβδί Συμπερασμάτων Χαμηλής Ισχύος

Πιστοποίηση
Κίνα Beijing Qianxing Jietong Technology Co., Ltd. Πιστοποιήσεις
Κίνα Beijing Qianxing Jietong Technology Co., Ltd. Πιστοποιήσεις
Αναθεωρήσεις πελατών
Το προσωπικό πωλήσεων της Co. τεχνολογίας του Πεκίνου Qianxing Jietong, ΕΠΕ είναι πολύ επαγγελματικό και υπομονετικό. Μπορούν να παρέχουν τις αναφορές γρήγορα. Η ποιότητα και η συσκευασία των προϊόντων είναι επίσης πολύ υψηλές. Η συνεργασία μας είναι πολύ ομαλή.

—— 《Festfing DV》 LLC

Όταν έψαχνα τη Intel ΚΜΕ και Toshiba SSD επειγόντως, αμμώδης από το Πεκίνο Qianxing Jietong η Co. τεχνολογίας, ΕΠΕ μου έδωσε πολλή βοήθεια και με πήρε τα προϊόντα που χρειάστηκα γρήγορα. Την εκτιμώ πραγματικά.

—— Γεν γατακιών

Αμμώδης του Πεκίνου Qianxing Jietong η Co. τεχνολογίας, ΕΠΕ είναι πολύ προσεκτικός πωλητής, ο οποίος μπορεί να υπενθυμίσει σε με τα λάθη διαμόρφωσης εγκαίρως πότε αγοράζω έναν κεντρικό υπολογιστή. Οι μηχανικοί είναι επίσης πολύ επαγγελματικοί και μπορούν γρήγορα να ολοκληρώσουν την εξεταστική διαδικασία.

—— Strelkin Mikhail Vladimirovich

Είμαστε πολύ ευχαριστημένοι με την εμπειρία μας συνεργασίας με την Beijing Qianxing Jietong. Η ποιότητα των προϊόντων είναι εξαιρετική και η παράδοση γίνεται πάντα στην ώρα της. Η ομάδα πωλήσεων είναι επαγγελματική, υπομονετική και πολύ εξυπηρετική με όλα μας τα ερωτήματα. Εκτιμούμε πραγματικά την υποστήριξή τους και προσβλέπουμε σε μια μακροχρόνια συνεργασία. Συνιστάται ανεπιφύλακτα!

—— Ahmad Navid

Ποιότητα: Μεγάλη εμπειρία με τον προμηθευτή μου.Το MikroTik RB3011 είχε ήδη χρησιμοποιηθεί, αλλά ήταν σε πολύ καλή κατάσταση και όλα λειτουργούν τέλεια.Η επικοινωνία ήταν γρήγορη και ομαλή.Και όλες μου οι ανησυχίες λύθηκαν γρήγορα.- Πολύ αξιόπιστος προμηθευτής.

—— Γκεράν Κολέσιο

Είμαι Online Chat Now

Ανασκόπηση NVIDIA L4 GPU – Μαγικό Ραβδί Συμπερασμάτων Χαμηλής Ισχύος

March 13, 2026
Στο αδυσώπητο κύμα καινοτομίας στο σημερινό τοπίο της τεχνητής νοημοσύνης, η μέτρηση και η κατανόηση των δυνατοτήτων διαφόρων πλατφορμών υλικού είναι κρίσιμης σημασίας. Δεν απαιτούν όλες οι εφαρμογές τεχνητής νοημοσύνης τεράστιες φάρμες εκπαίδευσης GPU—υπάρχει ένα σημαντικό τμήμα συμπερασμάτων τεχνητής νοημοσύνης που συχνά απαιτεί λιγότερη ισχύ GPU, ιδιαίτερα στην άκρη. Σε αυτήν την ανασκόπηση, εξετάζουμε πολλές GPU NVIDIA L4 σε τρεις διαφορετικούς διακομιστές Dell και μια σειρά φόρτων εργασίας, συμπεριλαμβανομένου του MLperf, για να αξιολογήσουμε την απόδοση του L4.
 
τελευταία εταιρεία περί Ανασκόπηση NVIDIA L4 GPU – Μαγικό Ραβδί Συμπερασμάτων Χαμηλής Ισχύος  0
 
NVIDIA L4
GPU NVIDIA L4
Στον πυρήνα του, το L4 προσφέρει εντυπωσιακές επιδόσεις 30,3 teraFLOP FP32, καθιστώντας το ιδανικό για υπολογιστικές εργασίες υψηλής ακρίβειας. Οι δυνατότητές του επεκτείνονται σε υπολογισμούς μικτής ακρίβειας μέσω TF32, FP16 και BFLOAT16 Tensor Cores - κρίσιμα χαρακτηριστικά για τη βελτίωση της αποτελεσματικότητας βαθιάς μάθησης. Σύμφωνα με το φύλλο προδιαγραφών L4, η απόδοση σε αυτές τις λειτουργίες μικτής ακρίβειας κυμαίνεται από 60 έως 121 teraFLOP.
 
Το L4 υπερέχει σε εργασίες χαμηλής ακρίβειας, διαθέτοντας 242,5 teraFLOP με τους πυρήνες τανυστού FP8 και INT8, οι οποίοι ενισχύουν σημαντικά την απόδοση συμπερασμάτων νευρωνικών δικτύων. Εξοπλισμένο με 24 GB μνήμης GDDR6 και εύρος ζώνης 300 GB/s, μπορεί εύκολα να χειριστεί μεγάλα σύνολα δεδομένων και πολύπλοκα μοντέλα. Αυτό που ξεχωρίζει περισσότερο στο L4, ωστόσο, είναι η ενεργειακή του απόδοση: με 72W TDP, είναι κατάλληλο για μια μεγάλη ποικιλία υπολογιστικών περιβαλλόντων. Αυτός ο συνδυασμός υψηλής απόδοσης, απόδοσης μνήμης και χαμηλής κατανάλωσης ενέργειας καθιστά το NVIDIA L4 μια συναρπαστική επιλογή για την αντιμετώπιση προκλήσεων υπολογιστών αιχμής.
 
τελευταία εταιρεία περί Ανασκόπηση NVIDIA L4 GPU – Μαγικό Ραβδί Συμπερασμάτων Χαμηλής Ισχύος  1
 
Προδιαγραφές NVIDIA L4
ΠΠ 32 30,3 teraFLOP
TF32 Tensor Core 60 teraFLOP
FP16 Tensor Core 121 teraFLOP
BFLOAT16 Tensor Core 121 teraFLOP
FP8 Tensor Core 242,5 teraFLOP
INT8 Tensor Core 242,5 ΤΟΠ
Μνήμη GPU 24 GB GDDR6
Εύρος ζώνης μνήμης GPU 300 GB/s
Μέγιστη θερμική ισχύς σχεδιασμού (TDP) 72W
Form Factor PCIe χαμηλού προφίλ 1 υποδοχής
Αλληλοσυνδέω PCIe Gen4 x16
Διάγραμμα προδιαγραφών L4

 

 

Φυσικά, με την τιμή του L4 κάπου κοντά στα 2500 $, το A2 να έρχεται περίπου στη μισή τιμή και το παλιό (αλλά ακόμα αρκετά ικανό) T4 διαθέσιμο για λιγότερο από 1000 $, το προφανές ερώτημα είναι ποια είναι η διαφορά μεταξύ αυτών των τριών GPU συμπερασμάτων.

Προδιαγραφές NVIDIA L4, A2 και T4 NVIDIA L4 NVIDIA A2 NVIDIA T4
ΠΠ 32 30,3 teraFLOP 4,5 teraFLOP 8,1 teraFLOP
TF32 Tensor Core 60 teraFLOP 9 teraFLOP N/A
FP16 Tensor Core 121 teraFLOP 18 teraFLOP N/A
BFLOAT16 Tensor Core 121 teraFLOP 18 teraFLOP N/A
FP8 Tensor Core 242,5 teraFLOP N/A N/A
INT8 Tensor Core 242,5 ΤΟΠ 36 ΚΟΡΥΦΕΣ 130 ΚΟΡΥΦΕΣ
Μνήμη GPU 24 GB GDDR6 16 GB GDDR6 16 GB GDDR6
Εύρος ζώνης μνήμης GPU 300 GB/s 200 GB/s 320+ GB/s
Μέγιστη θερμική ισχύς σχεδιασμού (TDP) 72W 40-60W 70W
Form Factor PCIe χαμηλού προφίλ 1 υποδοχής
Αλληλοσυνδέω PCIe Gen4 x16 PCIe Gen4 x8 PCIe Gen3 x16
Διάγραμμα προδιαγραφών L4 Α2 Τ4

 

 

Ένα πράγμα που πρέπει να καταλάβετε όταν εξετάζετε αυτές τις τρεις κάρτες είναι ότι δεν είναι ακριβώς αντικαταστάσεις μία προς μία γενιά, γεγονός που εξηγεί γιατί το T4 εξακολουθεί να παραμένει, πολλά χρόνια αργότερα, μια δημοφιλής επιλογή για ορισμένες περιπτώσεις χρήσης. Το A2 βγήκε ως αντικατάσταση του T4 ως επιλογή χαμηλής κατανάλωσης και πιο συμβατή (x8 vs x16 μηχανική). Τεχνικά, το L4 αντικαθιστά τότε το T4, με το A2 να βρίσκεται στο ενδιάμεσο που μπορεί να ανανεωθεί ή να μην ανανεωθεί κάποια στιγμή στο μέλλον.

MLPerf Inference 3.1 Απόδοση

Η MLPerf είναι μια κοινοπραξία ηγετών τεχνητής νοημοσύνης από τον ακαδημαϊκό χώρο, την έρευνα και τη βιομηχανία που ιδρύθηκε για να παρέχει δίκαια και σχετικά σημεία αναφοράς υλικού και λογισμικού τεχνητής νοημοσύνης. Αυτά τα σημεία αναφοράς έχουν σχεδιαστεί για να μετρούν την απόδοση του υλικού, του λογισμικού και των υπηρεσιών μηχανικής εκμάθησης σε διάφορες εργασίες και σενάρια.

Οι δοκιμές μας επικεντρώνονται σε δύο συγκεκριμένα σημεία αναφοράς MLPerf: Resnet50 και BERT.

  • Resnet50: Αυτό είναι ένα συνελικτικό νευρωνικό δίκτυο που χρησιμοποιείται κυρίως για ταξινόμηση εικόνων. Είναι ένας καλός δείκτης του πόσο καλά ένα σύστημα μπορεί να χειριστεί εργασίες βαθιάς μάθησης που σχετίζονται με την επεξεργασία εικόνας.
  • BERT (Αμφίδρομες αναπαραστάσεις κωδικοποιητή από μετασχηματιστές): Αυτό το σημείο αναφοράς εστιάζει σε εργασίες επεξεργασίας φυσικής γλώσσας, προσφέροντας πληροφορίες για το πώς λειτουργεί ένα σύστημα στην κατανόηση και την επεξεργασία της ανθρώπινης γλώσσας.

Και οι δύο αυτές δοκιμές είναι ζωτικής σημασίας για την αξιολόγηση των δυνατοτήτων του υλικού τεχνητής νοημοσύνης σε σενάρια πραγματικού κόσμου που περιλαμβάνουν επεξεργασία εικόνας και γλώσσας.

Η αξιολόγηση του NVIDIA L4 με αυτά τα σημεία αναφοράς είναι κρίσιμη για να βοηθήσει στην κατανόηση των δυνατοτήτων της GPU L4 σε συγκεκριμένες εργασίες AI. Προσφέρει επίσης πληροφορίες σχετικά με το πώς οι διαφορετικές διαμορφώσεις (μονές, διπλές και τέσσερις ρυθμίσεις) επηρεάζουν την απόδοση. Αυτές οι πληροφορίες είναι ζωτικής σημασίας για επαγγελματίες και οργανισμούς που θέλουν να βελτιστοποιήσουν την υποδομή AI τους.

Τα μοντέλα λειτουργούν σε δύο βασικές λειτουργίες: Διακομιστής και Εκτός σύνδεσης.

  • Λειτουργία εκτός σύνδεσης: Αυτή η λειτουργία μετρά την απόδοση ενός συστήματος όταν όλα τα δεδομένα είναι διαθέσιμα για επεξεργασία ταυτόχρονα. Είναι παρόμοιο με τη μαζική επεξεργασία, όπου το σύστημα επεξεργάζεται ένα μεγάλο σύνολο δεδομένων σε μία μόνο παρτίδα. Η λειτουργία εκτός σύνδεσης είναι ζωτικής σημασίας για σενάρια όπου η καθυστέρηση δεν είναι πρωταρχικό μέλημα, αλλά η απόδοση και η αποτελεσματικότητα.
  • Λειτουργία διακομιστή: Αντίθετα, η λειτουργία διακομιστή αξιολογεί την απόδοση του συστήματος σε ένα σενάριο που μιμείται ένα πραγματικό περιβάλλον διακομιστή, όπου τα αιτήματα έρχονται ένα κάθε φορά. Αυτή η λειτουργία είναι ευαίσθητη σε καθυστέρηση, μετρώντας πόσο γρήγορα το σύστημα μπορεί να ανταποκριθεί σε κάθε αίτημα. Είναι απαραίτητο για εφαρμογές σε πραγματικό χρόνο, όπως διακομιστές ιστού ή διαδραστικές εφαρμογές, όπου είναι απαραίτητη η άμεση απόκριση.

1 x NVIDIA L4 – Dell PowerEdge XR7620

 

τελευταία εταιρεία περί Ανασκόπηση NVIDIA L4 GPU – Μαγικό Ραβδί Συμπερασμάτων Χαμηλής Ισχύος  2

Ως μέρος της πρόσφατης ανασκόπησης του Dell PowerEdge XR7620, εξοπλισμένο με ένα μόνο NVIDIA L4, το καταφέραμε να εκτελέσουμε πολλές εργασίες, συμπεριλαμβανομένου του MLPerf.

Η διαμόρφωση του συστήματος δοκιμής μας περιελάμβανε τα ακόλουθα στοιχεία:

  • 2 x Xeon Gold 6426Y – 16 πυρήνων 2,5 GHz
  • 1 x NVIDIA L4
  • 8 x 16 GB DDR5
  • 480 GB BOSS RAID1
  • Διακομιστής Ubuntu 22.04
  • NVIDIA Πρόγραμμα οδήγησης 535
Dell PowerEdge XR7620 1x NVIDIA L4 Σκορ
Resnet50 – Διακομιστής 12.204,40
Resnet50 – Εκτός σύνδεσης 13.010,20
BERT K99 – Διακομιστής 898.945
BERT K99 – Εκτός σύνδεσης 973.435

 

 

Η απόδοση σε σενάρια διακομιστή και εκτός σύνδεσης για το Resnet50 και το BERT K99 είναι σχεδόν πανομοιότυπη, υποδεικνύοντας ότι το L4 διατηρεί σταθερή απόδοση σε διαφορετικά μοντέλα διακομιστών.

1, 2 και 4 NVIDIA L4 - Dell PowerEdge T560

τελευταία εταιρεία περί Ανασκόπηση NVIDIA L4 GPU – Μαγικό Ραβδί Συμπερασμάτων Χαμηλής Ισχύος  3

Η διαμόρφωση της μονάδας ελέγχου μας περιελάμβανε τα ακόλουθα στοιχεία:

  • 2 x Intel Xeon Gold 6448Y (32 πυρήνων/64 νημάτων το καθένα, 225 watt TDP, 2,1-4,1 GHz)
  • 8 x 1,6 TB Solidigm P5520 SSD με κάρτα RAID PERC 12
  • 1-4x NVIDIA L4 GPU
  • 8 x 64 GB RDIMM
  • Διακομιστής Ubuntu 22.04
  • NVIDIA Πρόγραμμα οδήγησης 535
Επιστρέφοντας στο κέντρο δεδομένων από την άκρη και χρησιμοποιώντας τον ευέλικτο διακομιστή Dell T560 Tower, παρατηρήσαμε ότι το L4 αποδίδει εξίσου καλά στη δοκιμή μεμονωμένης GPU. Αυτό δείχνει ότι και οι δύο πλατφόρμες μπορούν να προσφέρουν μια σταθερή βάση στο L4 χωρίς εμπόδια.
 
Dell PowerEdge T560 1x NVIDIA L4 Σκορ
Resnet50 – Διακομιστής 12.204,40
Resnet50 – Εκτός σύνδεσης 12.872,10
Bert K99 – Διακομιστής 898.945
Bert K99 – Εκτός σύνδεσης 945.146

 

 

Στις δοκιμές μας με δύο L4 στο Dell T560, παρατηρήσαμε αυτή τη σχεδόν γραμμική κλιμάκωση στην απόδοση τόσο για τα σημεία αναφοράς Resnet50 όσο και για το BERT K99. Αυτή η κλιμάκωση είναι απόδειξη της αποτελεσματικότητας των GPU L4 και της ικανότητάς τους να λειτουργούν παράλληλα χωρίς σημαντικές απώλειες λόγω γενικών εξόδων ή αναποτελεσματικότητας.

Dell PowerEdge T560 2x NVIDIA L4 Σκορ
Resnet50 – Διακομιστής 24.407,50
Resnet50 – Εκτός σύνδεσης 25.463,20
BERT K99 – Διακομιστής 1.801,28
BERT K99 – Εκτός σύνδεσης 1.904,10

 

 

Η σταθερή γραμμική κλιμάκωση που είδαμε με δύο GPU NVIDIA L4 επεκτείνεται εντυπωσιακά σε διαμορφώσεις που διαθέτουν τέσσερις μονάδες L4. Αυτή η κλιμάκωση είναι ιδιαίτερα αξιοσημείωτη, καθώς η διατήρηση γραμμικών κερδών απόδοσης γίνεται όλο και πιο δύσκολη με κάθε προσθήκη GPU λόγω της πολυπλοκότητας της παράλληλης επεξεργασίας και διαχείρισης πόρων.

Dell PowerEdge T560 4x NVIDIA L4 Σκορ
Resnet50 – Διακομιστής 48.818,30
Resnet50 – Εκτός σύνδεσης 51.381,70
BERT K99 – Διακομιστής 3.604,96
BERT K99 – Εκτός σύνδεσης 3.821,46

 

 

Αυτά τα αποτελέσματα είναι μόνο για επεξηγηματικούς σκοπούς και όχι ανταγωνιστικά ή επίσημα αποτελέσματα MLPerf. Για μια πλήρη λίστα επίσημων αποτελεσμάτων, επισκεφθείτε τη σελίδα αποτελεσμάτων MLPerf.

Εκτός από την επικύρωση της γραμμικής επεκτασιμότητας των GPU της NVIDIA L4, οι δοκιμές μας στο εργαστήριο ρίχνουν φως στις πρακτικές συνέπειες της ανάπτυξης αυτών των μονάδων σε διαφορετικά λειτουργικά σενάρια. Για παράδειγμα, η συνέπεια στην απόδοση μεταξύ των λειτουργιών διακομιστή και εκτός σύνδεσης σε όλες τις διαμορφώσεις με τις GPU L4 αποκαλύπτει την αξιοπιστία και την ευελιξία τους.

Αυτή η πτυχή είναι ιδιαίτερα σημαντική για τις επιχειρήσεις και τα ερευνητικά ιδρύματα όπου τα λειτουργικά πλαίσια ποικίλλουν σημαντικά. Επιπλέον, οι παρατηρήσεις μας σχετικά με τον ελάχιστο αντίκτυπο των σημείων συμφόρησης διασύνδεσης και την αποτελεσματικότητα του συγχρονισμού GPU σε ρυθμίσεις πολλαπλών GPU παρέχουν πολύτιμες πληροφορίες για όσους θέλουν να κλιμακώσουν την υποδομή AI τους. Αυτές οι γνώσεις ξεπερνούν τους απλούς αριθμούς αναφοράς, προσφέροντας μια βαθύτερη κατανόηση του τρόπου με τον οποίο τέτοιο υλικό μπορεί να χρησιμοποιηθεί βέλτιστα σε σενάρια πραγματικού κόσμου, καθοδηγώντας καλύτερες αρχιτεκτονικές αποφάσεις και επενδυτικές στρατηγικές σε υποδομές AI και HPC.

NVIDIA L4 – Απόδοση εφαρμογής

Συγκρίναμε την απόδοση του νέου NVIDIA L4 με το NVIDIA A2 και το NVIDIA T4 που προηγήθηκε. Για να παρουσιάσουμε αυτήν την αναβάθμιση απόδοσης σε σχέση με τα προηγούμενα μοντέλα, αναπτύξαμε και τα τρία μοντέλα σε έναν διακομιστή στο εργαστήριό μας, με τον Windows Server 2022 και τα πιο πρόσφατα προγράμματα οδήγησης NVIDIA, αξιοποιώντας ολόκληρη τη σουίτα δοκιμών GPU.

Αυτές οι κάρτες δοκιμάστηκαν σε Dell Poweredge R760 με την ακόλουθη διαμόρφωση:

  • 2 x Intel Xeon Gold 6430 (32 πυρήνες, 2,1 GHz)
  • Windows Server 2022
  • Πρόγραμμα οδήγησης NVIDIA 538.15
  • Το ECC απενεργοποιήθηκε σε όλες τις κάρτες για 1x δειγματοληψία
τελευταία εταιρεία περί Ανασκόπηση NVIDIA L4 GPU – Μαγικό Ραβδί Συμπερασμάτων Χαμηλής Ισχύος  4

Καθώς ξεκινάμε τη δοκιμή απόδοσης μεταξύ αυτής της ομάδας τριών εταιρικών GPU, είναι σημαντικό να σημειωθούν οι μοναδικές διαφορές απόδοσης μεταξύ των προηγούμενων μοντέλων A2 και T4. Όταν κυκλοφόρησε το A2, προσέφερε μερικές αξιοσημείωτες βελτιώσεις, όπως χαμηλότερη κατανάλωση ενέργειας και λειτουργία σε μικρότερη υποδοχή PCIe Gen4 x8, αντί για τη μεγαλύτερη υποδοχή PCIe Gen3 x16 που απαιτούσε το παλαιότερο T4. Από το ρόπαλο του επέτρεψε να εισχωρήσει σε περισσότερα συστήματα, ειδικά με το μικρότερο αποτύπωμα που χρειαζόταν.

Blender OptiX 4.0

Το Blender OptiX είναι μια εφαρμογή μοντελοποίησης 3D ανοιχτού κώδικα. Αυτή η δοκιμή μπορεί να εκτελεστεί τόσο για CPU όσο και για GPU, αλλά κάναμε μόνο GPU όπως οι περισσότερες άλλες δοκιμές εδώ. Αυτό το σημείο αναφοράς εκτελέστηκε χρησιμοποιώντας το βοηθητικό πρόγραμμα Blender Benchmark CLI. Η βαθμολογία είναι δείγματα ανά λεπτό, με το υψηλότερο να είναι καλύτερο.

Μπλέντερ 4.0
(Το ψηλότερο είναι καλύτερο)
NVIDIA L4 NVIDIA A2 Nvidia T4
GPU Blender CLI – Monster 2.207.765 458.692 850.076
GPU Blender CLI – Junkshop 1.127.829 292.553 517.243
GPU Blender CLI – Τάξη 1.111.753 262.387 478.786

 

 

Blackmagic RAW Speed ​​Test

Δοκιμάζουμε CPU και GPU με το RAW Speed ​​Test της Blackmagic που ελέγχει τις ταχύτητες αναπαραγωγής βίντεο. Αυτό είναι περισσότερο μια υβριδική δοκιμή που περιλαμβάνει απόδοση CPU και GPU για αποκωδικοποίηση RAW σε πραγματικό κόσμο. Αυτά εμφανίζονται ως ξεχωριστά αποτελέσματα, αλλά εστιάζουμε μόνο στις GPU εδώ, επομένως τα αποτελέσματα της CPU παραλείπονται.

Blackmagic RAW Speed ​​Test
(Το ψηλότερο είναι καλύτερο)
NVIDIA L4 NVIDIA A2 NVIDIA T4
8Κ CUDA 95 FPS 38 FPS 53 FPS

GPU Cinebench 2024

Το Maxon's Cinebench 2024 είναι ένα σημείο αναφοράς απόδοσης CPU και GPU που χρησιμοποιεί όλους τους πυρήνες και τα νήματα της CPU. Και πάλι, δεδομένου ότι εστιάζουμε στα αποτελέσματα της GPU, δεν εκτελέσαμε τα τμήματα της CPU της δοκιμής. Οι υψηλότερες βαθμολογίες είναι καλύτερες.

Cinebench 2024
(Το ψηλότερο είναι καλύτερο)
NVIDIA L4 NVIDIA A2 NVIDIA T4
GPU 15.263 4.006 5.644

GPU PI

Το GPUPI 3.3.3 είναι μια έκδοση του ελαφρού βοηθητικού προγράμματος συγκριτικής αξιολόγησης που έχει σχεδιαστεί για τον υπολογισμό π (pi) σε δισεκατομμύρια δεκαδικά ψηφία χρησιμοποιώντας επιτάχυνση υλικού μέσω GPU και CPU. Αξιοποιεί την υπολογιστική ισχύ των OpenCL και CUDA που περιλαμβάνει τόσο κεντρική όσο και γραφική μονάδα επεξεργασίας. Τρέξαμε το CUDA μόνο και στις 3 GPU και οι αριθμοί εδώ είναι ο χρόνος υπολογισμού χωρίς να προστεθεί χρόνος μείωσης. Το χαμηλότερο είναι καλύτερο.

Χρόνος υπολογισμού GPU PI σε δευτερόλεπτα
(Το χαμηλότερο είναι καλύτερο)
NVIDIA L4 NVIDIA A2 NVIDIA T4
GPUPI v3.3 – 1B 3.732 δευτ 19.799 δευτ 7.504 δευτ
GPUPI v3.3 – 32B 244.380 1.210.801 δευτ 486.231s

Ενώ τα προηγούμενα αποτελέσματα εξέταζαν μόνο μία επανάληψη κάθε κάρτας, είχαμε επίσης την ευκαιρία να δούμε μια ανάπτυξη 5x NVIDIA L4 μέσα στο Dell PowerEdge T560.

Χρόνος υπολογισμού GPU PI σε δευτερόλεπτα
(Το χαμηλότερο είναι καλύτερο)
Dell PowerEdge T560 (2x Xeon Gold 6448Y) με 5x NVIDIA L4
GPUPI v3.3 – 1B 0sec 850ms
GPUPI v3.3 – 32B 50 δευτερόλεπτα 361 ms

 

 

Οκτανόπαγκος

Το OctaneBench είναι ένα βοηθητικό πρόγραμμα συγκριτικής αξιολόγησης για το OctaneRender, ένα άλλο 3D renderer με υποστήριξη RTX παρόμοια με το V-Ray.

Οκτάνια (Το υψηλότερο είναι καλύτερο)
Σκηνή Πυρήνας NVIDIA L4 NVIDIA A2 NVIDIA T4
Εσωτερικό Κανάλια πληροφοριών 15.59 4.49 6.39
  Άμεσος φωτισμός 50,85 14.32 21,76
  Ανίχνευση διαδρομής 64.02 18.46 25,76
Ιδέα Κανάλια πληροφοριών 9.30 2.77 3,93
  Άμεσος φωτισμός 39,34 11.53 16,79
  Ανίχνευση διαδρομής 48,24 14.21 20.32
ATV Κανάλια πληροφοριών 24.38 6,83 9,50
  Άμεσος φωτισμός 54,86 16.05 21.98
  Ανίχνευση διαδρομής 68,98 20.06 27.50
Κουτί Κανάλια πληροφοριών 12,89 3,88 5.42
  Άμεσος φωτισμός 48,80 14.59 21.36
  Ανίχνευση διαδρομής 54,56 16.51 23,85
Συνολική βαθμολογία 491,83 143,71 204,56

 

 

Geekbench 6 GPU

Το Geekbench 6 είναι ένα σημείο αναφοράς πολλαπλών πλατφορμών που μετρά τη συνολική απόδοση του συστήματος. Υπάρχουν επιλογές δοκιμής τόσο για τη συγκριτική αξιολόγηση CPU όσο και για GPU. Οι υψηλότερες βαθμολογίες είναι καλύτερες. Και πάλι, εξετάσαμε μόνο τα αποτελέσματα της GPU.

Μπορείτε να βρείτε συγκρίσεις με οποιοδήποτε σύστημα θέλετε στο πρόγραμμα περιήγησης Geekbench.

Geekbench 6.1.0
(Το υψηλότερο είναι καλύτερο)
NVIDIA L4 NVIDIA A2 NVIDIA T4
Geekbench GPU OpenCL 156.224 35.835 83.046

Luxmark

Το LuxMark είναι ένα εργαλείο συγκριτικής αξιολόγησης OpenCL μεταξύ πλατφορμών από εκείνους που διατηρούν τη μηχανή απόδοσης 3D ανοιχτού κώδικα LuxRender. Αυτό το εργαλείο εξετάζει την απόδοση της GPU στην τρισδιάστατη μοντελοποίηση, τον φωτισμό και την εργασία βίντεο. Για αυτήν την αναθεώρηση, χρησιμοποιήσαμε την πιο πρόσφατη έκδοση, v4alpha0. Στο LuxMark, το υψηλότερο είναι καλύτερο όταν πρόκειται για τη βαθμολογία.

Luxmark v4.0alpha0
GPU OpenCL
(Το ψηλότερο είναι καλύτερο)
NVIDIA L4 NVIDIA A2 NVIDIA T4
Πάγκος αίθουσας 14.328 3.759 5.893
Πάγκος φαγητού 5.330 1.258 2.033

GROMACS CUDA

Προμηθεύουμε επίσης το μεταγλωττισμένο GROMACS, ένα λογισμικό μοριακής δυναμικής, ειδικά για το CUDA. Αυτή η κατά παραγγελία συλλογή είχε ως στόχο να αξιοποιήσει τις δυνατότητες παράλληλης επεξεργασίας των 5 GPU της NVIDIA L4, απαραίτητες για την επιτάχυνση των υπολογιστικών προσομοιώσεων.

Η διαδικασία περιλάμβανε τη χρήση του nvcc, του μεταγλωττιστή CUDA της NVIDIA, μαζί με πολλές επαναλήψεις των κατάλληλων σημαιών βελτιστοποίησης για να διασφαλιστεί ότι τα δυαδικά ήταν σωστά συντονισμένα στην αρχιτεκτονική του διακομιστή. Η συμπερίληψη της υποστήριξης CUDA στη συλλογή GROMACS επιτρέπει στο λογισμικό να διασυνδέεται απευθείας με το υλικό GPU, γεγονός που μπορεί να βελτιώσει δραστικά τους χρόνους υπολογισμού για πολύπλοκες προσομοιώσεις.

Η δοκιμή: Προσαρμοσμένη αλληλεπίδραση πρωτεϊνών στο Gromacs

Αξιοποιώντας ένα αρχείο εισόδου που παρέχεται από την κοινότητα από το διαφορετικό Discord μας, το οποίο περιείχε παραμέτρους και δομές προσαρμοσμένες για μια συγκεκριμένη μελέτη αλληλεπίδρασης πρωτεϊνών, ξεκινήσαμε μια προσομοίωση μοριακής δυναμικής. Τα αποτελέσματα ήταν αξιοσημείωτα—το σύστημα πέτυχε ρυθμό προσομοίωσης 170,268 νανοδευτερόλεπτα την ημέρα.

GPU Σύστημα ns/ημέρα βασικός χρόνος (οι)
NVIDIA A4000 Whitebox AMD Ryzen 5950x 84.415 163.763
RTX NVIDIA 4070 Whitebox AMD Ryzen 7950x3d 131,85 209.692,3
5x NVIDIA L4 Dell T560 με 2x Intel Xeon Gold 6448Y 170.268 608.912,7

Περισσότερα από AI

Στο αδυσώπητο κύμα καινοτομίας στο σημερινό τοπίο της τεχνητής νοημοσύνης, η μέτρηση και η κατανόηση των δυνατοτήτων διαφόρων πλατφορμών υλικού είναι κρίσιμης σημασίας. Δεν απαιτούν όλες οι εφαρμογές τεχνητής νοημοσύνης τεράστιες φάρμες εκπαίδευσης GPU—υπάρχει ένα σημαντικό τμήμα συμπερασμάτων τεχνητής νοημοσύνης που συχνά απαιτεί λιγότερη ισχύ GPU, ιδιαίτερα στην άκρη. Σε αυτήν την ανασκόπηση, εξετάζουμε πολλές GPU NVIDIA L4 σε τρεις διαφορετικούς διακομιστές Dell και μια σειρά φόρτων εργασίας, συμπεριλαμβανομένου του MLperf, για να αξιολογήσουμε την απόδοση του L4.
 
NVIDIA L4
GPU NVIDIA L4
Στον πυρήνα του, το L4 προσφέρει εντυπωσιακές επιδόσεις 30,3 teraFLOP FP32, καθιστώντας το ιδανικό για υπολογιστ
Στοιχεία επικοινωνίας
Beijing Qianxing Jietong Technology Co., Ltd.

Υπεύθυνος Επικοινωνίας: Ms. Sandy Yang

Τηλ.:: 13426366826

Στείλετε το ερώτημά σας απευθείας σε εμάς (0 / 3000)