Προδιαγραφές DapuStor J5060
| J5060 | |
|---|---|
| Χωρητικότητα (TB) | 61,44 |
| Παράγοντας Μορφής | U.2 15mm |
| Διεπαφή | PCIe 4.0 x4, NVMe 1.4a, Υποστηρίζεται διπλή θύρα |
| Εύρος Ζώνης Ανάγνωσης/Εγγραφής (128K) MB/s | 7400 / 3000 |
| Τυχαία Ανάγνωση/Εγγραφή (4KB) K IOPS | 1500 / 30 (16KB) |
| Καθυστέρηση Τυχαίας Ανάγνωσης 4K (Τυπ.) R/W µs | 105 (4KB) / 33 (16KB) |
| Καθυστέρηση Διαδοχικής Ανάγνωσης 4K (Τυπ.) R/W µs | 7 (4KB) / 12 (16KB) |
| Τυπική Ισχύς (W) | 23 |
| Ισχύς Αδράνειας (W) | 5 |
| Τύπος Flash | 3D Enterprise QLC NAND Flash |
| Αντοχή | 0,5 DWPD |
| MTBF | 2 εκατομμύρια ώρες |
| UBER | 1 τομέας ανά 10^17 bits που διαβάστηκαν |
| Εγγύηση | 5 έτη |
Απόδοση DapuStor J5060
Checkpointing
Για να αξιολογήσουμε την απόδοση του SSD DapuStor J5060 στον πραγματικό κόσμο σε περιβάλλοντα εκπαίδευσης AI, χρησιμοποιήσαμε το εργαλείο benchmark Data and Learning Input/Output (DLIO). Αναπτύχθηκε από το Argonne National Laboratory, το DLIO έχει σχεδιαστεί ειδικά για να δοκιμάζει μοτίβα I/O σε φόρτους εργασίας βαθιάς μάθησης. Παρέχει πληροφορίες για το πώς τα συστήματα αποθήκευσης χειρίζονται προκλήσεις όπως το checkpointing, η εισαγωγή δεδομένων και η εκπαίδευση μοντέλων. Το παρακάτω διάγραμμα απεικονίζει πώς και οι δύο μονάδες χειρίζονται τη διαδικασία σε 99 checkpoints. Κατά την εκπαίδευση μοντέλων μηχανικής μάθησης, τα checkpoints είναι απαραίτητα για την περιοδική αποθήκευση της κατάστασης του μοντέλου, αποτρέποντας την απώλεια προόδου κατά τη διάρκεια διακοπών ή διακοπών ρεύματος. Αυτή η απαίτηση αποθήκευσης απαιτεί ισχυρή απόδοση, ειδικά υπό συνεχείς ή εντατικούς φόρτους εργασίας.
Η πλατφόρμα που επιλέχθηκε για αυτήν την εργασία ήταν το Dell PowerEdge R760 που εκτελούσε Ubuntu 22.04.02 LTS. Χρησιμοποιήσαμε το benchmark DLIO έκδοση 2.0 από την έκδοση της 13ης Αυγούστου 2024. Η διαμόρφωση του συστήματός μας περιγράφεται παρακάτω:
- 2 x Intel Xeon Gold 6430 (32-Core, 2.1GHz)
- 16 x 64GB DDR5-4400
- 480GB Dell BOSS SSD
- Serial Cables Gen5 JBOF
- 61,44TB Dapustor J5060
- 61,44TB Solidigm D5-P5336
Για να διασφαλίσουμε ότι η μέτρηση των επιδόσεων μας αντικατόπτριζε σενάρια πραγματικού κόσμου, βασίσαμε τις δοκιμές μας στην αρχιτεκτονική μοντέλου LLAMA 3.1 405B. Εφαρμόσαμε checkpointing χρησιμοποιώντας torch.save() για να καταγράψουμε τις παραμέτρους του μοντέλου, τις καταστάσεις του βελτιστοποιητή και τις καταστάσεις των επιπέδων. Η εγκατάστασή μας προσομοίωσε ένα σύστημα 8 GPU, εφαρμόζοντας μια στρατηγική υβριδικής παραλληλισμού με 4-way tensor parallel και 2-way pipeline parallel επεξεργασία κατανεμημένη στις οκτώ GPU. Αυτή η διαμόρφωση είχε ως αποτέλεσμα μεγέθη checkpoint 1.636GB, αντιπροσωπευτικά των σύγχρονων απαιτήσεων εκπαίδευσης μεγάλων γλωσσικών μοντέλων.
Συνολικά, το Dapustor J5060 επέδειξε σταθερή συνέπεια κατά την αρχική φάση των δοκιμών, με χρόνους γύρω στα 575,66 δευτερόλεπτα για τα πρώτα 33 checkpoints. Το 5060J μπόρεσε να διατηρήσει υψηλότερη απόδοση πριν γεμίσει η μονάδα για πρώτη φορά. Από την άλλη πλευρά, το Solidigm P5336, ενώ αρχικά ήταν πιο αργό από το J5060, επέδειξε συνεπή απόδοση καθώς οι δοκιμές συνεχίζονταν.
Όταν λαμβάνουμε υπόψη τους συνολικούς μέσους όρους, το Dapustor J5060 κατέγραψε χρόνο 769,44 δευτερολέπτων, ενώ το Solidigm P5336 ολοκλήρωσε σε 640,17 δευτερόλεπτα. Αυτό τοποθετεί το Solidigm P5336 μπροστά όσον αφορά την ταχύτερη αποθήκευση των checkpoints.
Συνολικά, το Dapustor J5060 χειρίζεται καλά τις μικρότερες λειτουργίες, αλλά δυσκολεύεται με συνεχείς εγγραφές πέραν των 30 λεπτών. Εν τω μεταξύ, το Solidigm P5336 είναι η καλύτερη μονάδα για συνεπή απόδοση καθ' όλη τη διάρκεια παρατεταμένων εργασιών. Αυτή η ασθενέστερη απόδοση εγγραφής από το Dapustor J5060 είναι εμφανής όταν η ταχύτητα checkpointing του μειώνεται καθώς η δοκιμή συνεχίζεται.
GPU Direct Storage
Το GPU Direct Storage είναι μια τεχνολογία που επιτρέπει την άμεση μεταφορά δεδομένων μεταξύ συσκευών αποθήκευσης και GPU, παρακάμπτοντας την CPU και τη μνήμη του συστήματος. Στην παραδοσιακή μεταφορά δεδομένων, τα δεδομένα διαβάζονται από την αποθήκευση στη μνήμη της CPU και στη συνέχεια αντιγράφονται στη μνήμη της GPU. Αυτή η διαδικασία περιλαμβάνει πολλαπλές αντιγραφές δεδομένων, οδηγώντας σε αυξημένη καθυστέρηση και μειωμένη απόδοση. Η CPU λειτουργεί ως σημείο συμφόρησης, καθώς πρέπει να χειριστεί τη μεταφορά δεδομένων μεταξύ αποθήκευσης και GPU. Το GDS εξαλείφει αυτό το σημείο συμφόρησης επιτρέποντας στις συσκευές αποθήκευσης να μεταφέρουν δεδομένα απευθείας από και προς τη μνήμη της GPU.
Δοκιμάσαμε συστηματικά κάθε συνδυασμό των ακόλουθων παραμέτρων τόσο σε φόρτους εργασίας ανάγνωσης όσο και εγγραφής:
- Μεγέθη Μπλοκ: 1M, 128K, 16K
- IODepth: 128, 64, 32, 16, 8, 4, 1
Καθώς εξετάζουμε τα αποτελέσματα GDSIO, εξετάζουμε την απόδοση ανάγνωσης και εγγραφής του 61,44TB Dapustor J5060 και του Solidigm P5336.
Απόδοση Διαδοχικής Ανάγνωσης GDSIO
Το Dapustor J5060 επιτυγχάνει μέγιστη απόδοση ανάγνωσης 4,2 GiB/s σε μέγεθος μπλοκ 1M με βάθη IO 64 και 128. Στο μικρότερο μέγεθος μπλοκ (16K), η απόδοση κυμαίνεται από 0,1 GiB/s έως 0,8 GiB/s καθώς αυξάνεται το βάθος IO. Αυτό δείχνει σαφή προτίμηση για μεγαλύτερα μεγέθη μπλοκ με υψηλά βάθη IO για βέλτιστη απόδοση. Η μέγιστη απόδοση επιτυγχάνεται σε μεγάλα μεγέθη μπλοκ, υποδεικνύοντας την αποδοτικότητα της μονάδας στη διαχείριση μεταφορών μεγάλου όγκου δεδομένων.
Συγκριτικά, το Solidigm P5336 έφτασε σε παρόμοια μέγιστη απόδοση 4,3 GiB/s στο ίδιο μέγεθος μπλοκ (1M), αλλά πέτυχε αυτήν την απόδοση νωρίτερα σε βάθος IO 32 και τη διατήρησε σταθερά σε υψηλότερα βάθη IO. Αυτό υποδηλώνει ελαφρώς καλύτερη αποδοτικότητα στη διαχείριση μεγάλων μεγεθών μπλοκ σε ένα ευρύτερο φάσμα βάθους IO για το Solidigm P5336.
Για να δοθεί μια καλύτερη συγκριτική εικόνα, έχουμε ένα διαφορικό διάγραμμα που συγκρίνει και τις δύο μονάδες. Μια πιο πράσινη απόχρωση μπλοκ δείχνει ένα πλεονέκτημα του SSD Dapustor, ενώ ένα μπλοκ που κινείται προς την κόκκινη πλευρά του φάσματος δείχνει μια αδυναμία. Εδώ, το J5060 υπερτερεί του P5336 στο μέγεθος μπλοκ 128K εκτός από τα βάθη IO 4 έως 8. Ωστόσο, σημειώνονται πτώσεις απόδοσης σε υψηλότερα βάθη IO με μεγέθη μπλοκ 16K και 1M, υποδεικνύοντας λιγότερη αποδοτικότητα σε αυτά τα σενάρια.
Στη σύγκριση καθυστέρησης διαδοχικής ανάγνωσης, το Solidigm P5336 διατηρεί σταθερά χαμηλότερη καθυστέρηση από το Dapustor J5060 σε σχεδόν όλα τα μεγέθη μπλοκ και βάθη IO. Σε μέγεθος μπλοκ 16K, το χάσμα γίνεται πιο έντονο καθώς αυξάνεται το βάθος ουράς: το J5060 φτάνει τα 2.329 μs σε βάθος 128, ενώ το P5336 παραμένει χαμηλότερο στα 1.365 μs. Στα 128K, η Solidigm οδηγεί ξανά σε βάθη, με εξαίρεση σε υψηλά φορτία (4.080 μs στο J5060 έναντι 5539 μs στο P5336) σε βάθος 128. Στο μέγεθος μπλοκ 1M, και οι δύο μονάδες παρουσιάζουν αύξηση της καθυστέρησης όπως αναμένεται, αλλά το P5336 παραμένει ελαφρώς καλύτερα ελεγχόμενο, με 29.138 μs έναντι 29.512 μs στο υψηλότερο βάθος ουράς.
Απόδοση Διαδοχικής Εγγραφής GDSIO
Το Dapustor J5060 δείχνει σταθερή απόδοση εγγραφής 2,7 έως 2,8 GiB/s για μεγέθη μπλοκ 128K και 1M σε όλα τα βάθη IO (εκτός από 128K, μέγεθος 1 IO depth, το οποίο κατέγραψε 2,2 GiB/s. Για μεγέθη μπλοκ 16K, η απόδοση κυμαίνεται από 0,5 GiB/s έως 1,4 GiB/s, ανάλογα με το βάθος IO, φτάνοντας στο μέγιστο τα 1,4 GiB/s σε υψηλότερα βάθη IO.
Σε σύγκριση, το Solidigm P5336 αποδίδει καλύτερα κατά τα μεγέθη μπλοκ 128K και 1M, φτάνοντας στο μέγιστο τα 3,2 GiB/s. Για μικρότερα μεγέθη μπλοκ (16K), το Solidigm P5336 δείχνει επίσης υψηλότερη απόδοση, φτάνοντας σε μέγιστο 1,4 GiB/s σε βάθη IO 16 έως 64. Αυτό υποδηλώνει ότι το Solidigm P5336 είναι ελαφρώς πιο αποδοτικό με μικρότερα μεγέθη μπλοκ κατά τις λειτουργίες εγγραφής.
Προχωρώντας σε μια διαφορική προβολή, βλέπουμε ένα μεγαλύτερο χάσμα να ανοίγει μεταξύ του Dapustor J5060 και της απόδοσης εγγραφής του Solidigm P5336. Η σύγκριση απόδοσης δείχνει ότι το J5060 υστερεί έναντι του P5336 στις περισσότερες περιοχές, ιδιαίτερα με μεγάλα μεγέθη μπλοκ (1M) σε όλα τα βάθη IO. Οι πτώσεις απόδοσης φτάνουν τα -0,5 GiB/s στα 4 βάθη IO. Ενώ υπάρχουν κέρδη απόδοσης σε υψηλότερα βάθη IO με μεγέθη μπλοκ 128K, δεν είναι αρκετά σημαντικά για να αντισταθμίσουν τη γενικότερη υποαπόδοση.
Κατά τη σύγκριση της καθυστέρησης διαδοχικής εγγραφής μεταξύ του Dapustor J5060 και του Solidigm P5336, και οι δύο μονάδες παρουσιάζουν παρόμοια συμπεριφορά σε μικρότερα μεγέθη μπλοκ όπως 16K, με τη Solidigm να έχει ένα μικρό πλεονέκτημα σε χαμηλότερα βάθη IO, ενώ η Dapustor κλείνει το χάσμα σε υψηλότερα βάθη (64 και 128). Σε μεγέθη μπλοκ 128K, η Solidigm οδηγεί ξανά σε ρηχά βάθη ουράς, αλλά η Dapustor παρέχει σταθερά χαμηλότερη καθυστέρηση καθώς αυξάνεται το βάθος IO, υποδεικνύοντας καλύτερη κλιμάκωση υπό φορτίο. Ωστόσο, με μεγέθη μπλοκ 1M, η Solidigm διατηρεί ένα σαφές πλεονέκτημα καθυστέρησης σε όλα τα βάθη IO, δείχνοντας σημαντικά ταχύτερους χρόνους απόκρισης υπό βαριούς φόρτους εργασίας διαδοχικής εγγραφής. Συνολικά, η Solidigm αποδίδει πιο συνεπώς, ενώ η δύναμη της Dapustor είναι πιο ορατή σε μεσαία μεγέθη μπλοκ και βαθύτερες ουρές.
Σύνοψη Φόρτου Εργασίας FIO
Το Flexible I/O Tester (FIO) είναι ένα βιομηχανικό πρότυπο εργαλείο benchmark που χρησιμοποιείται για τη μέτρηση της απόδοσης των συσκευών αποθήκευσης υπό ένα ευρύ φάσμα σεναρίων φόρτου εργασίας. Εμπιστευόμενο για την ευελιξία και την αξιοπιστία του, το FIO προσομοιώνει συνθήκες πραγματικού κόσμου, παρέχοντας πληροφορίες για τις δυνατότητες και τα όρια απόδοσης ενός SSD. Το StorageReview αξιοποιεί το FIO για να προσφέρει ολοκληρωμένες αναλύσεις, μετρώντας την απόδοση, την καθυστέρηση και τα IOPS σε μοτίβα φόρτου εργασίας, μεγέθη μπλοκ και βάθη ουράς.
Εφαρμοσμένοι φόρτοι εργασίας:
- Διαδοχική Ανάγνωση και Εγγραφή 128K
- Τυχαίες Αναγνώσεις και Εγγραφές 64K
- Τυχαίες Αναγνώσεις και Εγγραφές 16K
- Τυχαίες Αναγνώσεις και Εγγραφές 4K
Αυτοί οι φόρτοι εργασίας αντιπροσωπεύουν ένα ευρύ φάσμα περιπτώσεων χρήσης επιχειρησιακού επιπέδου, συμπεριλαμβανομένων μεγάλων διαδοχικών μεταφορών, εντατικών τυχαίων I/O τυπικών για βάσεις δεδομένων και τυχαίων προσβάσεων μικρού μπλοκ που παρατηρούνται συνήθως σε εικονικοποιημένα περιβάλλοντα.
Αυτή η ενότητα απόδοσης συνοψίζει την απόδοση του Dapustor J5060 σε βασικούς συνθετικούς φόρτους εργασίας, συμπεριλαμβανομένων διαδοχικών και τυχαίων λειτουργιών ανάγνωσης/εγγραφής σε διάφορα μεγέθη μπλοκ και βάθη ουράς. Οι μετρήσεις εξάγονται απευθείας από την επεξεργασμένη έξοδο fio και περιλαμβάνουν εύρος ζώνης (MB/s), IOPS και ποσοστημόρια καθυστέρησης έως 99,9999%, προσφέροντας πληροφορίες τόσο για την απόδοση όσο και για τη συμπεριφορά της ουράς υπό φορτίο.
Απόδοση Διαδοχικής Ανάγνωσης και Εγγραφής 128K
| Μονάδα | Νήμα/Βάθος IO | BW (MB/s) | IOPS | 99,0% | 99,9% | 99,99% |
|---|---|---|---|---|---|---|
| Dapustor J5060 Ανάγνωση | 1T/64Q | 7.482 | 57.081 | 1,66 ms | 2,02 ms | 2,83 ms |
| Solidigm P5336 Ανάγνωση | 1T/64Q | 7.479 | 57.057 | 1,51 ms | 1,66 ms | 1,81 ms |
| Dapustor J5060 Εγγραφή | 1T/16Q | 3.023 | 23.063 | 0,69 ms | 0,69 ms | 0,70 ms |
| Solidigm P5336 Εγγραφή | 1T/16Q | 3.364 | 25.669 | 2,67 ms | 3,48 ms | 4,42 ms |
Το Dapustor J5060 παρέχει εντυπωσιακή διαδοχική απόδοση ανάγνωσης στα 128K, φτάνοντας τα 7,48 GB/s με αυστηρό έλεγχο καθυστέρησης, ακόμη και σε υψηλότερα ποσοστημόρια. Σε σύγκριση με το Solidigm P5336, η απόδοση του J5060 είναι ουσιαστικά η ίδια (7,48 GB/s έναντι 7,47 GB/s). Ωστόσο, η Solidigm διατηρεί ένα μικρό πλεονέκτημα στη συνέπεια της καθυστέρησης, παρουσιάζοντας ελαφρώς χαμηλότερη καθυστέρηση ουράς.
Στις διαδοχικές εγγραφές 128K (QD16), το J5060 επιτυγχάνει σταθερή απόδοση 3.023 MB/s με πολύ χαμηλή καθυστέρηση. Ωστόσο, το Solidigm P5336 το ξεπερνά κατά ένα μέτριο περιθώριο, φτάνοντας τα 3.364 MB/s, αν και με αισθητά υψηλότερη καθυστέρηση, ειδικά στο ποσοστημόριο 99,99% (4,42 ms έναντι του αξιοσημείωτα χαμηλού 0,70 ms της Dapustor). Αυτό υποδηλώνει ότι το J5060 είναι ένας ισχυρότερος υποψήφιος για σενάρια διαδοχικής εγγραφής που είναι ευαίσθητα στην καθυστέρηση.
Απόδοση Τυχαίας Ανάγνωσης και Εγγραφής 64K
| Μονάδα | Βάθος IO | BW (MB/s) | IOPS | 99,0% | 99,9% | 99,99% |
|---|---|---|---|---|---|---|
| Dapustor J5060 Ανάγνωση | 8T/32Q | 7.475 | 114.058 | 20,05 ms | 21,89 ms | 25,82 ms |
| Solidigm P5336 Ανάγνωση | 8T/32Q | 7.472 | 114.014 | 21,36 ms | 21,89 ms | 22,68 ms |
| Dapustor J5060 Εγγραφή | 8T/32Q | 534 | 8.151 | 574,6 ms | 708,8 ms | 742,39 ms |
| Solidigm P5336 Εγγραφή | 8T/32Q | 857 | 13.070 | 196,1 ms | 208,6 ms | 221,24 ms |
Σε τυχαίες αναγνώσεις 64K (QD256), το Dapustor J5060 υπερέχει με απόδοση κοντά στα 7,4 GB/s και καλά ελεγχόμενη καθυστέρηση. Τα αποτελέσματα της Solidigm ταιριάζουν στενά (7,47 GB/s), με ελαφρώς καλύτερη μέγιστη ποσοστιαία καθυστέρηση. Και οι δύο μονάδες αποδίδουν εξαιρετικά εδώ, με ελάχιστες πρακτικές διαφορές.
Η απόδοση εγγραφής σε τυχαίες 64K είναι όπου το J5060 δυσκολεύεται αισθητά, με την απόδοση να πέφτει απότομα στα 534 MB/s και την καθυστέρηση να αυξάνεται σημαντικά (742,39 ms στο 99,99%). Σε σύγκριση, το Solidigm P5336 υπερτερεί σημαντικά του J5060, παρέχοντας 857 MB/s και δραστικά χαμηλότερη καθυστέρηση (221,24 ms στο ίδιο ποσοστημόριο), καθιστώντας το πολύ πιο κατάλληλο για εφαρμογές που είναι ευαίσθητες στην καθυστέρηση και στη συνεχή απόδοση εγγραφής.



