Το σύστημα παράλληλων αρχείων IBM Storage Scale υποστηρίζει κατανεμημένη διαχείριση κρυφής μνήμης KV σε συνδυασμό με το NVIDIA Dynamo, τροφοδοτώντας σενάρια συμπερασμάτων τεχνητής νοημοσύνης μεγάλης κλίμακας με τεράστιο φόρτο εργασίας περιβάλλοντος.
Η IBM κυκλοφόρησε ένα επίσημο Redbook με τίτλοContext Without Limits: A High Performance KV Cache Platform for Large Scale Inference AI, παρέχοντας μια πλήρη επικυρωμένη αρχιτεκτονική αναφοράς για αυτήν την κοινή λύση. Η ενσωματωμένη στοίβα συνδυάζει διακομιστές αποθήκευσης Supermicro Petascale, δικτύωση NVIDIA Spectrum-X Ethernet και IBM Storage Scale Erasure Coding Edition (ECE) για τη δημιουργία μιας βαθμίδας κοινόχρηστου χώρου αποθήκευσης υψηλής απόδοσης για συμπεράσματα AI. Ως έγκυρα τεχνικά έγγραφα που δημοσιεύονται από την IBM ITSO (Διεθνής Οργανισμός Τεχνικής Υποστήριξης), τα IBM Redbooks προσφέρουν πρακτική, σε βάθος καθοδήγηση ανάπτυξης για προϊόντα υποδομής IBM εταιρικής ποιότητας.
Συν-συγγραφέας από ομάδες μηχανικών από τις IBM, Supermicro και NVIDIA, το Redbook αντιμετωπίζει ένα βασικό σημείο πόνου φόρτου εργασίας τεχνητής νοημοσύνης μεγάλου πλαισίου. Οι περιπτώσεις χρήσης, συμπεριλαμβανομένων των βοηθών διαλόγου πολλαπλών στροφών, των εφαρμογών ανάκτησης RAG και των αυτόνομων αγωγών πρακτόρων δημιουργούν τεράστια δεδομένα κρυφής μνήμης KV μέσα στο GPU HBM. Μόλις απομακρυνθούν τα αποθηκευμένα δεδομένα από περιορισμένους πόρους HBM, ο επαναλαμβανόμενος επανυπολογισμός θα προκαλέσει σοβαρές αυξήσεις του λανθάνοντος χρόνου, καθιστώντας απαραίτητη την επίμονη αποθήκευση κρυφής μνήμης KV μεταξύ αιτημάτων.
Η λύση υιοθετεί μια ιεραρχική αρχιτεκτονική κρυφής μνήμης KV πέντε επιπέδων που καλύπτει διαφορετικές απαιτήσεις καθυστέρησης και χωρητικότητας:
-
Στρώμα G1: Τοπικός κόμβος GPU HBM
-
Στρώμα G2: DRAM συστήματος κόμβου CPU
-
Επίπεδο G3: Απευθείας συνδεδεμένος τοπικός SSD
-
G3.5 Επίπεδο: Κοινόχρηστος χώρος αποθήκευσης flash σε επίπεδο Pod, με πρόσοψη NVIDIA BlueField DPU με άμεση διασύνδεση με DPU διακομιστή GPU
-
Στρώμα G4: Εξωτερικός κοινόχρηστος χώρος αποθήκευσης cross-Ethernet συνδεδεμένος σε όλους τους υπολογιστές διακομιστών GPU
Καλύπτοντας την ιεραρχία μνήμης και αποθήκευσης από άκρο σε άκρο, αυτή η ρύθμιση πολλαπλών επιπέδων παρέχει συνεχείς διαβαθμίσεις καθυστέρησης και χωρητικότητας. Επιτρέπει στο NVIDIA Dynamo να πραγματοποιεί έξυπνη τοποθέτηση κρυφής μνήμης, αυτόματη εξαγωγή και δυναμική επαναφόρτωση δεδομένων σε ολόκληρη τη στοίβα αποθήκευσης, προσαρμόζοντας ευέλικτα σε ποικίλα μοτίβα πρόσβασης φόρτου εργασίας και συνολικούς προϋπολογισμούς κόστους υποδομής.
Αναπτύχθηκε σε διακομιστές αποθήκευσης Supermicro Petascale, το Storage Scale ECE χρησιμεύει ως το επίπεδο κρύας κρυφής μνήμης G4. Είναι βελτιστοποιημένο για δεδομένα κρυφής μνήμης KV που δεν είναι ευαίσθητα σε καθυστέρηση, συμπεριλαμβανομένων ανενεργών καταστάσεων συνομιλίας πολλαπλών στροφών, κοινόχρηστων δεδομένων περιβάλλοντος πράκτορα και ιστορικών εγγραφών ερωτημάτων που δεν απαιτούν άμεση απόκριση.
Σύμφωνα με τα αποτελέσματα δοκιμών που καταγράφηκαν στο Redbook, αυτή η αρχιτεκτονική αναφοράς έτοιμη για παραγωγή επιταχύνει αποτελεσματικά τις παραγωγικές υπηρεσίες τεχνητής νοημοσύνης και εξαγωγής τεχνητής νοημοσύνης. Σε δοκιμές TTFT (Time To First Token) ενός αιτήματος σε σύγκριση με μεμονωμένους διακομιστές GPU χωρίς εξωτερική κρυφή μνήμη KV Storage Scale, το ενσωματωμένο σύστημα διατηρεί σταθερό το TTFT ανεξάρτητα από τις αλλαγές μήκους. Επιτυγχάνει αΕπιτάχυνση 56xκάτω από ακολουθίες εισόδου 130k-token και εξαλείφει πλήρως τις διακυμάνσεις του λανθάνοντος χρόνου συμπερασμάτων που προκαλούνται από εκτεταμένα μήκη προτροπών.
Υπό ταυτόχρονη πίεση συμπερασμάτων πολλών χρηστών, η λύση επιτυγχάνει δραματική βελτίωση της απόδοσης: η ζήτηση αυξάνεται από 0,19 RPS σε 4,26 RPS, σημειώνοντας22x ενίσχυση απόδοσης. Εν τω μεταξύ, ο συνολικός χρόνος επεξεργασίας για 200 αιτήματα συμπερασμάτων μειώνεται κατά 95%, αυξάνοντας σημαντικά την αποδοτικότητα χρήσης της GPU και τη συνολική επεκτασιμότητα συμπλέγματος συμπερασμάτων.
Η στοίβα διατηρεί επίσης στιβαρή απόδοση κάτω από σκληρές δοκιμές καταπόνησης με θόρυβο. Με τέσσερα άκρα πελατών που δημιουργούν διαρκή 200 GB/s ανταγωνιστική κίνηση I/O δικτύου, το ενσωματωμένο σύστημα εξακολουθεί να λειτουργεί σταθερά με 3,6 RPS, ολοκληρώνοντας και τα 200 αιτήματα συμπερασμάτων εντός 55,56 δευτερολέπτων. Η απόδοσή του παραμένει18 φορές υψηλότεροαπό τη βασική αρχιτεκτονική επανυπολογισμού μόνο για GPU.
Η ερευνητική ομάδα κατέληξε στο Redbook: «Για τις επιχειρήσεις που στοχεύουν να μεγιστοποιήσουν την απόδοση επένδυσης (ROI) σε ακριβές επενδύσεις υλικού GPU, αυτή η επαληθευμένη ολοκληρωμένη αρχιτεκτονική παρέχει μια απλή, έτοιμη για παραγωγή προσέγγιση για την ενίσχυση της απόδοσης συμπερασμάτων, τη μείωση του λανθάνοντος χρόνου από άκρο σε άκρο, την υποστήριξη υψηλότερης ταυτόχρονης εξυπηρέτησης και τη δημιουργία πιο οικονομικής υποδομής συμπερασμάτων AI μεγάλης κλίμακας.
Λέξεις-κλειδιά: SUPERMICRO, IBM Storage Scale, NVIDIA Dynamo
Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Διευθυντής Παγκόσμιας Στρατηγικής
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Ιστοσελίδα: www.qianxingdata.com/www.storagesserver.com
Επιχειρηματική εστίαση:
Διανομή προϊόντων ΤΠΕ/Ενοποίηση συστήματος & Υπηρεσίες/Λύσεις υποδομής
Με 20+ χρόνια εμπειρίας διανομής πληροφορικής, συνεργαζόμαστε με κορυφαίες παγκόσμιες μάρκες για την παροχή αξιόπιστων προϊόντων και επαγγελματικών υπηρεσιών.
«Χρησιμοποιώντας την τεχνολογία για τη δημιουργία ενός ευφυούς κόσμου» Ο αξιόπιστος πάροχος υπηρεσιών προϊόντων ΤΠΕ!