Η Lightbits Labs και η ScaleFlux έχουν επιτύχει μια 100x έως 280x αύξηση απόδοσης για φόρτους εργασίας KV cache, αξιοποιώντας το λογισμικό cache LightInferra για την ανάγνωση δεδομένων από SSDs υπολογιστικής αποθήκευσης ScaleFlux.
Οι δύο εταιρείες προμήθευσαν δεδομένα KV cache σε GPUs που αναπτύχθηκαν σε περιβάλλον κέντρου δεδομένων FarmGPU και θα παρουσιάσουν αυτή την καινοτομία στο επερχόμενο συνέδριο GTC της Nvidia. Μια KV cache αποθηκεύει διανύσματα token στη μνήμη υψηλού εύρους ζώνης (HBM) μιας GPU. Μόλις εξαντληθεί η χωρητικότητα της HBM, τα μπλοκ δεδομένων KV cache πρέπει να υπολογιστούν εκ νέου — μια διαδικασία που καταναλώνει χρόνο και υποβαθμίζει τις ταχύτητες εκπαίδευσης και εξαγωγής συμπερασμάτων AI. Αυτή η επιβράδυνση γίνεται ιδιαίτερα έντονη καθώς οι φόρτοι εργασίας AI κλιμακώνονται, οδηγώντας σε απότομη αύξηση του αριθμού των token που χρησιμοποιούνται για τη δημιουργία διανυσμάτων.
Το λογισμικό KV cache επεκτείνει λογικά το επίπεδο cache προς τα έξω: πρώτα στην CPU x86 και τη DRAM της στον διακομιστή GPU, στη συνέχεια σε τοπικούς δίσκους NVMe στο ίδιο σύστημα x86, και περαιτέρω σε εξωτερικούς SSD NVMe. Αυτή η κλιμακωτή επέκταση εξαλείφει την ανάγκη επανυπολογισμού διανυσμάτων token. Ενώ οι SSD NVMe έχουν φυσικά υψηλότερη καθυστέρηση πρόσβασης από την HBM ή τη DRAM, η ανάκτηση προ-υπολογισμένων διανυσμάτων token είναι πολύ ταχύτερη από τον επανυπολογισμό δεκάδων χιλιάδων από αυτά από την αρχή. Η Lightbits και η ScaleFlux ισχυρίζονται ότι η λύση τους επιταχύνει δραστικά την ανάκτηση δεδομένων KV cache από SSDs.
Ο Arthur Rasmusson, Διευθυντής Αρχιτεκτονικής AI στην Lightbits Labs, δήλωσε: «Μεταμορφώνουμε τη μνήμη εξαγωγής συμπερασμάτων από μια αντιδραστική cache σε ένα έξυπνο, ροϊκό επίπεδο δεδομένων».
Πώς;
«Προ-ανακτώντας μόνο τα δεδομένα που έχουν σημασία και παραδίδοντάς τα σε GPUs μέσω RDMA υψηλής ταχύτητας πριν χρειαστούν, εξαλείφουμε τις καθυστερήσεις που παραδοσιακά περιορίζουν την απόδοση μεγάλου πλαισίου. Το αποτέλεσμα είναι χαμηλότερος Χρόνος-προς-Πρώτο-Token (TTFT), πιο σταθερή απόδοση υπό πραγματικό φορτίο και σημαντικά υψηλότερη αποτελεσματική χρήση της GPU».
Ο Keith McKay, Ανώτερος Διευθυντής Αρχιτεκτονικής Λύσεων και Τεχνικών Συνεργασιών στην ScaleFlux, σχολίασε: «Αυτό που δείχνουμε στο GTC είναι μια πρώιμη ματιά στο πώς η έξυπνότερη τοποθέτηση δεδομένων και η διαχείριση επίμονης κατάστασης προσοχής μπορούν να βοηθήσουν τα συστήματα εξαγωγής συμπερασμάτων να παραμείνουν ανταποκρίσιμα καθώς τα παράθυρα πλαισίου μεγαλώνουν. Αυτή είναι μια συνεργασία που θέλουμε να διαμορφώσουμε μαζί με πραγματικούς χειριστές».
Τόσο η Lightbits όσο και η ScaleFlux στοχεύουν να ενθαρρύνουν τους χειριστές cloud και υποδομών να υιοθετήσουν το λογισμικό και τους SSDs τους, εξαλείφοντας τον δαπανηρό χρόνο αδράνειας των GPUs.
Ας εξετάσουμε πρώτα τη συμβολή της ScaleFlux, και στη συνέχεια ας προχωρήσουμε στο πιο εξελιγμένο επίπεδο λογισμικού της Lightbits.
Η ScaleFlux παρέχει SSDs NVMe και Computational Storage Drives (CSDs) εξοπλισμένα με τεχνολογία μείωσης εγγραφής (WRT) βασισμένη σε υλικό. Τροφοδοτούμενοι από επιτάχυνση υλικού συμπίεσης και διαχείριση μεταδεδομένων που οδηγείται από SoC, αυτοί οι δίσκοι προσφέρουν έως και τέσσερις φορές περισσότερη λογική χωρητικότητα από την φυσική αποθήκευση, παραμένοντας πλήρως διαφανείς στα συστήματα υποδοχής. Η εταιρεία είναι μέλος του κοινοπραξίας Open Flash Platform (OFP), η οποία εργάζεται για τον επαναπροσδιορισμό της υποδομής δεδομένων AI με πυκνά, χαμηλής καθυστέρησης, ενεργειακά αποδοτικά συστήματα — προσφέροντας 10 φορές την πυκνότητα της συμβατικής αποθήκευσης AI βασισμένης σε αρχεία και μόλις το ένα δέκατο της κατανάλωσης ενέργειας.
Βασιζόμενη σε αυτούς τους δίσκους αποθήκευσης, η Lightbits προσθέτει έξυπνη προ-ανάκτηση δεδομένων KV Cache πριν οι GPUs τα χρειαστούν, αποτρέποντας καθυστερήσεις που προκαλούνται από ανεπαρκή χωρητικότητα KV ή δαπανηρό επανυπολογισμό διανυσμάτων token. Το λογισμικό LightInferra χρησιμοποιεί αλγορίθμους caching βελτιστοποιημένους για KV Cache για να φέρει τα απαιτούμενα δεδομένα στη μνήμη της GPU με ταχύτητες RDMA πριν από την πραγματική ζήτηση.
Και πάλι, πώς;
Το λογισμικό εκτελείται στον κεντρικό υπολογιστή x86 που είναι ενσωματωμένος στους διακομιστές GPU και παρακολουθεί τα μοτίβα πρόσβασης των μπλοκ δεδομένων KV Cache. Χρησιμοποιώντας αυτή την τηλεμετρία, λειτουργεί μια μηχανή Sub-Linear Sparse Attention Prefetch (SLSAP) για να εντοπίσει τα μπλοκ KV που είναι πιο πιθανό να χρειαστούν στη συνέχεια.
Αυτή η μηχανή συνδυάζει hashing ευαίσθητο στην τοποθεσία (LSH) με μοντελοποίηση στατιστικής επαναχρησιμοποίησης — αναλύοντας την ιστορική τοποθεσία πρόσβασης σε υπολογισμούς προσοχής — για να βαθμολογήσει και να δώσει προτεραιότητα στα μπλοκ KV, και στη συνέχεια επιλέγει αυτά με την υψηλότερη πιθανότητα να ζητηθούν από τις GPUs.
Αυτή η διαδικασία επιλογής αξιοποιεί την εγγενή αραιότητα στην πρόσβαση δεδομένων της GPU: τα περισσότερα token σχετίζονται ουσιαστικά μόνο με ένα μικρό υποσύνολο προηγούμενων token. Απομονώνοντας αυτά τα μπλοκ υψηλής πιθανότητας, η λύση μειώνει δραστικά τον όγκο των διανυσμάτων token που πρέπει να μεταδοθούν πίσω στις GPUs.
Ένας δεύτερος αλγόριθμος εστιάζει σε μοτίβα επαναχρησιμοποίησης: πρόσφατα token, σημασιολογικά παρόμοια token και δομικά μοτίβα κοινά σε σενάρια RAG ή συνομιλίας πολλαπλών γύρων επαναχρησιμοποιούνται συχνά και δίνεται προτεραιότητα ανάλογα.
Το LightInferra ανακτά αυτά τα μπλοκ token πρώτα από τη DRAM του διακομιστή x86, ή από εξωτερικούς SSDs ScaleFlux εάν είναι απαραίτητο, και στη συνέχεια τα προφορτώνει στη HBM της GPU μέσω συνδέσεων RDMA.
Η Lightbits έχει κάνει benchmark αυτή την προσέγγιση σε σύγκριση με την επανυπολογισμό του περιεχομένου που είναι αποθηκευμένο στην cache από την αρχή, χρησιμοποιώντας φόρτους εργασίας μεγάλων γλωσσικών μοντέλων, μετρώντας βελτιώσεις στον Χρόνο-προς-Πρώτο-Token (TTFT). Οι αναφερόμενες τιμές επιτάχυνσης 100x έως 280x προέρχονται απευθείας από αυτά τα αποτελέσματα δοκιμών.

Φυσικά, θα θέλαμε να δούμε αποτελέσματα benchmark που συγκρίνουν την επιτάχυνση KV Cache Lightbits-ScaleFlux
σχήμα με επιταχυντές KV Cache από DDN, Hammerspace, VAST Data, WEKA και άλλους, αλλά αυτά
δεν είναι διαθέσιμα.
Υπάρχουν γραφήματα που δείχνουν πώς το LightInferra-ScaleFlux βελτιώθηκε σταδιακά στον TTFT αναγέννησης cache
καθώς το μέγεθος του μοντέλου αυξάνεται. Π.χ.;

Όλα τα σχετικά δεδομένα benchmark παρουσιάζονται σε γραφήματα λογαριθμικής κλίμακας, προσαρμοσμένα κυρίως για επαγγελματίες επιστήμης υπολογιστών, αλλά η απλή γλώσσα καθιστά τον πραγματικό αντίκτυπο πολύ πιο εύκολο να γίνει κατανοητός: «Το αποτέλεσμα είναι σταθερή απόδοση Χρόνου-προς-Πρώτο-Token (TTFT) καθώς το πλαίσιο κλιμακώνεται από 100k token προς 1 εκατομμύριο και παραπάνω».
Όπως λέει ο Jonmichael Hands της FarmGPU, όταν μια συνομιλία 400k token συνεχίζεται και το σύστημα πρέπει να αναγεννήσει ολόκληρη την KV cache από την αρχή, αυτό σημαίνει δύο πλήρη λεπτά χρόνου λειτουργίας της GPU χωρίς παραγωγή token. Το LightInferra αλλάζει εντελώς το οικονομικό μοντέλο — ο ίδιος φόρτος εργασίας παράγει το πρώτο του token σε λιγότερο από μισό δευτερόλεπτο, μετατρέποντας μια μη βιώσιμη βαθμίδα προϊόντος σε κερδοφόρα.
Η Lightbits και η ScaleFlux έχουν σχεδιάσει αυτή την κοινή λύση ειδικά για τις GPU φάρμες επόμενης γενιάς, όπου μεγάλα pods GPU εκτελούν εκατοντάδες ή ακόμη και χιλιάδες ταυτόχρονους φόρτους εργασίας μοντέλων AI. Σχεδόν όλοι αυτοί οι φόρτοι εργασίας θα φτάσουν στο όριο της χωρητικότητας της KV cache στη μνήμη υψηλού εύρους ζώνης (HBM) της GPU.
Σε παραδοσιακές ρυθμίσεις, οι ομάδες αντιμετωπίζουν δύο δαπανηρές επιλογές: αργή ανάκτηση διανυσμάτων token από γενική εξωτερική αποθήκευση, ή η πολύ πιο χρονοβόρα διαδικασία επανυπολογισμού αυτών των διανυσμάτων από την αρχή — και οι δύο αφήνουν τις GPUs αδρανείς για ώρες. Ο συνδυασμός LightInferra και ScaleFlux εξαλείφει εντελώς αυτό το καταστροφικό πρόβλημα της βιομηχανίας.
Ο CEO της FarmGPU, Jonmichael Hands, πρόσθεσε: «Η γρήγορη δικτυωμένη αποθήκευση από την Lightbits ξεκλειδώνει μια πληθώρα νέων περιπτώσεων χρήσης για εξαγωγή συμπερασμάτων μεγάλου πλαισίου. Συνδυάζοντας την διαχειριζόμενη υπηρεσία μας με την υψηλής απόδοσης αποθήκευση της Lightbits που λειτουργεί σε δίσκους NVMe της ScaleFlux, μπορούμε να μειώσουμε τον χρόνο προς το πρώτο token και να αυξήσουμε την αξιοποίηση της GPU, μειώνοντας δραστικά το συνολικό κόστος ιδιοκτησίας (TCO) για φόρτους εργασίας εξαγωγής συμπερασμάτων».
Επιχειρηματική Εστίαση:
Διανομή Προϊόντων ICT/Ενσωμάτωση Συστημάτων & Υπηρεσίες/Λύσεις Υποδομών
Με 20+ χρόνια εμπειρίας στη διανομή IT, συνεργαζόμαστε με κορυφαίες παγκόσμιες μάρκες για την παροχή αξιόπιστων προϊόντων και επαγγελματικών υπηρεσιών.
«Χρησιμοποιώντας την Τεχνολογία για την Οικοδόμηση ενός Έξυπνου Κόσμου» Ο Αξιόπιστος Πάροχος Υπηρεσιών Προϊόντων ICT!