Στο Google Cloud Next, η Google αποκάλυψε τους επιταχυντές τεχνητής νοημοσύνης όγδοης γενιάς: το TPU v8t "Sunfish" για εκπαίδευση και το TPU v8i "Zebrafish" για συμπέρασμα, μαζί με το νέο ύφασμα του κέντρου δεδομένων Virgo. Προσαρμοσμένα για την εποχή της τεχνητής νοημοσύνης, αυτά τα τσιπ είναι βελτιστοποιημένα για εκπαίδευση μοντέλων μεγάλων μικτών ειδικών (MoE) και υπηρεσία διακριτικών χαμηλής καθυστέρησης με οικονομική τιμολόγηση. Ενώ μοιράζονται την ίδια πλατφόρμα κεντρικού υπολογιστή και ύφασμα διασύνδεσης, τα v8t και v8i διαφέρουν ως προς τη μνήμη, τη SRAM, την τοπολογία και την εξειδίκευση του υλικού.
Ένα superpod v8t υποστηρίζει 9.600 τσιπ με 2 PB HBM και παρέχει 121 EFLOPS υπολογισμού FP4, σχεδόν τριπλάσια από την απόδοση της προηγούμενης γενιάς Ironwood. Το v8i κλιμακώνεται σε 1.152 τσιπ με 288 GB HBM και 384 MB on-chip SRAM, προσφέροντας 80% καλύτερη εξαγωγή συμπερασμάτων σε σχέση με το Ironwood. Το ύφασμα Virgo διασυνδέει πάνω από 134.000 τσιπ v8t, παρέχοντας εύρος ζώνης 47 Pb/s χωρίς αποκλεισμό με 4× υψηλότερη απόδοση ανά επιταχυντή και 40% χαμηλότερη καθυστέρηση.
Θεμελιώδης αρχιτεκτονική TPU εναντίον GPU
Τα TPU είναι προσαρμοσμένα ASIC που χαρακτηρίζονται από μεγάλες μονάδες πολλαπλασιασμού μητρών (MXU), SRAM που διαχειρίζεται λογισμικό και έγκαιρη μεταγλώττιση. Σε αντίθεση με τον δυναμικό προγραμματισμό μικρού πυρήνα της GPU, οι TPU διαθέτουν ντετερμινιστική ροή δεδομένων με συστολικούς πίνακες, εξαλείφοντας το jitter της κρυφής μνήμης και τον προγραμματισμό παραμόρφωσης για υψηλότερη χρήση FLOPS σε πυκνούς φόρτους εργασίας matrix. Ωστόσο, οι TPU παλεύουν με δυναμικά σχήματα, ακανόνιστη αραιότητα και πολύπλοκα δίκτυα γραφημάτων, ενώ προσφέρουν επίσης στενότερη υποστήριξη οικοσυστήματος λογισμικού όπου κυριαρχούν τα JAX και XLA.
Η δομική διαφορά στην υποστήριξη αραιότητας διακρίνει ξεκάθαρα τις TPU και τις GPU. Οι πυρήνες Tensor της NVIDIA υποστηρίζουν εγγενώς δομημένη αραιότητα 2:4 μέσω συμπίεσης σε επίπεδο εντολών. Αντίθετα, οι συστολικές συστοιχίες TPU λειτουργούν σε άκαμπτο βήμα, καθιστώντας το μηδενικό παράβλεψη αναποτελεσματικό χωρίς στάθμευση αγωγών ή επιπλέον υλικό αποσυμπίεσης. Το AWS Trainium2 υιοθετεί μια μέση λύση με αποκλειστικούς αραιούς αποσυμπιεστές για να διατηρεί την απόδοση της συστοιχίας.
Οι TPU ενσωματώνουν τα SparseCores για να χειρίζονται ακανόνιστες εργασίες συλλογής-σκέδασης για ενσωμάτωση πινάκων και δρομολόγηση MoE. Αυτοί οι εξειδικευμένοι πυρήνες διαπρέπουν στην ταξινόμηση, τη μετάθεση και την αναδιάταξη δεδομένων, καλύπτοντας φόρτους εργασίας συστάσεων και αποστολή διακριτικών ειδικών που τα τυπικά MXU δεν μπορούν να επεξεργαστούν αποτελεσματικά.
TPU v8t “Sunfish”: Training Accelerator
Το εκπαιδευτικό τσιπ v8t εξοπλίζει μνήμη 216 GB HBM3e και 128 MB SRAM. Η εγγενής ακρίβεια FP4 διπλασιάζει την απόδοση ανά κύκλο, ωθώντας τον υπολογισμό ενός chip στα 12,6 PFLOPS. Διατηρεί μια διασύνδεση 3D torus και αναβαθμισμένο εύρος ζώνης ICI 19,2 Tb/s, ιδανικό για συλλογικές επικοινωνίες που βασίζονται σε δακτύλιο σε μεγάλης κλίμακας εκπαίδευση.
Οι SparseCores που κληρονομήθηκαν βελτιστοποιούν την ακανόνιστη μετάδοση δεδομένων από όλους προς όλους. Δύο κρίσιμες αναβαθμίσεις σπάνε τα σημεία συμφόρησης μεγάλης κλίμακας: Το TPUDirect RDMA και το TPUDirect Storage παρακάμπτουν την κεντρική CPU για να επιτρέψουν την άμεση πρόσβαση στη μνήμη TPU, παρέχοντας 10× ταχύτερη απόδοση I/O. Επιπλέον, το v8t υιοθετεί τους επεξεργαστές Axion που βασίζονται σε Arm της Google ως επεξεργαστές κεντρικού υπολογιστή, απομονώνοντας το jitter του κεντρικού υπολογιστή και ενισχύοντας τη σταθερότητα προεπεξεργασίας για συγχρονισμένη εκπαίδευση πολλαπλών τσιπ.
TPU v8i “Zebrafish”: Επιταχυντής συμπερασμάτων
Σχεδιασμένο για φόρτους εργασίας συμπερασμάτων δεσμευμένου σε εύρος ζώνης μνήμης, το v8i δίνει προτεραιότητα στη δημιουργία διακριτικών χαμηλής καθυστέρησης. Διαθέτει 384 MB SRAM — τριπλάσια από αυτή της Ironwood — για την προσωρινή αποθήκευση της κρυφής μνήμης KV στο τσιπ και τη μείωση της επαναλαμβανόμενης ανάγνωσης HBM. Με δύο TensorCores και 288 GB HBM3e, επιτυγχάνει υπολογισμούς 10,1 PFLOPS FP4, επικαλυπτόμενες εργασίες συμπερασμάτων μικρής παρτίδας για υψηλότερη παρατεταμένη χρήση.
Αντικαθιστώντας τα SparseCores, το αποκλειστικό Collectives Acceleration Engine (CAE) μειώνει την καθυστέρηση συγχρονισμού στο chip έως και 5×, βελτιστοποιώντας τις συχνές συλλογικές λειτουργίες μικρής παρτίδας. Το v8i εγκαταλείπει το 3D torus για την τοπολογία Boardfly που βασίζεται σε Dragonfly, μειώνοντας τη μέγιστη αναπήδηση από τσιπ σε τσιπ από 16 σε 7 και μειώνοντας την καθυστέρηση του MoE all-to-all κατά 50%.
Ιεραρχία υφάσματος Virgo & Jupiter
Το Virgo χρησιμεύει ως το ύφασμα κλιμάκωσης εντός του κέντρου δεδομένων, υιοθετώντας μια αρχιτεκτονική χωρίς αποκλεισμό δύο επιπέδων για την εξάλειψη της υπερσυνδρομής για την κυκλοφορία τεχνητής νοημοσύνης ανατολής-δύσης. Τροφοδοτείται από οπτικούς διακόπτες MEMS, επιτρέπει την επαναδρομολόγηση σφαλμάτων σε επίπεδο χιλιοστού του δευτερολέπτου και διατηρεί το 97% καλή απόδοση για τα superpods v8t. Σε συνδυασμό με τον Jupiter — το ύφασμα μεταξύ των κέντρων δεδομένων μεγάλων αποστάσεων της Google — το πολυεπίπεδο σύστημα διασύνδεσης υποστηρίζει πάνω από ένα εκατομμύριο τσιπ TPU σε ένα ενιαίο λογικό σύμπλεγμα με συνολικό υπολογισμό FP4 1,7 ZFLOPS.
Απόδοση, TCO και Θέση στην Αγορά
Η υψηλή απόδοση και η σταθερή Χρήση FLOPs Model (MFU) παρέχουν στις TPU επιτακτικά πλεονεκτήματα κόστους. Με 40% MFU, το κόστος εκπαίδευσης TPU είναι 62% χαμηλότερο από το NVIDIA GB300. Σε σύγκριση υλικού, η απόδοση του V8t πυκνού FP4 κυμαίνεται μεταξύ 200 και 300 GB, ενώ η Google κυριαρχεί στη ομαδοποίηση μεγάλης κλίμακας με ένα μεμονωμένο pod 9.600 chip, που ξεπερνά κατά πολύ τον τομέα NVLink 72 GPU της NVIDIA.
Κοιτάζοντας το μέλλον, οι Vera Rubin, Rubin Ultra και Kyber της NVIDIA θα μειώσουν το χάσμα απόδοσης της TPU από το 2026 στο 2027. Οι αδυναμίες της TPU περιλαμβάνουν μικρότερο HBM ανά τσιπ, απουσία αραιότητας υλικού και περιορισμένη συμβατότητα οικοσυστήματος. Ωστόσο, η Google διατηρεί πλεονεκτήματα όσον αφορά τη μαζική ομαδοποίηση, τον ντετερμινιστικό λανθάνοντα χρόνο και την αποδοτικότητα κόστους για φόρτους εργασίας MoE.
Η Google επεκτείνει την υποδομή τόσο της TPU όσο και της NVIDIA GPU. Η Meta σχεδιάζει μια συμφωνία υιοθέτησης TPU πολλών δισεκατομμυρίων δολαρίων που ξεκινά το 2027. Ως γενιά διπλού τσιπ βελτιστοποιημένη για την εποχή των πρακτόρων, το TPU v8 διασφαλίζει την ανταγωνιστικότητα της Google έναντι της NVIDIA Grace-Blackwell για ανάπτυξη τεχνητής νοημοσύνης σε μεγάλη κλίμακα.
Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Διευθυντής Παγκόσμιας Στρατηγικής
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Ιστοσελίδα: www.qianxingdata.com/www.storagesserver.com
Επιχειρηματική εστίαση:
Διανομή προϊόντων ΤΠΕ/Ενοποίηση συστήματος & Υπηρεσίες/Λύσεις υποδομής
Με 20+ χρόνια εμπειρίας διανομής πληροφορικής, συνεργαζόμαστε με κορυφαίες παγκόσμιες μάρκες για την παροχή αξιόπιστων προϊόντων και επαγγελματικών υπηρεσιών.
«Χρησιμοποιώντας την τεχνολογία για τη δημιουργία ενός ευφυούς κόσμου» Ο αξιόπιστος πάροχος υπηρεσιών προϊόντων ΤΠΕ!
Sandy Yang/Διευθυντής Παγκόσμιας Στρατηγικής
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Ιστοσελίδα: www.qianxingdata.com/www.storagesserver.com
Επιχειρηματική εστίαση:
Διανομή προϊόντων ΤΠΕ/Ενοποίηση συστήματος & Υπηρεσίες/Λύσεις υποδομής
Με 20+ χρόνια εμπειρίας διανομής πληροφορικής, συνεργαζόμαστε με κορυφαίες παγκόσμιες μάρκες για την παροχή αξιόπιστων προϊόντων και επαγγελματικών υπηρεσιών.
«Χρησιμοποιώντας την τεχνολογία για τη δημιουργία ενός ευφυούς κόσμου» Ο αξιόπιστος πάροχος υπηρεσιών προϊόντων ΤΠΕ!



