xAI statys milžinišką AI superkompiuterį

Dirbtinio intelekto startuolis xAI spartina savo infrastruktūros plėtrą: naujos kartos kalbos modelių mokymui planuojamas milžiniškas superkompiuteris, o aparatinę įrangą tieks keli pramonės sunkiasvoriai. Pasak pramonės šaltinių, svarbiausi partneriai bus Dell Technologies ir Supermicro – jie pasirūpins serverių stelažais ir jų surinkimu, reikalingu Grok modelių evoliucijai.

Kas žinoma apie projektą

Numatoma, kad artimiausio etapo sistema remsis dešimtimis tūkstančių aukštos našos GPU. Grok 2 mokymams planuojama apie 20 tūkst. NVIDIA H100, o vėlesnė Grok 3 banga gali išaugti iki maždaug 100 tūkst. vienetų. Tikslas – visą infrastruktūrą prikelti darbui iki 2025 m. rudens, todėl tiekimo grandinė, aušinimas ir energijos pajėgumai tampa kritiniais veiksniais.

Partneriai ir vaidmenys

Dell Technologies, anot ataskaitų, surinks maždaug pusę superkompiuteriui reikalingų stelažų. Supermicro, turinti itin glaudžius ryšius su GPU ekosistema, atneša patirtį didelio tankio serverių ir skysčiu aušinamų sprendimų srityje. Šis derinys leidžia greičiau sukomplektuoti sistemas ir pritaikyti jas skirtingoms apkrovoms – nuo užduočių planavimo iki milžiniškų modeliavimo etapų.

Aušinimo kryptis: skystis prieš orą

Per pastaruosius metus keitėsi požiūris į duomenų centrų aušinimą. Nors ilgą laiką vyravo orinis aušinimas, didelio tankio AI serveriai verčia peržiūrėti kaštų ir našumo balansą. Tiesioginis skysčių aušinimas išsprendžia šiluminio tankio problemą, dažnai sumažina energijos sąnaudas ir leidžia efektyviau išnaudoti patalpas.

Didesnis energijos efektyvumas: mažiau energijos švaistoma ventiliacijai ir kondicionavimui.
Aukštesnis tankis: daugiau GPU viename stelaže be šiluminių apribojimų.
Mažesnės eksploatacinės išlaidos: ilgainiui mažėja TCO, ypač dideliuose klasteriuose.

Aparatinės kartos pasirinkimas

Dabartinė architektūra remiasi Hopper (H100) GPU, tačiau horizonte jau matyti kita karta – Blackwell. Sprendimas, ar laikytis esamos architektūros, ar pereiti prie naujesnės, priklausys nuo kelių veiksnių: tiekimo terminų, programinės įrangos suderinamumo, kainodaros ir rizikos valdymo. Dideliems klasteriams dažnai taikoma mišri strategija – užtikrinamas stabilių komponentų tiekimas dabar, o vėliau planuojami etapais vykstantys atnaujinimai.

Ko reikės sėkmingam startui

Tiekimo grandinės patikimumo: tūkstančių GPU gamyba ir pristatymas pagal grafiką.
Energijos infrastruktūros: pakankamos galios, atsarginių šaltinių ir PUE optimizavimo.
Efektyvaus aušinimo: skysčių grandinių, šilumokaičių ir monitoringų integracijos.
Aukštos spartos tinklų: RDMA, NVLink/NVSwitch ir pralaidumo be perkrovų.
Programinės įrangos optimizacijos: kompiliatorių, bibliotekų ir paskirstyto mokymo derinimo prie konkrečios architektūros.

Žvilgsnis į priekį

Jei planas bus įgyvendintas laiku, xAI turės vieną didžiausių ir našiausių AI mokymo platformų rinkoje. Tai atvertų galimybes greitesnėms Grok iteracijoms, sudėtingesniems kontekstams ir sparčiau mažinamiems mokymo kaštams. Didžiausia intriga – ar projektas liks prie Hopper ekosistemos, ar bus pasirengta šuoliui į Blackwell, kai tik naujos kartos GPU taps plačiai prieinami.

Aišku viena: didelio masto AI sistemos jau nebeapsiriboja vien GPU skaičiumi. Laimi tie, kurie vienu metu suvaldo aušinimą, energiją, tinklus ir programinį sluoksnį – taip maksimaliai išspausdami vertę iš kiekvieno stelažo.

Kazlauskaite

Technikos temomis rašanti autorė, kuri paprastą žmogų supažindina su dažnai painiu buitinės elektronikos pasauliu. Ji – profesionali turinio kūrėja, daugiau nei 10 metų rašanti technologijų, elektronikos ir namų įrangos temomis.
Rūta pasižymi gebėjimu sudėtingą informaciją pateikti aiškiai, suprantamai ir naudotai praktiškai – būtent tai ir daro jos tekstus vertingus skaitytojams, ieškantiems patikimų patarimų prieš perkant ar naudojant buitinę techniką.