Alibaba pristato naują Qwen3 didžiųjų kalbos modelių seriją su geresnėmis hibridinio samprotavimo galimybėmis

Alibaba pristato naują Qwen3 didžiųjų kalbos modelių seriją su geresnėmis hibridinio samprotavimo galimybėmis

Naujoji atvirojo kodo Qwen3 kalbinių modelių serija – ambicingas žingsnis į priekį. Vietoje vieno universalaus varianto čia pateikiama visa aibė: šeši „tankūs“ (dense) modeliai ir du didžiuliai ekspertų mišinio (MoE) modeliai. Tokia įvairovė skirta tam, kad kūrėjai galėtų pritaikyti sprendimą nuo mobiliųjų įrenginių ir išmaniųjų akinių iki autonominių transporto priemonių bei robotikos.

Kas sudaro naująją seriją

Qwen3 linija apima aštuonis modelius su skirtingais pajėgumais ir sąnaudomis. Tankūs modeliai tinka, kai reikia stabilaus našumo ir nuspėjamo išteklių naudojimo, o MoE architektūros išnaudoja „ekspertų“ posistemes ir leidžia pasiekti itin aukštą kokybę sudėtingoms užduotims, išlaikant palankų kainos ir kokybės santykį dideliame mastelyje.

Hibridinis mąstymas: kada įsijungia „gilus“ režimas

Qwen3 remiasi hibridinio samprotavimo principu. Modeliai geba persijungti tarp dviejų veiksenų: „mąstymo“ režimo, skirto daugiažingsniams uždaviniams (pvz., matematika ar programų kūrimas), ir greito atsakymo režimo kasdienėms užklausoms. Idėja paprasta – sistema pati supranta, kada verta „įjungti visą smegenų galią“, o kada atsakyti lengvai ir greitai.

Naudojant API galima reguliuoti, kiek ilgai modelis pasilieka „mąstymo“ būsenoje – iki maždaug 38 000 žetonų. Tai suteikia lankstumo derinti tikslumą su sparta pagal konkrečius poreikius.

Mastelis ir sąnaudų kontrolė

Didžiausias MoE variantas (Qwen3-235B-A22B) sukurtas taip, kad sudėtingose užduotyse suteiktų aukštą kokybę ir kartu padėtų sumažinti debesijos kaštus, lyginant su kai kuriais brangiausiais rinkos modeliais. Jei sistema veikia dideliu srautu ar turi daug agentų, MoE pasirinkimas gali būti ekonomiškai naudingas.

Kada rinktis kurį modelį

  • Mobiliosiose ar įterptinėse sistemose – mažesni tankūs modeliai dėl efektyvesnio išteklių naudojimo.
  • Interaktyviems įrenginiams (pvz., akiniams ar robotams) – vidutinio dydžio modeliai, subalansuojantys kokybę ir vėlinimą.
  • Serverinėms darbo apkrovoms, agentų ekosistemoms ir sudėtingai analitikai – MoE modeliai, kai svarbi maksimali kokybė bei mastelio ekonomija.

Duomenys, kalbos ir nauji gebėjimai

Qwen3 mokytas su itin dideliu korpusu – apie 36 trilijonus žetonų, maždaug dvigubai daugiau nei ankstesnėje versijoje. Tai atnešė ryškių pagerėjimų samprotavimo užduotyse, įrankių naudojime ir daugiakalbystėje. Modeliai palaiko 119 kalbų, gerai tvarkosi su vertimu ir tiksliai laikosi instrukcijų įvairiomis kalbomis.

Įrankių ir agentų integracija

Sąveika su agentais numatyta „iš dėžutės“: integruotas funkcijų kvietimas, gebėjimas laikytis sudėtingų raginimų bei scenarijų. Tai supaprastina diegimą, kai reikia, kad modelis dinamiškai naudotųsi API, duomenų bazėmis ar kitais išoriniais įrankiais.

Vertinimai ir testai

Pagal viešai pripažintus rodiklius Qwen3 demonstruoja stiprius rezultatus. Matematikos užduotyse išsiskiria AIME25 rinkiniuose, programavimo srityje – LiveCodeBench, įrankių naudojime – BFCL, o sudėtingų instrukcijų supratime – Arena-Hard vertinimuose. Šie testai rodo pažangą tiek loginėje, tiek praktinių įgūdžių dimensijoje.

Kaip modeliai mokyti

Mokymas vyko keliais etapais. Tarp jų – grandinės tipo samprotavimo (chain-of-thought) prieštreniruotė ir stiprinamasis mokymas, orientuotas į geresnį sprendimų priėmimą daugiažingsnėse užduotyse. Tokia schema padeda modeliams nuosekliai aiškintis sudėtingas problemas ir teikti patikimesnius atsakymus.

Prieinamumas

Qwen3 yra atvirojo kodo projektas. Modelius galima rasti populiariuose modelių kataloguose ir kodų saugyklose, yra ir viešų demonstracinių versijų, o integracijos į kūrimo įrankius numatytos artimiausiu metu. Tai palengvina bandymus, diegimą ir pritaikymą skirtingoms reikmėms – nuo prototipų iki didelio masto produktų.

Parašykite komentarą

El. pašto adresas nebus skelbiamas. Būtini laukeliai pažymėti *