„Alibaba Cloud“ pristato naują multimodaliam suvokimui skirtą „Qwen2.5-OMNI“ modelį

„Alibaba Cloud“ pristato naują multimodaliam suvokimui skirtą „Qwen2.5-OMNI“ modelį

Išleistas naujas Qwen2.5-Omni-7B – kompaktiškas, maždaug 7 mlrd. parametrų daugiarūšis modelis, galintis vienu metu suprasti ir generuoti tekstą, vaizdus, garsą bei vaizdo įrašus. Jis ypač pritaikytas balso sąveikai ir realaus laiko užduotims, kur svarbi greita reakcija ir sklandi vartotojo patirtis.

Kam tai skirta

Modelis kuriamas taip, kad realiai padėtų kasdienėse situacijose ir verslo procesuose. Pagrindinės pritaikymo kryptys:

  • Pagalba regėjimo negalią turintiems žmonėms – aplinkos aprašymas balsu realiu laiku.
  • Maisto gamyba – vaizdo įrašų ingredientų atpažinimas ir žingsnis po žingsnio pateikiamos instrukcijos.
  • Klientų aptarnavimas – natūraliai bendraujantys, greitai reaguojantys balso asistentai.

Kaip veikia

Qwen2.5-Omni-7B naudoja architektūrinius sprendimus, kurie atskiria mąstymo ir kalbėjimo procesus, sinchronizuoja skirtingas įvestis ir mažina delsą.

  • „Thinker–Talker“ schema: „Thinker“ generuoja tekstą ir sprendžia užduotis, o „Talker“ sintezuoja kalbą. Šis atskyrimas sumažina tarpusavio trikdžius ir padidina stabilumą.
  • TMRoPE pozicijų žymėjimas: speciali laiko suderinimo technika, kuri sinchronizuoja garso ir vaizdo srautus, kad kuriamas turinys būtų vientisas ir nuoseklus.
  • Blokinis srautinio apdorojimo režimas: leidžia generuoti itin mažos delsos garso atsakus sklandžioms balso sąveikoms.

Ką moka

Modelis iš anksto mokytas su dideliais, įvairiarūšiais duomenimis (vaizdas–tekstas, vaizdo įrašas–tekstas, garsas–tekstas ir kt.), todėl tvirtai laiko daugiarūšių užduočių frontą. Su balso komandomis jis pasiekia lygį, artimą tekstui optimizuotiems modeliams, o specializuotuose daugiarūšio mąstymo testuose demonstruoja stiprų samprotavimą.

Balso generacija papildomai stiprinta pastiprinamuoju mokymusi – taip sumažinamas prasminis nesuderinamumas, taisomos tarimo klaidos ir trumpinamos nepatogios pauzės.

Kur pasiekti

Qwen2.5-Omni-7B prieinamas per įprastus atviro kodo katalogus ir modelių dalinimosi platformas, taip pat per pokalbių įrankius ir debesijos modelių galerijas. Tai palengvina integraciją į esamas sistemas ir eksperimentus kūrėjams.

Kontekstas ir pažanga

Šis modelis pratęsia ankstesnę Qwen2.5 bangą: didesnės talpos versijos jau užėmė aukštas pozicijas bendruose pokalbių modelių reitinguose, o atviro kodo vizualinei sampratai ir ilgam kontekstui skirtos versijos praplėtė panaudojimo spektrą. Su Qwen2.5-Omni-7B toliau stumiamos ribos link praktiškesnių, greitesnių ir išmanesnių daugiarūšių sprendimų.

Parašykite komentarą

El. pašto adresas nebus skelbiamas. Būtini laukeliai pažymėti *