Alibaban Aegaeon System leikkaa tekoälyn päättelykustannuksia 82 % älykkäällä GPU-aikataululla

Kiinalainen teknologiajätti Alibaba on paljastanut tehokkaan uuden järjestelmän, joka leikkaa tekoälyn käyttökustannuksia jopa 82 prosenttia.

Aegaeon-niminen teknologia vastaa pilvipalvelujen tarjoajien kriittiseen haasteeseen: kuinka palvella tehokkaasti tuhansia erikoistuneita tekoälymalleja, joita asiakkaat käyttävät harvoin.

Tutkimuksessa, joka esiteltiin osoitteessaSymposium on Operating Systems Principles (SOSP) Soulissa– yksi arvostetuimmista tietojenkäsittelytieteen paikoista – Alibaba kertoi yksityiskohtaisesti, kuinka Aegaeonin älykäs ajoitus yhdistää kalliita GPU-laitteita paljon tehokkaammin kuin nykyiset menetelmät.

Kolmen kuukauden kokeilujakson aikana järjestelmä antoi Alibaba Cloudille mahdollisuuden palvella laajaa mallistoa käyttämällä vain 213 GPU:ta 1 192:n sijaan.leikata rajusti tekoälymarkkinansa toimintakustannuksia.

Innovaatio kohdistuu suoraan nykypäivän tekoälyinfrastruktuuriin luontaiseen valtavaan hukkaan. Alibaban omat tiedot paljastivat jyrkän epätasapainon: 17,7 % sen grafiikkasuorittimesta oli sidottu palvelemaan kapean mallin "pitkää häntää", joka vastasi vain 1,35 % asiakkaiden kaikista pyynnöistä.

Pilvialustoille, jotka isännöivät eri mallien kasvavaa markkinapaikkaa, tämä tehottomuus on valtava ja kestämätön toimintakustannus.

Aegaeonin kehitystyö, jonka on kirjoittanut Alibaba Cloudin teknologiajohtaja Zhou Jingren, on merkki korkean tason strategisesta työntöstä tämän ongelman ratkaisemiseksi.

Käyttämättömästä grafiikkasuorittimesta älykkääseen ajoitukseen: The Aegaeon Breakthrough

Pohjimmiltaan Aegaeon korvaa monien järjestelmien käyttämän karkean, pyyntötason skaalauksen paljon yksityiskohtaisemmalla "tunnustason automaattisella skaalauksella".

Perinteisten järjestelmien on odotettava, että malli on valmis luomaan vastauksen yhdelle käyttäjälle. Tämä prosessi lukitsee GPU:n luoden vakavan "head-of-line-eston", jossa muita malleja koskevat kiireelliset pyynnöt juuttuvat jonoon pitkään jatkuvan tehtävän takana.

Aegaeonin arkkitehtuuri on älykkäämpää. Se voi keskeyttää mallin prosessin sukupolven puolivälissä tunnistekohtaisesti käsitelläkseen nopeasti äskettäin saapuneen pyynnön eri mallista samalla laitteistolla.

Tämä ennaltaehkäisevä ajoitus sallii yhden GPU:n palvella sujuvasti useita eri malleja – jopa seitsemää GPU:ta kohden testauksessa – ilman pitkiä viiveitä, jotka rikkovat palvelutason tavoitteita.

mukaantutkimuspaperi, tämä hienorakeinen ohjaus on uskomattoman tehokas. Aegaeon käyttää sarjaa täyden pinon optimointeja, mukaan lukien komponenttien uudelleenkäyttö nopeuttaakseen moottorin uudelleenalustusta ja selkeä muistinhallinta estääkseen pirstoutumisen, mikä yhdessä vähentää automaattiseen skaalaukseen liittyvää tyypillistä ylimääräistä kustannuksia huomattavalla 97%.

Tämän seurauksena Alibaba väittää, että Aegaeon pystyy ylläpitämään 2–2,5 kertaa korkeampia pyyntöjä kuin vaihtoehtoiset ratkaisut, mikä muuttaa perusteellisesti monipuolisen malliluettelon palvelemisen taloudellisuutta.

Beyond Brute Force: Kuinka Token-tason skaalaus ratkaisee tekoälyn pitkän hännän ongelman

Tämä toiminnan tehokkuuden läpimurto eroaa innovaatioista, jotka vähentävät tekoälyn koulutuskustannuksia. Vaikka Aegaeonin debyytti tuo valtavia säästöjä, se ei toista DeepSeek-hetkeä tammikuussa 2025.

Tuossa tapahtumassa kiinalaisen DeepSeekin paperi ehdotti radikaalisti halvempia koulutusmenetelmiä, mikä laukaisi suuren teknologiaosakkeiden myynnin, joka iski erityisen voimakkaasti GPU-valmistajiin, kuten Nvidia.

Lue lisää:Google selittää, mitä AI-päätelmä todella on ja miksi se on niin kallista

Sen sijaan Aegaeon käsittelee yhtä kriittistä, joskin vähemmän otsikoihin tarttuvaa haastetta, jotka liittyvät päätelmien kustannusten tekemiseen – tuotannon tosiasiallisesti *käytettävien* tekoälymallien hintaan.

Tämän ratkaiseminen on Alibaballe strateginen välttämättömyys. Yhtiö noudattaa aggressiivista tekoälystrategiaa ja julkaisee jatkuvan virran sekä avoimen lähdekoodin että patentoiduista malleista koodauksesta multimodaaliseen päättelyyn.

Juuri tämä strategia luo erikoismallien "pitkän hännän", joka tekee Aegaeonista niin arvokkaan. Rakentamalla tehokkaan alustan niiden pyörittämiseen Alibaba voi tehdä laajoista tekoälymarkkinoistaan ​​taloudellisesti elinkelpoisen.

Uusi rintama tekoälyn asekilpailussa: Alan laajuinen tehokkuuspyrkimys

Alibaban keskittyminen ajoitukseen on yksi useista rintamilla teollisuuden laajuisessa sodassa tekoälyn huikeita kustannuksia vastaan.

Koska sekä koulutuksen että päätelmien hinta on edelleen keskeinen este laajalle leviämiselle, suuret toimijat hyökkäävät tehokkuusongelmaan eri näkökulmista ja luovat monipuolisen innovaatiomaiseman, jossa jokainen tekoälypinon osa on optimoitu.

Yksi suosittu tapa on suunnitella itse malliarkkitehtuuri uudelleen. Esimerkiksi IBM:n viimeisimmät Granite 4.0 -mallit käyttävät hybridimuotoilua, jossa Transformer-lohkot yhdistetään erittäin tehokkaisiin Mamba-kerroksiin. Tämä menetelmä tavoittelee tehokkuutta rakentamalla alusta alkaen olennaisesti kevyemmän moottorin, joka kohdistuu ydinlaskentakuormaan.

IBM:n projektipäällikkö Raghu Ganti sanoi, että "kaikki palaa KV-välimuistin vähentämiseen... Lisää suorituskykyä, pienempi viive, pidempi kontekstin pituus."

Toinen strategia tähtää muistin optimointiin hallitsevassa Transformer-arkkitehtuurissa. Tokiossa sijaitsevan Sakana AI:n Neural Attention Memory Models (NAMM) -mallit käyttävät evolutionaarisia algoritmeja hallitakseen älykkäästi mallin KV-välimuistia, joka on merkittävä muistin pullonkaula.

Tämä tekniikka vähentää dramaattisesti muistijalanjälkeä pitkiä konteksteja sisältävien tehtävien yhteydessä.

Myös radikaalimpia lähestymistapoja on tulossa, jotka haastavat skaalausparadigman kokonaan. Tutkijat paljastivat tänä kesänä aivoja muistuttavan näkömallin, joka jäljittelee ihmisen hermorakenteita ylivertaisen energiatehokkuuden saavuttamiseksi.

Yksi sen kirjoittajista, Zejin Lu, selitti konseptin: "Ihmisille, kun havaitset tiettyjä esineitä, niillä on tyypillinen sijainti. Tiedät jo, että kengät ovat yleensä pohjassa, maassa. Lentokone on ylhäällä."

Tuloksena saatu malli kuluttaa yli kymmenen kertaa vähemmän energiaa kuin tavallinen tekoäly, mikä osoittaa, että tyylikäs muotoilu voi joskus voittaa raakaa voimaa.

Aegaeonin dynaaminen aikataulutus on tehokas, täydentävä lähestymistapa näihin muihin menetelmiin. Se todistaa, että pitkälle kehitetty järjestelmäsuunnittelu voi tuottaa yhtä merkittäviä säästöjä kuin arkkitehtoniset uudistukset, mikä varmistaa, että tekoälyvallankumouksesta voi tulla kestävää liiketoimintaa.

Related Posts