Tencentin uusi CALM AI Framework murskaa tekoälyn nopeuden pullonkaulan

Tencent AI Labin tutkijat ovat julkistaneet uuden tekoälykehyksen, joka on suunniteltu murtamaan nykyisten suurten kielimallien nopeusrajoitukset.

Tällä viikolla verkossa julkaistussa asiakirjassa kerrotaan yksityiskohtaisesti, että järjestelmä on nimeltään CALM, jatkuvaa autoregressiivistä kielimallia varten. Se haastaa suoraan hitaan, merkkikohtaisesti prosessin, joka toimii tällä hetkellä luovin tekoälynä.

Sen sijaan, että ennustaisi pienen palan sanaa kerrallaan, CALM oppii ennustamaan yhden vektorin, joka edustaa kokonaista tekstipalaa. Tämä menetelmä voisi tehdä tekoälyn luomisesta paljon nopeampaa ja tehokkaampaa, mikä avaa uuden polun mallien skaalaamiseen.

The Tyranny of the Token: AI's Autoregressive Bottleneck

Nykyaikaisten LLM:ien perustavanlaatuinen heikkous on niiden riippuvuus autoregressiivisestä, merkki kerrallaan. Tämä peräkkäinen riippuvuus on suurin yksittäinen pullonkaula, joka rajoittaa tekoälyn nopeutta ja skaalautuvuutta.

Pitkän artikkelin luominen vaatii tuhansia peräkkäisiä ennustusvaiheita, mikä tekee prosessista laskennallisesti kallista ja hidasta. Tämä ei ole vain akateeminen ongelma; Siksi tehokkaiden mallien käyttö on kallista ja reaaliaikainen, pitkän muodon tuotanto on edelleen haaste.

Tästä tehokkuusongelmasta on tullut keskeinen taistelukenttä tekoälykehittäjille. Kuten Google Research aiemmin totesi, "kun otamme nämä mallit käyttöön useammalle käyttäjälle, niiden nopeampi ja halvempi tekeminen laadusta tinkimättä on kriittinen haaste."

Teollisuus on tutkinut lukuisia ratkaisuja Googlen spekulatiivisista kaskadeista uusiin pakkaustekniikoihin. Nyt Tencentin työ ehdottaa radikaalimpaa ratkaisua.

Paperi ehdottaa suunnitelmaa uudelle erittäin tehokkaiden kielimallien luokalle ja tokenin aiheuttamalle nopeuden pullonkaulalle.

Tavoitteena on muuttaa ennustusyksikkö pohjimmiltaan yhdestä, vähän tietoa sisältävästä tokenista joksikin paljon rikkaammaksi.

Uusi paradigma: vektoreiden ennustaminen merkkien sijaan

Suoraan haasteena generatiivisen tekoälyn status quolle CALM muotoilee ennustetehtävän kokonaan uudelleen. Tutkijat ehdottavat uutta skaalausakselia LLM:ille.

"Väitteemme, että tämän pullonkaulan voittaminen vaatii uuden suunnitteluakselin LLM-skaalaukseen: jokaisen generatiivisen vaiheen semanttisen kaistanleveyden lisäämistä", he kirjoittavat lehdessä.

Lisäämällä tätä "semanttista kaistanleveyttä" malli voi käsitellä enemmän tietoa yhdessä vaiheessa. CALM saavuttaa tämän innovatiivisella kaksivaiheisella prosessilla, joka toimii jatkuvassa, ei erillisessä tilassa.

CALMin suunnittelun ytimessä on korkealaatuinen automaattinen kooderi. Tämä komponentti oppii pakkaamaan K-merkkisen palan – esimerkiksi neljä merkkiä – yhdeksi, tiheäksi jatkuvaksi vektoriksi.

Ratkaisevaa on, että se voi rekonstruoida alkuperäiset tunnukset tästä vektorista yli 99,9 %:n tarkkuudella. Erillinen kielimalli suorittaa sitten autoregressiivisen ennustuksen tässä uudessa vektoriavaruudessa.

mukaanprojektin virallinen dokumentaatio, "sen sijaan, että ennustaisi yhden erillisen merkin kerrallaan, CALM oppii ennustamaan yhden jatkuvan vektorin, joka edustaa kokonaista K-merkkien osaa."

Tämä vähentää generatiivisten vaiheiden määrää kertoimella K, mikä johtaa merkittäviin tehokkuuden lisäyksiin.

Todennäköisyysvapaa työkalupakki: Kuinka CALM oppii ja mittaa menestystä

Siirtyminen diskreeteistä tokeneista jatkuviin vektoreihin tuo suuren haasteen: malli ei voi enää laskea eksplisiittistä todennäköisyysjakaumaa kaikille mahdollisille tuloksille käyttämällä standardia softmax-kerrosta.

Tämä tekee perinteisistä koulutus- ja arviointimenetelmistä, jotka perustuvat todennäköisyyksien laskemiseen, soveltumattomia. Tämän ratkaisemiseksi Tencent-tiimi kehitti kattavan, todennäköisyysvapaan viitekehyksen.

CALM käyttää koulutuksessa Energy-Based Training -menetelmää, joka käyttää ehdottoman oikeaa pisteytyssääntöä mallin ohjaamiseen ilman, että tarvitsee laskea todennäköisyyksiä.

Arviointia varten tutkijat ottivat käyttöön uuden mittarin nimeltä BrierLM. Siirtyen pois perinteisistä mittareista, kuten hämmennys, BrierLM johdetaan Brier-pisteestä, joka on todennäköisyysennusteen työkalu.

Se mahdollistaa reilun, otokseen perustuvan mallien ominaisuuksien vertailun tarkistamalla, kuinka hyvin ennusteet vastaavat todellisuutta. Tämä menetelmä sopii täydellisesti malleihin, joissa todennäköisyydet ovat vaikeasti arvioitavissa.

Uusi tekoälyn skaalauksen akseli ja tehokkuuskilpailu

Tämän uuden arkkitehtuurin käytännön vaikutus on erinomainen suorituskyvyn ja laskennan välinen kompromissi.

Suositeltu luettava:

CALM-malli vähentää koulutuksen laskennallisia vaatimuksia 44 % ja päätelmiä 33 % vahvaan lähtötasoon verrattuna. Tämä osoittaa, että kunkin vaiheen semanttisen kaistanleveyden skaalaaminen on uusi tehokas vipu laskennan tehokkuuden parantamiseksi.

Työ asettaa CALMin merkittäväksi kilpailijaksi alan laajuisessa kilpailussa rakentaa nopeampaa, halvempaa ja helpompaa tekoälyä.

Google on ratkaissut tekoälyn nopeusongelman menetelmillä, kuten spekulatiivisilla kaskadeilla ja Nested Learningillä. Muut startupit, kuten Inception, tutkivat täysin erilaisia arkkitehtuureja, kuten diffuusiopohjaisia LLM-yrityksiä."Elohopeakooderi"paeta autoregression "rakenteellista pullonkaulaa".

Yhdessä nämä erilaiset lähestymistavat korostavat muutosta tekoälyn kehityksessä. Teollisuus on siirtymässä puhtaasta mittakaavakeskeisyydestä kestävämpään tavoitteeseen älykkäämpään, taloudellisesti kannattavampaan tekoälyyn. CALMin vektoripohjainen lähestymistapa tarjoaa uuden tien eteenpäin tällä rintamalla.