Tekoälymuisti: Google Research paljastaa Nested Learningin, uuden tekoälyparadigman katastrofaalisen unohtamisen voittamiseksi

Google Research esitteli 7. marraskuuta 2025 uuden koneoppimisparadigman nimeltä Nested Learning, joka on suunniteltu ratkaisemaan katastrofaalista unohtamista tekoälymalleissa.

Tämä pitkäaikainen ongelma saa mallit pyyhkimään vanhaa tietoa oppiessaan uutta tietoa. Todisteeksi käsitteestä tiimi paljasti "Toivon", itsemuovautuvan arkkitehtuurin, joka voi jatkuvasti oppia ja mukautua.

Uusi menetelmä ei käsittele tekoälyä yhtenä ohjelmana, vaan järjestelmänä sisäkkäisiä oppimisprosesseja, jotka päivittyvät eri nopeuksilla. Tämä lähestymistapa jäljittelee ihmisen muistin toimintaa ja pyrkii luomaan dynaamisempia ja tehokkaampia tekoälyjärjestelmiä, jotka voivat kehittyä ajan myötä ilman jatkuvaa uudelleenkoulutusta tyhjästä.

Tekoälyn amnesian voittaminen: Katastrofisen unohtamisen haaste

Monien kehittyneiden tekoälymallien perustavanlaatuinen heikkous on niiden kyvyttömyys oppia peräkkäin. Kun hermoverkkoa opetetaan käyttämään uutta dataa, se usein unohtaa äkillisesti ja rajusti aiemmin hallitsemansa tiedot.

Tämä ilmiö, joka tunnetaan katastrofaalisena unohtamisena tai katastrofaalisena häiriönä, on ollut merkittävä este luotaessa tekoälyä, joka voi todella kehittyä uusien kokemusten myötä, koska tutkijat tunnistivat sen ensimmäisen kerran 1980-luvun lopulla.

Ongelma johtuu siitä, mitä kognitiiviset tutkijat kutsuvat"vakaus-plastisuus dilemma."Tehokkaan oppimisjärjestelmän on oltava tarpeeksi plastinen uuden tiedon hankkimiseksi, mutta myös riittävän vakaa, jotta uusi tieto ei korvaa olemassa olevia muistoja.

Useimmat tavalliset neuroverkot, erityisesti ne, jotka käyttävättakaisinlisäystä, ovat erittäin muovisia. Niiden sisäiset parametrit tai painot on säädetty minimoimaan virheitä uusissa tehtävissä.

Kuitenkin, koska nämä verkot käyttävät hajautettuja esityksiä, joissa tieto on tallennettu laajaan joukkoon jaettuja painoja. Näiden painojen päivittäminen uutta tehtävää varten häiritsee väistämättä kuvioita, joita tarvitaan vanhojen tietojen palauttamiseen.

Katastrofaalinen unohtaminen tapahtuu, kun parametrit, joiden ei pitäisi liikkua, tärisevät äkillisen suuren gradientin seurauksena, kun hämmennys kasvaa. Tämä prosessi asettaa tehokkaasti uutta tietoa vanhan päälle, mikä johtaa jyrkästi ja usein täydelliseen alkuperäisen oppimisen menettämiseen.

Tämä rajoitus on jyrkässä ristiriidassa ihmisen oppimisen kanssa, joka tyypillisesti merkitsee asteittaista unohtamista eikä äkillistä taitojen tai tietojen pyyhkimistä.

Googlen ilmoitus vetää voimakkaan analogian anterogradiseen amnesiaan, neurologiseen tilaan, jossa henkilö ei voi muodostaa uusia pitkäaikaisia muistoja. Nykyiset suuret kielimallit (LLM) ovat samoin rajallisia; heidän tietämyksensä rajoittuu heidän laajaan esikoulutustietoihinsa ja heidän kontekstiikkunaansa syötettyyn välittömään tietoon.

He eivät voi integroida uusia kokemuksia ydintietopohjaansa. Kuten Google Research -blogissa todetaan: "Jatkuvassa oppimisessa ja itsensä kehittämisessä ihmisaivot ovat kultainen standardi."

Tämä este ei ole vain teoreettinen haitta; Se on merkittävä käytännön este, joka estää tekoälyä sopeutumasta dynaamisiin, todellisiin ympäristöihin, joissa uutta tietoa on jatkuvasti.

Sisäkkäinen oppiminen: Uusi arkkitehtuuria ja optimointia yhdistävä paradigma

Korjatakseen yhden tekoälyn pysyvimmistä puutteista Googlen tutkijat ovat ehdottaneet viitekehystä, joka kuvittelee uudelleen oppimismallien rakenteen.

Uusi paradigma, nimeltään Nested Learning (NL), ylittää perinteisen tasojen pinoamisen. Sen sijaan se ei käsittele mallia monoliittisena kokonaisuutena, vaan kokoelmana toisiinsa liittyviä, monitasoisia optimointiongelmia, jotka suoritetaan samanaikaisesti.

Tämä lähestymistapa yhdistää pohjimmiltaan mallin arkkitehtuurin ja sen opetusalgoritmin katsomalla niitä saman ydinprosessin eri "tasoina".

Jokaisella Nested Learning -kehyksen tasolla on oma selkeä "kontekstivirtansa", erityinen tietovirta, josta se oppii. Se päivittyy omalla taajuudellaan. Tämä suunnittelu on saanut inspiraationsa ihmisen aivoissa havaitusta moniaikaisesta prosessoinnista, jossa eri hermopiirit toimivat eri nopeuksilla, kuten aivoaaltoja.

Kuten tutkimuspaperissa todetaan, "NL paljastaa, että olemassa olevat syväoppimismenetelmät oppivat datasta pakkaamalla omaa kontekstivirtaansa ja selittävät, kuinka kontekstin sisäinen oppiminen ilmenee suurissa malleissa."

Tämä mahdollistaa yksityiskohtaisemman ja tehokkaamman oppimismuodon, jossa jotkin mallin osat voivat mukautua nopeasti uuteen tietoon, kun taas toiset lujittavat tietoa hitaammin.

Nested Learningin ydinkäsitys on sen standardien koneoppimiskomponenttien uudelleenkehystäminen muodoiksiassosiatiivinen muisti. Paperi osoittaa, että itse backpropagation prosessi voidaan mallintaa assosiatiivisena muistina, joka oppii kartoittamaan datapisteen sen "paikalliseen yllätyssignaaliin", joka on virhe tai gradientti.

Tämä signaali kvantifioi kuinka odottamattomia tiedot ovat. Jatkossa kehys tulkitsee yleiset optimoijat, kuten Adam tai SGD ja Momentum, uudelleen "syväoptimoijiksi".

Nämä ovat pohjimmiltaan muistimoduuleja, jotka oppivat pakkaamaan aiempien gradienttien historiaa tulevien päivitysten saamiseksi sen sijaan, että ne olisivat staattisia matemaattisia kaavoja.

Vaikka toteutus on uusi, itseviittaavan oppimisen käsitteellä on syvät juuret tekoälytutkimuksessa. Google-tiimi itse mainitsee perustyön 1990-luvun alusta, mukaan lukienJürgen Schmidhuberin vuoden 1992 artikkeli hermoverkoista, jotka voisivat teoriassa muuttaa omia oppimissääntöjään.

Nested Learning pyrkii tarjoamaan käytännölliset ja johdonmukaiset puitteet näiden pitkäaikaisten teoreettisten tavoitteiden toteuttamiselle ja luomalla selkeän polun kohti malleja, jotka voivat aidosti oppia oppimaan.

Hope on the Horizon: Itsemuovautuva tekoäly, joka oppii oppimaan

"Toivo"-arkkitehtuuri on saanut inspiraatiota tavasta, jolla ihmisaivot käsittelevät muistia, ja se toimii ensimmäisenä konseptin todisteena Nested Learning -paradigmasta.

Hope on itsemuovautuva järjestelmä, joka on rakennettu muunnelmaksi Googlen aikaisemmasta "Titans"-arkkitehtuurista, muistimoduuli, joka priorisoi tiedot sen "yllättävyyden" perusteella.

Katso myös:OpenAI esittelee ChatGPT:n opiskelutilan parantaakseen oppimiskokemusta

Toisin kuin edeltäjänsä, "Hope on kuitenkin itsemuovautuva toistuva arkkitehtuuri, joka voi hyödyntää rajatonta kontekstin sisäistä oppimista..."

Se saavuttaa tämän Continuum Memory Systemin (CMS) avulla, jossa eri muistikomponentit päivittyvät eri taajuuksilla. Tämä luo kirjon nopeasti päivittyvästä, lyhytaikaisesta muistista hitaasti päivittyvään, pitkän aikavälin tiedon varastointiin.

Tämä kerrostettu lähestymistapa antaa mallille mahdollisuuden oppia oppimaan, mikä on merkittävä askel staattisten mallien lisäksi. Se tarkoittaa, että jos voit saada minkä tahansa osan pinosta optimoimaan itsensä, se skaalautuu laskennan avulla ja ylittää siten kaiken, mitä voisit tehdä käsin lopulta.

Termi itsemuokkaus on herättänyt jännitystä, mutta jotkut asiantuntijat varovat liiallisesta tulkinnasta. Sen sijaan, että se kirjoittaisi kirjaimellisesti uudelleen lähdekoodinsa, malli säätää sisäisiä parametrejaan eri nopeuksilla.

Ei ole "sisäistä ääntä", joka tarkastaa itseään tai kirjoittaa kirjaimellisesti uudelleen omaa lähdekoodiaan. Se on pohjimmiltaan järjestelmä, joka koostuu osista, jotka oppivat eri nopeuksilla. Tämä mahdollistaa sen, että se voi integroida uusia faktoja ilman ydintiedon korvaamista.

Lupaavia tuloksia ja viipyviä kysymyksiä

Hope-arkkitehtuurin alustavat vertailuarvot, jotka on kuvattu NeurIPS-paperissa, ovat lupaavia useissa mallikooissa. Tutkimusryhmä testasi Hopen 340M, 760M ja 1.3B parametriversioita nykyaikaisiin malleihin, kutenMuuntaja++,Retentive Network (RetNet), jaTitaanit.

Hope osoitti jatkuvasti vahvaa suorituskykyä kielen mallintamisessa ja terveen järjen päättelytehtävissä. Esimerkiksi 1,3B-parametrimalli, joka on koulutettu 100 miljardilla tunnuksella, saavutti keskimääräisen vertailupisteen 57,23, mikä ylitti vertailukelpoiset Transformer++ (52,25) ja Titans (56,82) -mallit.

Se näkyi alempanahämmennystä, mitta siitä, kuinka hyvin malli ennustaa näytteen, ja suurempi tarkkuus testisarjassa, mukaan lukienPIQA,HellaSwag, jaBoolQ.

Paperi korostaa myös Hopen ylivertaisia muistinhallintaominaisuuksia, erityisesti pitkän kontekstin Needle-In-Haystack (NIAH) -tehtävissä, joissa mallin on löydettävä tietty tieto suuresta tekstimäärästä.

Kirjoittajat selittävät tämän menestyksen Continuum Memory System (CMS) -järjestelmällä, joka mahdollistaa tehokkaamman ja tehokkaamman tavan käsitellä laajennettuja tietosarjoja.

Tämä kyky hallita muistia dynaamisesti ja päivittää oppimista kontekstin perusteella erottaa arkkitehtuurin staattisemmista malleista, kuten vakiomuuntajista.

Näistä vahvoista alustavista tuloksista huolimatta jonkinasteinen skeptisyys on perusteltua, mikä johtuu pääasiassa julkisesti saatavilla olevan paperin rajoitetusta empiirisesta tiedosta.

Kirjoittajat huomauttavat itse paperissa, että NeurIPS-versio oli "laajasti tiivistetty sivurajaan sopivaksi" ja ohjaa lukijat arXivin kattavampaan versioon saadakseen täydelliset tiedot.

Lähestymistapa on jännittävä, mutta Googlee-paperi on myös melko lyhyt empiiristen tulosten suhteen.

Tämä korostaa kriittistä aukkoa uuden arkkitehtuurin teoreettisen lupauksen ja todennettavissa olevan suorituskyvyn välillä. Meidän on odotettava yksityiskohtaisia tuloksia, erityisesti pitkän kontekstin tehtävistä, joissa samankaltaisten innovatiivisten arkkitehtuurien on aiemmin ollut vaikeuksia skaalata tehokkaasti, ennen kuin julistetaan Nested Learning todellinen läpimurto.