Tietojen tislaus: Kuinka helpottaa LLM: ää ja säästää tarkkuutta

Artikkeli on op-ed kirjoittanutKirill Starkov.

Nykyaikaisten LLM: ien kehitys on johtanut uskomattomiin tuloksiin: huipputekniseen suorituskykyyn, korkeaan laatuun ja valitettavasti laskennallisiin kustannuksiin. Insinöörit valitsevat yleensä pienemmät mallit vain siksi, että ne ovat halvempia eivätkä vaadi erityistä laitteistoa.

Tietojen tislausprosessi keksittiin tämän ongelman ratkaisemiseksi: se on mahdollisuus säästää aikaa, rahaa ja korkealaatuista suorituskykyä samanaikaisesti. Asiantuntijamme, vanhempi koneoppimissinööri Kirill Starkov, kommentoi tätä tekniikkaa ja jakaa oman kokemuksensa.

Kuinka tiedon tislaus toimii?

Tietojen tislauksen ajatus (KD) voidaan selittää esimerkillä 'opettaja-opiskelijan' vuorovaikutuksesta: se on tiedonsiirto suuresta kielimallista pieneen. 'Opiskelija' -malli on yhtä tehokas kuin sen 'opettaja', mutta se sopii paremmin käyttöönottoon.

Opiskelija-mallin kouluttamiseen on kaksi tapaa: kova ja pehmeä leimaustislaus.

'Kova leimaustislaus on kolme vaihetta:

  1. Kehotteet kokoelma
  2. Vastaukset kehotteisiin, luomalla “opettaja” malli
  3. Merkitty tietojoukon muodostuminen

Sen jälkeen pieni malli oppii jäljittelemään suuren mallin vastauksia merkittynä tietojoukon kanssa, joka on merkitty totuutena. '

Kova leiman tislaus on helpompaa ja siinä on vähemmän laskennallisia kustannuksia kuin pehmeän levyn tislaus, mutta jälkimmäinen on tarkempi, koska se siirtää suuren mallin yksittäisen ennustavan jakauman.

'Pehmeät etiketit opettavat parempia kuin kovat kohteet, koska ne tarjoavat enemmän oppimistietoja ja paljon vähemmän vaihtelua gradientissa koulutustapausten välillä, kun niillä on korkea entropia. ”Opiskelija” -malli voidaan kouluttaa paljon vähemmän tietoihin kuin alkuperäinen “opettaja” -malli.

Yksi ML: n tärkeimmistä mittareista on häviöfunktio tai ristin entropia. KD: n käyttöönotto vaatii toisen tyyppisiä menetysmittareita - sivustotappiota. 'Pehmeä menetys on painotettu ristin entropia, kun määritämme erilaisia painoja väärien positiivisten tai väärien negatiivisten estämiseksi "opettaja" -mallista ".

Kullback-Leibler Divergence (KLDIV) -kaavaa käytetään tislauksen menetyksen laskemiseen.

Lkd = kl (softmax (zt/t) || softmax (zs/t)) ⋅ t2

Missä t on lämpötila (yleensä> 1)

ZT ja ZS ovat vastaavasti opettajien ja opiskelijoiden logit.

Kova tavoitehäviötoiminto

LCE = Crossentropy (Ytrue, SoftMax (ZS))

Kokonaishäviö (yhdistetty)

L = α ⋅ lce + (1− a) ⋅ lkd

Missä α on hyperparametri (yleensä 0,1 - 0,9)

Tietojen tislauksen toteutus

Tietojen tislausta käytetään usein hankkeissa, joissa on rajoitettu operatiiviset resurssit, joissa hankala LLMS: n toteuttaminen on mahdotonta.

'Tietojen tislaus on välttämätöntä tietokoneen visiossa ja esineiden havaitsemisohjelmissa. Pienemmät mallit soveltuvat käyttöönottamiseen laitteissa, joissa on rajoitetut prosessoresurssit, kuten turvakamerat ja droonit. '

Pieniä malleja käytetään myös luonnollisissa kieltenkäsittelyohjelmissa. "NLP vaatii reaaliaikaisen vastauksen suurella nopeudella ja tehokkuudella, joten koulutetut” opiskelija ”-mallit ovat täydellisiä chat-botteihin, käännösohjelmiin ja muihin mobiililaitteisiin."

Käyttötapa: DSSL Computer Vision

Kuten aiemmin mainittiin, tietotislausta käytetään nykyaikaisissa CV -tekniikoissa. Kirill Starkov päätti parantaa suojausilmaisimen laitetta pienen kielimallin käyttöönotolla.

Katso myös:AI: n tekemä kappaleiden havaitseminen on paljon helpompaa - näin

"Tällöin näimme, että tiedon tislaus on todella hyödyllistä, koska tarkistimme tulokset erityisellä mittarilla: keskimääräinen tarkkuus."

Keskimääräinen tarkkuus (MAP) mittaa esineiden ilmaisimien tarkkuutta. Se tarjoaa yhden numeron, joka tiivistää tarkkuus-recall-käyrän, mikä heijastaa sitä, kuinka hyvin malli toimii eri kynnystasoilla. 'Ennen KD: n käyttöönottoa karttamme oli 27,4; jälkeen - 34,2. '

Tietojen tislauksen edut ja haitat

KD on aina parempaa suorituskykyä: Yleiset edut ovat toimintakustannusten vähentäminen, nopeampi päätelmä, monimutkaisten kuvioiden säilyttäminen.

Mutta tällä tekniikalla voi olla joitain haittoja. Epätasapaino oppimisolosuhteiden ja päätelmien välillä voi johtaa altistumisen puolueellisuuteen, koska 'opiskelija' -kielimalli ei voi oppia korjaamaan omia virheitään.

Pehmeän levyn tislaus on laskennallisesti kallista koulutuksen aikana, koska täydelliset todennäköisyysjakaumat yksittäisten merkkiindeksien sijasta tallennetaan ja jalostetaan.

Se vaatii myös syvempää opiskelijoiden opettajien integraatiota suuren mallin sisäisten todennäköisyyksien käyttämiseksi, mikä vaikeuttaa toteuttamista kuin tavallisia lähestymistapoja.

Tämä tarina julkaistiin alun perin 23. lokakuuta 2021.

Related Posts