Tudás desztilláció: Hogyan lehet az LLM -eket megkönnyíteni és megtakarítani a pontosságot

A cikket operációs szerzője írta:Kirill Starkov-

A modern LLM-ek fejlesztése hihetetlen eredményekhez vezetett: a legmodernebb teljesítmény, a kiváló minőségű és sajnos a számítási költségek. A mérnökök hajlamosak kisebb modelleket választani, csak azért, mert olcsóbbak és nem igényelnek speciális hardvereket.

A tudás desztillációs folyamatát feltalálták a kérdés kezelésére: ez egy esély arra, hogy időt, pénzt és kiváló minőségű teljesítményt takarítson meg egyszerre. Szakértőnk, Kirill Starkov, az idősebb gépi tanulási mérnök kommentálja ezt a technológiát, és megosztja saját tapasztalatait.

Hogyan működik a tudás desztillációja?

A tudás desztillációjának (KD) gondolata magyarázható a „tanár-hallgató” interakció példájával: ez egy tudásátvitel egy nagy nyelvi modellről egy kicsire. A „hallgató” modell ugyanolyan hatékony lesz, mint a „tanár”, de alkalmas lesz a telepítésre.

Kétféle módon lehet kiképezni a „hallgató” modellt: kemény és lágy címkézés.

„A kemény desztillációnak három szakasza van:

Felszólítja a gyűjteményt
Válaszok az utasításokra, amelyeket a „tanár” modell generál
Felcímkézett adatkészlet képződése

Ezt követően a kis modell megtanulja utánozni a nagy modell válaszát a címkézett adatkészlettel, amelyet alapvető igazságként jelölnek. ”

A kemény desztilláció könnyebb, és kevesebb számítási költséggel bír, mint a lágy címkével, de az utóbbi pontosabb, mivel átadja a nagy modell egyedi prediktív eloszlását.

„A lágy címkék jobban tanítanak, mint a kemény célok, mert több tanulási információt és sokkal kevesebb eltérést szolgáltatnak a gradiensben az edzési esetek között, ha magas entrópiával rendelkeznek. A „hallgatói” modell sokkal kevesebb adaton képzést lehet képezni, mint az eredeti „tanár” modell.

Az ML egyik legfontosabb mutatója a veszteségfunkció vagy a kereszt entrópia. A KD telepítéséhez egy másik típusú veszteség -mutatót igényelnek - nem veszteség. "A lágy veszteség súlyozott kereszt entrópia, amikor különböző súlyokat rendelünk a hamis pozitív vagy hamis negatívok megelőzésére a„ tanár ”modellből."

A Kullback-Leibler divergencia (KLDIV) képletet használják a desztillációs veszteség kiszámításához.

LKD = KL (softmax (zt/t) || softmax (zs/t)) ⋅ t2

Ahol T hőmérséklet (általában> 1)

A ZT és a ZS a tanárok és a hallgatók naplók.

Kemény célveszteség funkció

LCE = Crossentropy (YTrue, SoftMax (ZS))

Teljes veszteség (kombinált)

L = α ⋅ lce + (1− a) ⋅ lkd

Ahol az α hiperparaméter (általában 0,1–0,9)

Tudás desztilláció megvalósítása

A tudás desztillációját gyakran korlátozott operatív erőforrásokkal rendelkező projektekben használják, ahol a nehézkes LLM -ek megvalósítása lehetetlen.

„A tudás desztillációja kötelező a számítógépes látás és az objektumok észlelési programjaiban. A kisebb modellek alkalmasak korlátozott feldolgozási erőforrásokkal rendelkező eszközök, például biztonsági kamerák és drónok telepítésére. ”

Kis modelleket is használnak a természetes nyelvfeldolgozási programokban is. "Az NLP valós idejű választ igényel nagy sebességgel és hatékonysággal, így a képzett„ hallgatói ”modellek tökéletesek a csevegési botokhoz, a fordítási programokhoz és más mobil eszközökhöz."

Telepítési eset: DSSL Computer Vision

Mint már említettük, a tudás desztillációját használják a modern CV technológiákban. Kirill Starkov úgy döntött, hogy javítja a biztonsági detektor eszközt egy kis nyelvi modell telepítésével.

Lásd még:

"Ebben az esetben láttuk, hogy a tudás desztillációja valóban hasznos, mert az eredményeket egy speciális mutatóval ellenőriztük: átlagos átlagos pontosság."

Az átlagos átlagos pontosság (MAP) méri az objektumdetektorok pontosságát. Egyetlen számot biztosít, amely összefoglalja a precíziós visszahívási görbét, tükrözve, hogy egy modell mennyire teljesít a különböző küszöbszinteken. „A KD telepítése előtt a térképünk 27,4 volt; Utána - 34.2.

A tudás desztillációjának előnyei és hátrányai

A KD mindig a jobb teljesítményről szól: gyakori előnyök a működési költségek csökkentése, a gyorsabb következtetés, a komplex minták megőrzése.

De ennek a technológiának van néhány hátránya. A tanulási feltételek és a következtetések közötti egyensúlyhiány az expozíciós torzításhoz vezethet, mivel a „hallgató” nyelvmodell nem tudja megtanulni, hogyan kell kijavítani a saját hibáit.

A puha-címke desztilláció számítási szempontból drága az edzés során, mivel a teljes valószínűség-eloszlás, nem pedig az egyes token indexek tárolása és feldolgozása.

Ezenkívül mélyebb hallgató-tanár integrációra van szükség egy nagy modell belső valószínűségének eléréséhez, megnehezítve a végrehajtást, mint a szokásos megközelítések.

Ezt a történetet eredetileg 2021. október 23 -án tették közzé.