A cikket operációs szerzője írta:Kirill Starkov-
A modern LLM-ek fejlesztése hihetetlen eredményekhez vezetett: a legmodernebb teljesítmény, a kiváló minőségű és sajnos a számítási költségek. A mérnökök hajlamosak kisebb modelleket választani, csak azért, mert olcsóbbak és nem igényelnek speciális hardvereket.
A tudás desztillációs folyamatát feltalálták a kérdés kezelésére: ez egy esély arra, hogy időt, pénzt és kiváló minőségű teljesítményt takarítson meg egyszerre. Szakértőnk, Kirill Starkov, az idősebb gépi tanulási mérnök kommentálja ezt a technológiát, és megosztja saját tapasztalatait.
Hogyan működik a tudás desztillációja?
A tudás desztillációjának (KD) gondolata magyarázható a „tanár-hallgató” interakció példájával: ez egy tudásátvitel egy nagy nyelvi modellről egy kicsire. A „hallgató” modell ugyanolyan hatékony lesz, mint a „tanár”, de alkalmas lesz a telepítésre.
Kétféle módon lehet kiképezni a „hallgató” modellt: kemény és lágy címkézés.
„A kemény desztillációnak három szakasza van:
- Felszólítja a gyűjteményt
- Válaszok az utasításokra, amelyeket a „tanár” modell generál
- Felcímkézett adatkészlet képződése
Ezt követően a kis modell megtanulja utánozni a nagy modell válaszát a címkézett adatkészlettel, amelyet alapvető igazságként jelölnek. ”
A kemény desztilláció könnyebb, és kevesebb számítási költséggel bír, mint a lágy címkével, de az utóbbi pontosabb, mivel átadja a nagy modell egyedi prediktív eloszlását.
„A lágy címkék jobban tanítanak, mint a kemény célok, mert több tanulási információt és sokkal kevesebb eltérést szolgáltatnak a gradiensben az edzési esetek között, ha magas entrópiával rendelkeznek. A „hallgatói” modell sokkal kevesebb adaton képzést lehet képezni, mint az eredeti „tanár” modell.
Az ML egyik legfontosabb mutatója a veszteségfunkció vagy a kereszt entrópia. A KD telepítéséhez egy másik típusú veszteség -mutatót igényelnek - nem veszteség. "A lágy veszteség súlyozott kereszt entrópia, amikor különböző súlyokat rendelünk a hamis pozitív vagy hamis negatívok megelőzésére a„ tanár ”modellből."
A Kullback-Leibler divergencia (KLDIV) képletet használják a desztillációs veszteség kiszámításához.
LKD = KL (softmax (zt/t) || softmax (zs/t)) ⋅ t2
Ahol T hőmérséklet (általában> 1)
A ZT és a ZS a tanárok és a hallgatók naplók.
Kemény célveszteség funkció
LCE = Crossentropy (YTrue, SoftMax (ZS))
Teljes veszteség (kombinált)
L = α ⋅ lce + (1− a) ⋅ lkd
Ahol az α hiperparaméter (általában 0,1–0,9)
Tudás desztilláció megvalósítása
A tudás desztillációját gyakran korlátozott operatív erőforrásokkal rendelkező projektekben használják, ahol a nehézkes LLM -ek megvalósítása lehetetlen.
„A tudás desztillációja kötelező a számítógépes látás és az objektumok észlelési programjaiban. A kisebb modellek alkalmasak korlátozott feldolgozási erőforrásokkal rendelkező eszközök, például biztonsági kamerák és drónok telepítésére. ”
Kis modelleket is használnak a természetes nyelvfeldolgozási programokban is. "Az NLP valós idejű választ igényel nagy sebességgel és hatékonysággal, így a képzett„ hallgatói ”modellek tökéletesek a csevegési botokhoz, a fordítási programokhoz és más mobil eszközökhöz."
Telepítési eset: DSSL Computer Vision
Mint már említettük, a tudás desztillációját használják a modern CV technológiákban. Kirill Starkov úgy döntött, hogy javítja a biztonsági detektor eszközt egy kis nyelvi modell telepítésével.
Lásd még:
"Ebben az esetben láttuk, hogy a tudás desztillációja valóban hasznos, mert az eredményeket egy speciális mutatóval ellenőriztük: átlagos átlagos pontosság."
Az átlagos átlagos pontosság (MAP) méri az objektumdetektorok pontosságát. Egyetlen számot biztosít, amely összefoglalja a precíziós visszahívási görbét, tükrözve, hogy egy modell mennyire teljesít a különböző küszöbszinteken. „A KD telepítése előtt a térképünk 27,4 volt; Utána - 34.2.
A tudás desztillációjának előnyei és hátrányai
A KD mindig a jobb teljesítményről szól: gyakori előnyök a működési költségek csökkentése, a gyorsabb következtetés, a komplex minták megőrzése.
De ennek a technológiának van néhány hátránya. A tanulási feltételek és a következtetések közötti egyensúlyhiány az expozíciós torzításhoz vezethet, mivel a „hallgató” nyelvmodell nem tudja megtanulni, hogyan kell kijavítani a saját hibáit.
A puha-címke desztilláció számítási szempontból drága az edzés során, mivel a teljes valószínűség-eloszlás, nem pedig az egyes token indexek tárolása és feldolgozása.
Ezenkívül mélyebb hallgató-tanár integrációra van szükség egy nagy modell belső valószínűségének eléréséhez, megnehezítve a végrehajtást, mint a szokásos megközelítések.
Ezt a történetet eredetileg 2021. október 23 -án tették közzé.















