Artiklen er skrevet afKirill Starkov.
Udviklingen af moderne LLM'er har ført til utrolige resultater: avanceret ydeevne, høj kvalitet og, desværre, beregningsomkostninger. Ingeniører har en tendens til at vælge mindre modeller, bare fordi de er billigere og ikke kræver speciel hardware.
Vidensdestillationsprocessen blev opfundet for at løse dette problem: det er en chance for at spare tid, penge og ydeevne af høj kvalitet på samme tid. Vores ekspert, Kirill Starkov, Senior Machine Learning Engineer, vil kommentere denne teknologi og dele sin egen erfaring.
Hvordan fungerer videndestillation?
Ideen om vidensdestillation (KD) kan forklares med eksemplet med 'lærer-elev' interaktion: Det er en videnoverførsel fra en stor sprogmodel til en lille. 'Elev'-modellen vil være lige så effektiv som dens 'lærer', men vil være mere egnet til implementering.
Der er to måder at træne 'elev'-modellen på: hård- og blød-label-destillation.
'Hårdmærket destillation har tre trin:
- Spørger indsamling
- Svar på prompter, genereret af "lærer"-model
- Mærket datasætdannelse
Derefter lærer den lille model at efterligne svar fra den store model med det mærkede datasæt, markeret som en grundsandhed.'
Hard-label-destillation er lettere og har færre beregningsomkostninger end soft-label-destillation, men sidstnævnte er mere præcis, fordi den overfører den individuelle prædiktive fordeling af den store model.
»Bløde etiketter lærer bedre end hårde mål, fordi de giver mere læringsinformation og meget mindre varians i gradienten mellem træningstilfælde, når de har høj entropi. "Elev"-modellen kan trænes på meget mindre data end den oprindelige "lærer"-model.'
Læs også:Microsoft bringer AI-handlinger til Windows 11 File Explorer for lettere filhåndtering
En af de vigtigste målinger i ML er tabsfunktion eller krydsentropi. KD-implementering kræver en anden type tabsmetrik – blødt tab. 'Blødt tab er en vægtet krydsentropi, når vi tildeler forskellige vægte for at forhindre falske positive eller falske negative fra "lærer"-modellen.'
Kullback-Leibler Divergence (KLDiv) formel bruges til at beregne destillationstab.
LKD = KL(softmax(zt/T) || softmax(zs/T)) ⋅ T2
Hvor T er temperatur (normalt >1)
zt og zs er logits fra henholdsvis lærer og elev.
Hard Target Loss funktion
LCE = CrossEntropy(ytrue,softmax(zs))
Samlet tab (kombineret)
L = α ⋅ LCE + (1− α) ⋅ LKD
Hvor α er en hyperparameter (almindeligvis 0,1 til 0,9)
Implementering af videndestillation
Vidensdestillation bruges ofte i projekter med begrænsede driftsressourcer, hvor implementering af besværlige LLM'er er umulig.
»Vidensdestillation er et must-have i computervision og objektdetekteringsprogrammer. Mindre modeller er velegnede til implementering på enheder med begrænsede behandlingsressourcer, såsom sikkerhedskameraer og droner.'
Små modeller bruges også i programmer til behandling af naturlige sprog. 'NLP kræver realtidsrespons med høj hastighed og effektivitet, så trænede "studerende"-modeller er perfekte til chat-bots, oversættelsesprogrammer og andre mobile enheder.'
Implementeringssag: DSSL Computer Vision
Som det blev nævnt før, bruges vidensdestillation i moderne CV-teknologier. Kirill Starkov besluttede at forbedre sikkerhedsdetektorenheden med implementeringen af en lille sprogmodel.
"I så fald så vi, at videndestillation faktisk er nyttig, fordi vi tjekkede resultater med en speciel metrik: gennemsnitlig gennemsnitspræcision."
Mean Average Precision (mAP) måler nøjagtigheden af objektdetektorer. Det giver et enkelt tal, der opsummerer præcisions-genkaldelseskurven, der afspejler, hvor godt en model klarer sig på tværs af forskellige tærskelniveauer. 'Før KD-implementering var vores mAP 27,4; efter—34.2.'
Fordele og ulemper ved videndestillation
KD handler altid om bedre ydeevne: Fælles fordele er reduktion af driftsomkostninger, hurtigere slutninger, bevarelse af komplekse mønstre.
Men denne teknologi kan have nogle ulemper. Ubalance mellem læringsbetingelser og inferens kan føre til eksponeringsbias, fordi "elev"sprogmodellen ikke kan lære at rette op på sine egne fejl.
Soft-label-destillation er beregningsmæssigt dyrt under træning, da fulde sandsynlighedsfordelinger snarere end individuelle token-indekser lagres og behandles.
Det kræver også dybere elev-lærer-integration at få adgang til de interne sandsynligheder i en stor model, hvilket gør det sværere at implementere end standardtilgange.
Denne historie blev oprindeligt offentliggjort den 23. oktober 2021.













