Kunnskapsdestillasjon: Hvordan gjøre LLM-er enklere og spare nøyaktighet

Artikkelen er skrevet avKirill Starkov.

Utviklingen av moderne LLM-er har ført til utrolige resultater: toppmoderne ytelse, høy kvalitet og, dessverre, beregningskostnader. Ingeniører har en tendens til å velge mindre modeller bare fordi de er billigere og ikke krever spesiell maskinvare.

Kunnskapsdestillasjonsprosessen ble oppfunnet for å løse dette problemet: det er en sjanse til å spare tid, penger og ytelse av høy kvalitet på samme tid. Vår ekspert, Kirill Starkov, Senior Machine Learning Engineer, vil kommentere denne teknologien og dele sin egen erfaring.

Ideen om kunnskapsdestillasjon (KD) kan forklares med eksempelet «lærer-elev»-interaksjon: det er en kunnskapsoverføring fra en stor språkmodell til en liten. «Elev»-modellen vil være like effektiv som «læreren», men vil være mer egnet for utplassering.

Det er to måter å trene «student»-modellen på: hard- og soft-label destillasjon.

"Hard-label destillasjon har tre stadier:

Ber om samling
Svar på spørsmål, generert av "lærer"-modell
Merket datasettdannelse

Etter det lærer den lille modellen å imitere svarene fra den store modellen med det merkede datasettet, markert som en grunnsannhet.'

Hard-label-destillasjon er enklere og har færre beregningskostnader enn soft-label-destillasjon, men sistnevnte er mer nøyaktig fordi den overfører den individuelle prediktive distribusjonen til den store modellen.

"Myke etiketter lærer bedre enn harde mål fordi de gir mer læringsinformasjon og mye mindre variasjon i gradienten mellom treningstilfeller når de har høy entropi. «Elev»-modellen kan trenes på mye mindre data enn den opprinnelige «lærer»-modellen.'

En av de viktigste beregningene i ML er tapsfunksjon eller kryssentropi. KD-distribusjon krever en annen type tapsberegning – mykt tap. ‘Mykt tap er en vektet kryssentropi når vi tildeler ulike vekter for å forhindre falske positive eller falske negative fra «lærer»-modellen.»

Kullback-Leibler Divergence (KLDiv) formel brukes til å beregne destillasjonstap.

LKD = KL(softmax(zt/T) || mykmaks(zs/T)) ⋅ T2

Hvor T er temperatur (vanligvis >1)

zt og zs er logitter fra henholdsvis lærer og elev.

Hard Target Loss funksjon

LCE = CrossEntropy(ytrue,softmax(zs))

Totalt tap (kombinert)

L = α ⋅ LCE + (1− α) ⋅ LKD

Hvor α er en hyperparameter (vanligvis 0,1 til 0,9)

Implementering av kunnskapsdestillasjon

Kunnskapsdestillasjon brukes ofte i prosjekter med begrensede driftsressurser, hvor implementering av tungvinte LLM er umulig.

«Kunnskapsdestillasjon er et must i programmer for datasyn og objektdeteksjon. Mindre modeller er egnet for utplassering på enheter med begrensede behandlingsressurser, for eksempel sikkerhetskameraer og droner.

Små modeller brukes også i programmer for behandling av naturlig språk. «NLP krever sanntidsrespons med høy hastighet og effektivitet, så trente «student»-modeller er perfekte for chat-bots, oversettelsesprogrammer og andre mobile enheter.»

Implementeringstilfelle: DSSL Computer Vision

Som det ble nevnt før, brukes kunnskapsdestillasjon i moderne CV-teknologier. Kirill Starkov bestemte seg for å forbedre sikkerhetsdetektorenheten med utplassering av en liten språkmodell.

"I så fall så vi at kunnskapsdestillasjon faktisk er nyttig, fordi vi sjekket resultatene med en spesiell metrikk: gjennomsnittlig gjennomsnittlig presisjon."

Mean Average Precision (mAP) måler nøyaktigheten til objektdetektorer. Den gir et enkelt tall som oppsummerer presisjons-gjenkallingskurven, og reflekterer hvor godt en modell presterer på tvers av forskjellige terskelnivåer. 'Før KD-distribusjon var vår mAP 27,4; etter—34.2.

Fordeler og ulemper med kunnskapsdestillasjon

KD handler alltid om bedre ytelse: Vanlige fordeler er reduksjon av driftskostnader, raskere slutning, bevaring av komplekse mønstre.

Foreslått å lese:Det blir mye enklere å oppdage sanger laget av AI – slik er det

Men denne teknologien kan ha noen ulemper. Ubalanse mellom læringsforhold og slutninger kan føre til eksponeringsskjevhet fordi «student»-språkmodellen ikke kan lære å fikse sine egne feil.

Soft-label-destillasjon er beregningsmessig dyrt under trening, siden full sannsynlighetsfordeling i stedet for individuelle token-indekser lagres og behandles.

Det krever også dypere student-lærer-integrasjon for å få tilgang til de interne sannsynlighetene til en stor modell, noe som gjør den vanskeligere å implementere enn standardtilnærminger.

Denne historien ble opprinnelig publisert 23. oktober 2021.