For at udfordre industriens afhængighed af diffusionsmodeller har Apple Research afsløret STARFlow-V, en videogenerator med 7 milliarder parametre designet til at eliminere visuel forringelse i lange klip. Ved at bruge Normalizing Flows (NF'er), en klasse af inverterbare generative modeller, tilbyder systemet et særskilt alternativ til teknologien, der driver OpenAI's Sora.
Udgivet offentligt tirsdag, genererer modellen 480p video med 16 billeder i sekundet. I modsætning til standardmetoder, der genererer frames serielt, anvender STARFlow-V "Video-Aware Jacobi Iteration" til at parallelisere processen, hvilket hævder en 15x reduktion i inferens latency.
Selvom den lover bedre sammenhæng, følger dens visuelle troskab i øjeblikket markedsledere. På VBench-kvalitetsindekset scorede STARFlow-V 79,70, hvilket indsnævrede kløften, men stadig halter bagefter lukkede kilde-rivaler som Googles Veo3.
Arkitekturskiftet: Hvorfor normalisere strømme?
Generativ video har stort set smeltet sammen omkring et enkelt arkitektonisk paradigme. Systemer som OpenAIs Sora og den nye Runway Runway Gen-4.5 er afhængige af diffusionsmodeller, som skaber indhold ved iterativt at fjerne støj fra tilfældige data.
Selvom disse autoregressive modeller er effektive til at producere korte klip i høj kvalitet, lider de ofte af "fejlakkumulering" i længere sekvenser. Mindre defekter i tidlige billeder kan forstærkes over tid, hvilket fører til hallucinationer eller fysikbrud, efterhånden som videoen skrider frem.
Apples forskerhold hævder, at industriens enestående fokus på denne metode kan være for tidligt. Jiatao Gu, en forsker hos Apple, fremhævede potentialet for alternative tilgange: "State-of-the-art systemer er næsten udelukkende afhængige af diffusionsbaserede modeller. I dette arbejde vender vi tilbage til dette designrum."
STARFlow-V bruger Normalizing Flows (NF'er), en teknik, der kortlægger komplekse datadistributioner til simple priors via inverterbare transformationer. I modsætning til diffusion, som tilnærmer datadistribution, tilbyder NF'er nøjagtig sandsynlighedsestimering.
For at gøre dette beregningsmæssigt levedygtigt for video, introducerede teamet en "Global-Local" arkitektur. Ved at adskille de tunge løft af langsigtede årsagsræsonnementer fra den finkornede generation af lokale detaljer, optimerer dette design sammenhængen uden at ofre detaljer.
Definition af den specifikke mekanisme, der bruges til at opretholde sammenhæng,det tekniske papiranfører:
"STARFlow-V opererer i det spatiotemporale latente rum med en global-lokal arkitektur, der begrænser kausale afhængigheder til et globalt latent rum, samtidig med at rige lokale interaktioner inden for rammerne bevares. Dette letter fejlakkumulering over tid, en almindelig faldgrube i standardgenerering af autoregressive diffusionsmodeller."
Uddybende på denoising-strategien tilføjede forfatterne:
Læs mere:OpenAI lancerer ChatGPT-gruppechat globalt og udfordrer Metas sociale AI-dominans
"Derudover foreslår vi matchning af flow-score, som udstyrer modellen med en let kausal denoiser for at forbedre videogenereringskonsistensen på en autoregressiv måde."
Ved at begrænse kausale afhængigheder til et globalt latent rum forhindrer modellen de kaskadefejl, der er typiske for pixel-space autoregressiv generering.
Operationelle fordele rækker ud over stabilitet. Fordi NF'er er matematisk inverterbare, kan den samme model kode og afkode data uden ændringer. Som følge heraf kan en enkelt backbone håndtere tekst-til-video (T2V), billede-til-video (I2V) og video-til-video (V2V) opgaver.
Forskerne beskrev denne forenede arbejdsgang og bemærkede: "På grund af vores models autoregressive karakter behøver vi slet ikke at ændre arkitekturen, én model håndterer alle opgaver problemfrit."
Under the Hood: Løsning af hastighedsflaskehalsen
Historisk set har Normalizing Flows kæmpet for at skalere. Modellering af videodatas høje dimensionalitet resulterede ofte i uoverkommelig slutningsforsinkelse på grund af beregningsomkostninger.
For at overvinde dette trænede Apple en 7 milliarder parametermodel ved hjælp af et omfattende datasæt bestående af 70 millioner tekst-video-par og 400 millioner tekst-billede-par.
STARFlow-V-projektsidenskitserer de hårde specifikationer for udgivelsen:
"STARFlow-V er trænet på 70M tekst-video-par og 400M tekst-billede-par, med en endelig 7B parametermodel, der kan generere 480p video ved 16fps."
Med hensyn til systemets fleksibilitet bemærker dokumentationen:
"Modellen opererer i et komprimeret latent rum og udnytter den inverterbare karakter af normaliserende flows til at understøtte flere generationsopgaver uden nogen arkitektoniske ændringer eller genoptræning."
For at adressere den serielle karakter af autoregressiv generering, hvor hver frame skal vente på den forrige, implementerede teamet "Video-Aware Jacobi Iteration."
Algoritmen, der fungerer som et fixpunkt-iterationsproblem, tillader systemet at opdatere flere blokke af latenter parallelt i stedet for strengt taget én efter én.
Forskerne forklarer, hvordan dette bryder den traditionelle serielle flaskehals, og skriver:
"Generation (flow-inversion) er omarbejdet som løsning af et ikke-lineært system, der muliggør blokvise parallelle opdateringer af flere latenter samtidigt i stedet for en-til-en generation."
Papiret beskriver detaljeret optimeringsteknikkerne:
"Kombineret med videobevidst initialisering, der bruger tidsmæssig information fra tilstødende frames og pipelinet eksekvering mellem dybe og overfladiske blokke, opnår dette en betydelig hastighed, samtidig med at generationskvaliteten bibeholdes."
Ydeevnemålinger udgivet af teamet indikerer, at denne metode reducerer slutningsforsinkelse med cirka 15x sammenlignet med standard autoregressiv afkodning.
For yderligere at forfine den visuelle kvalitet anvender systemet "Flow-Score Matching." Denne teknik træner en letvægtsdenoiser sammen med hovedflowmodellen, skrubber højfrekvent støj og artefakter, der kan opstå under flowinversionsprocessen.
Benchmark Reality: Lovende, men endnu ikke SOTA
På trods af den arkitektoniske nyhed udkonkurrerer STARFlow-V endnu ikke de førende inden for lukkede kilder inden for rå visuel troskab. På VBench-kvalitetsindekset, en standardmåling til evaluering af generativ video, scorede STARFlow-V 79,70.
Til sammenligning har Googles Veo 3 en score på 85,06, og Runway Gen-3 sidder på 82,32. Uafhængige analytikere har endnu ikke verificeret disse præstationspåstande eller slutningshastigheder uden for Apples kontrollerede miljø.
Men betydningen ligger i resultaternes nærhed frem for den absolutte føring. Apples forskningsteam hævdede: "STARFlow-V er den første normaliserende flow-baserede kausale videogenerator, der viser, at normaliserende flows kan matche videodiffusionsmodeller i visuel kvalitet."
Aktuelle tekniske begrænsninger er tydelige i outputopløsningen. Begrænset til 480p-opløsning ved 16 billeder i sekundet, outputtet er væsentligt lavere end 1080p- eller 4K-standarderne, der findes i kommercielle værktøjer.
Apple positionerer udgivelsen ikke som en øjeblikkelig produktfortrængning, men som et proof of concept for "verdensmodeller", systemer, der kræver ensartet fysik og langsigtet sammenhæng, områder hvor NF'er i sidste ende kan overgå diffusion.
Med henblik på fremtidige applikationer inden for simulering og indlejret AI konkluderede holdet: "Disse resultater præsenterer det første bevis, så vidt vi ved, at NF'er er i stand til autoregressiv videogenerering af høj kvalitet, hvilket etablerer dem som en lovende forskningsretning til at bygge verdensmodeller."
I modsætning til mange konkurrenter, der holder deres vægte proprietære, har Apple frigivet koden og modelvægtene påHugging Face-lageret. Dette giver det bredere forskningsmiljø mulighed for at eksperimentere med arkitekturen og potentielt optimere slutningspipelinen yderligere.












