Googles lanserar VLOGGER AI-modell som kan generera video avatarer från bilder

Googles VLOGGER AI-modell är en banbrytande teknik som kan generera verklighetstrogna videoavatarer från enstaka fotografier. Denna innovation utnyttjar avancerade maskininlärningsmodeller för att skapa högupplösta videor som innehåller exakta ansiktsuttryck, kroppsrörelser och till och med blinkningar, vilket överträffar tidigare ”talande huvud” programvara.

Tekniken kan generera högupplösta videor av människor som pratar baserat på ett enda fotografi och kan animera dessa videor enligt ett talprov, vilket skapar en kontrollerad likhet med en person, kallad en ”avatar” med hög kvalitet.

Användningsområden

De potentiella användningsområdena för VLOGGER sträcker sig från utbildning och onlinekommunikation till mer personliga assistenter och hjälpavatare. Forskargruppen föreslår att VLOGGER kunde ha en betydande effekt i att skapa mer realistiska syntetiska pratande människor som kan ”utveckla empati”. Dessutom kan teknologin bidra till nya innovationsområden inom onlinekommunikation och pedagogik genom att skapa personifierade virtuella assistenter.

Tekniska detaljer

VLOGGER kombinerar flera nydanande trender inom djupinlärning, inklusive multimodalitet, stora språkmodeller och förbättrad ”diffusion” – en teknik för att skapa livaktiga bilder och videor. Forskarteamet bakom VLOGGER har samlat MENTOR en dataset bestående av 800,000 ” identiteter” från videor av människor som talar, vilket är 10 gånger större än tidigare dataset. Detta möjliggör en mer precisa avbildning av människors idiosynkrasier, såsom blinkningar och huvudrörelser.

Tekniken öppnar upp för en rad potentiella tillämpningar, inklusive att förbättra onlinekommunikation, utbildning, personliga virtuella assistenter och till och med skapa fotorealistiska avatarer för virtuell verklighet och spel. Men det väcker också farhågor om det potentiella missbruket av tekniken, t.ex. att skapa deepfakes, som är syntetiska medier där en person i en video ersätts med någon annans avbild, vilket kan förvärra utmaningarna kring desinformation och digital förfalskning.

Trots sina imponerande möjligheter har VLOGGER fortfarande begränsningar, inklusive relativt korta videor med statiska bakgrunder och individer som inte rör sig i en 3D-miljö. Manéren och talmönstren, även om de är realistiska, är ännu inte omöjliga att skilja från de hos verkliga människor. Icke desto mindre representerar VLOGGER ett betydande steg framåt inom AI-forskningen och ger en inblick i en framtid där det kan vara utmanande att skilja mellan verkliga och AI-genererade medier.

github.io -vlogger