Metas nya AI-modell V-JEPA lär sig genom att titta på videor

Meta har nyligen offentliggjort V-JEPA (Video Joint Embedding Predictive Architecture), en innovativ AI-modell som lär sig genom att observera videor. Denna modell är skapad för att förbättra maskiners förståelse av världen genom att analysera interaktioner mellan objekt i videor.

V-JEPA: icke-generativ modell

Till skillnad från generativa modeller som försöker rekonstruera saknade delar av en video på pixelnivå, så fokuserar V-JEPA på att förutse saknade eller maskerade regioner i ett abstrakt representationsutrymme. Det betyder att modellen inte skapar nytt innehåll eller fyller i saknade pixlar direkt. Istället lär den sig att förstå innehållet och interaktionerna inom videor på en högre abstraktionsnivå, vilket möjliggör mer effektivt lärande och anpassning över uppgifter.

V-JEPA använder en självövervakande inlärningsmetod, där den förtränas helt med oetiketterade data. Etiketter används endast för att anpassa modellen till en specifik uppgift efter förträningen. Denna typ av arkitektur visar sig vara mer effektiv än tidigare modeller, både när det gäller antalet etiketterade exempel som behövs och total mängd ansträngning för att lära sig även oetiketterade data.

Tillämpningar och framtidsutsikter

V-JEPA har redan visat sig vara mer effektiv än andra modeller och kan användas på olika bild- och videouppgifter utan anpassning av modellparametrarna. Med en spännande uppvisning av dess ”frozen evaluation” förmåga, kan modellens förtränade komponenter återanvändas vilket gör den anpassningsbar för olika applikationer utan behov av omfattande nyträning.

Utöver sin visuella förmåga är målet att utvidga V-JEPA-kapaciteterna, inklusive analys av ljud och förbättring av dess förmåga att förstå längre videor.

I anda av ansvarsfull öppen vetenskap har Meta släppt denna modell under en Creative Commons Icke-kommersiell licens för att forskare ska kunna utforska vidare.

V-JEPAs förmåga att lära sig genom att observera utan behov av detaljerade förklaringar visar på ett viktigt kliv framåt i riktningen mot artificiell generell intelligens, enligt Meta’s chefs AI-forskare Yann LeCun. Om du är intresserad av att utforska koden mer kan du besöka dess GitHub-sida.

github.com/facebookresearch/jepa

ai.meta.com/blog