MA-LMM är en minnesförstärkt stor multimodal modell för långsiktig videoförståelse

Meta AI lanserade MA-LMM är en minnesförstärkt stor multimodal modell för långsiktig videoförståelse som löser begränsningar relaterade till kontextlängd och GPU-minnesbegränsningar som finns i tidigare modeller genom att använda en långsiktig minnesbank och sekventiell databehandling av videor.

MA-LMM-modellarkitekturen består av tre huvudsakliga komponenter:

Visuell funktionsextraktion: Denna del använder en fryst visuell kodare för att extrahera funktioner från videobilder. Den visuella kodaren är ansvarig för att omvandla råa bilddata till en form som kan förstås och bearbetas av modellen.

Långsiktig temporär modellering: För denna komponent används en träningsbar förfrågningstransformator, känd som Q-Former, som syftar till att justera visuella och textbaserade inbäddningar. Q-Former behandlar sekventiellt videoinnehållet och lagrar funktioner i en långsiktig minnesbank, vilket gör det möjligt för modellen att bevara viktig information över tid och förstå de temporära dynamikerna i videon.

Textdekodning: Slutligen används en fryst stor språkmodell för att dekodera text. Denna komponent tar utdata från Q-Former och genererar textbaserade svar eller beskrivningar, vilket möjliggör förståelse och generering av språk relaterat till videokontexten.

Dessa komponenter arbetar tillsammans för att modellen ska kunna hantera och förstå långa videosekvenser effektivt, samtidigt som den begränsar användningen av GPU-minne och hanterar begränsningar som rör kontextlängd.

Dessa förbättringar gör MA-LMM mer lämpad för uppgifter som kräver förståelse av långvariga och komplexa videosekvenser, såsom filmer eller TV-program, där det är viktigt att kunna lagra och referera till information som sträcker sig över längre tidsperioder.

https://github.com/boheumd/MA-LMM

https://boheumd.github.io/MA-LMM

Leave a Reply

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *