OpenEQA är ett ramverk utvecklat av Meta för att främja ”embodied intelligence” hos AI agenter

Meta OpenEQ "embodied intelligence" hos AI agenter

🌐 OpenEQA-översikt OpenEQA är ett inbyggt frågesvarssystem som utvecklats av Metas team för Fundamental AI Research (FAIR), med fokus på AI-agenter som interagerar med sin omgivning för att svara på frågor.

🔬 Nyckelfunktioner hos OpenEQA OpenEQA utnyttjar sensorisk information för att fungera som hjärnan i hemrobotar eller smarta glasögon, vilket gör det möjligt för dem att förstå och svara på frågor i olika scenarier.

OpenEQA är ett ramverk utvecklat av Meta för att främja ”embodied intelligence” hos artificiella agenter, vilket innebär att dessa agenter kan förstå sin omgivning genom att använda sensoriska modaliteter som syn och kommunicera på ett klart och tydligt vardagsspråk för att effektivt kunna assistera människor. Detta ramverk representerar ett steg mot att skapa en ”världsmodell” för AI-agenter, en intern representation av den externa världen som kan förfrågas genom språk.

OpenEQA introducerar en ny benchmark som mäter en AI-agents förståelse genom att utforska miljön med öppna frågor. Det innehåller över 180 miljödataset, inklusive hem och kontor, samt mer än 1 600 frågor om dessa miljöer. Detta möjliggör en omfattande verifiering av hur väl AI känner igen objekt i dessa miljöer, dess förmåga att resonera rumsligt och funktionellt, samt dess kunskap, som allmänbildning.

OpenEQA omfattar två uppgifter: ”episodic memory EQA”, där en embodied AI-agent svarar på frågor baserade på tidigare erfarenheter, och ”Active EQA”, där AI-agenten agerar i miljön för att samla den information som krävs för att svara på en fråga. Dessa uppgifter utmanar AI-modeller att inte bara förstå textbaserade frågor utan också att integrera visuell information för att ge korrekta svar.

Trots att OpenEQA använder sig av avancerade AI-modeller, visar benchmarktester att även de bästa visuella språkmodellerna (VLMs) har svårt med frågor som kräver rumslig förståelse, vilket indikerar att dessa modeller inte drar stor nytta av visuell information jämfört med textbaserade AI-modeller. Detta understryker behovet av ytterligare förbättringar i AI-modeller när det gäller både perception och inferens.

OpenEQA kombinerar utmanande frågor som kan vara fria från specifik vokabulär med förmågan att svara på naturligt språk, vilket erbjuder en lättanvänd benchmark som demonstrerar djup förståelse för miljön och utgör en betydande utmaning för befintliga grundmodeller. Meta hoppas att OpenEQA kommer att motivera ytterligare forskning för att möjliggöra för AI att förstå och kommunicera med världen den ser

https://ai.meta.com/blog

Forskningspappret

Leave a Reply

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *