Möt GPT-4V-Act: En multimodal AI-assistent som harmoniskt kombinerar GPT-4V(ision) med en webbläsare

En forskare inom maskininlärning delade nyligen releasen av sitt senaste projekt, GPT-4V-Act, med Reddit-communityt. Denna idé utlöstes av en nyligen diskuterad strategi för visuell jordning som kallas Set-of-Mark i GPT-4V. Spännande nog visade tester att GPT-4V med denna funktion kunde analysera en skärmdump av användargränssnittet och erbjuda de exakta pixelkoordinaterna som behövs för att styra en mus och ett tangentbord för att slutföra en viss uppgift. Hittills har agenten visat sig vara kapabel att göra inlägg på Reddit, göra produktsökningar och starta kassaprocessen trots att den bara har utsatts för begränsade tester. Intressant nog kände den också igen fel på auto-etiketter

source

Leave a Reply

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *