Forskare tränar AI-chatbots för att "jailbreaka" rivaliserande chatbotar – och automatisera processen

NTU-forskare kunde jailbreaka populära AI-chatbots inklusive ChatGPT , Google Bard och Bing Chat . Med jailbreaks på plats, skulle riktade chatbots generera giltiga svar på skadliga frågor, och därigenom testa gränserna för stora språkmodellers (LLM) etik. Denna forskning gjordes av professor Liu Yang och NTU-doktoranderna Mr Deng Gelei och Mr Liu Yi som var medförfattare till uppsatsen och kunde skapa proof-of-concept attackmetoder.

Metoden som används för att jailbreaka en AI-chattbot, som utarbetats av NTU-forskare, kallas Masterkey. Det är en tvåfaldig metod där angriparen skulle reverse engineering av en LLM:s försvarsmekanismer. Sedan, med denna inhämtade data, skulle angriparen lära en annan LLM att lära sig hur man skapar en bypass. På så sätt skapas en ”Masterkey” och används för att attackera befästa LLM-chatbotar, även om de senare patchas av utvecklare.

AI:s styrka är dess egen akilleshäl

Professor Yang förklarade att jailbreaking var möjligt på grund av en LLM-chatbots förmåga att lära sig och anpassa sig, och blev därmed en attackvektor för rivaler och sig själv. På grund av sin förmåga att lära sig och anpassa sig kan till och med en AI med skyddsåtgärder och en lista med förbjudna sökord, som vanligtvis används för att förhindra generering av våldsamt och skadligt innehåll, kringgås med en annan utbildad AI. Allt den behöver göra är att överlista AI-chatboten för att kringgå svartlistade sökord. När detta är gjort kan det krävas input från människor för att skapa våldsamt, oetiskt eller kriminellt innehåll.

NTU:s Masterkey påstods vara tre gånger effektivare för att jailbreaka LLM-chatbotar än standardmeddelanden som normalt genereras av LLM:er. På grund av dess förmåga att lära av misslyckanden och utvecklas, gjorde den också alla korrigeringar som applicerades av utvecklaren till slut värdelösa. Forskare avslöjade två exempelmetoder som de använde för att få utbildade AI:er att initiera en attack. Den första metoden innebar att skapa en persona som skapade uppmaningar genom att lägga till mellanslag efter varje tecken, förbi en lista med förbjudna ord. Den andra handlade om att få chatboten att svara under en persona av att vara utan moraliska begränsningar.

Enligt NTU kontaktade dess forskare de olika AI-chatbottjänsteleverantörerna med proof-of-concept-data, som bevis på att de framgångsrikt kunde genomföra jailbreaks. Samtidigt har forskningsartikeln accepterats för presentation vid nätverks- och distribuerade systemsäkerhetssymposium som kommer att hållas i San Diego i februari 2024.

Med användningen av AI-chatbots som växer exponentiellt är det viktigt för tjänsteleverantörer att ständigt anpassa sig för att undvika skadliga utnyttjande. Stora teknikföretag kommer vanligtvis att patcha sina LLM:er / chatbots när förbikopplingar hittas och offentliggörs. Men Masterkeys framstående förmåga att konsekvent lära sig och jailbreaka är minst sagt oroande.

AI är ett kraftfullt verktyg, och om sådan kraft kan riktas på ett skadligt sätt kan det orsaka många problem. Därför behöver varje AI-chatbot-tillverkare tillämpa skydd, och vi hoppas att NTU:s kommunikation med respektive chatbot-tillverkare kommer att hjälpa till att stänga dörren till Masterkey-jailbreak och liknande.

Läs mer

Leave a Reply

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *