Forskare har upptäckt en potentiellt farlig sårbarhet i vanligt LLM såsom ChatGPT ooch Claude 3

Anthropic Claude AI
  • Allvarliga fel i stora språkmodeller Forskare från Anthropic, ett AI-företag, har identifierat ett potentiellt farligt fel i stora språkmodeller som ChatGPT och deras egna chatbot Claude 3.
  • Fokus på AI-forskning Anthropic har fokuserat på att utforska fel i stora språkmodeller och chatbotar som ChatGPT och Claude 3.
  • Integration med AI-jättar Anthropic har även integrerat sin forskning med kända AI-jättar och deras teknologier, såsom Gemini från Google.

Förskare från företaget Anthropic har identifierat ett potentiellt farligt fel i ofta använda stora språkmodeller (LLM) som ChatGPT och Anthropics egen Claude 3 chatbot. Detta fel kan ha allvarliga konsekvenser för användningen av dessa AI-system, inklusive möjligheten att sprida felaktig information eller stödja oetiska beteenden.

Anthropic har utvecklat Claude genom att använda en teknik de kallar ”constitutional AI”. Denna teknik syftar till att ge AI-system en ”principle-based” tillvägagångssätt för att anpassa sig till mänskliga intentioner, vilket gör det möjligt för system som ChatGPT att svara på frågor med hjälp av en enkel uppsättning principer som guide. Claude har tränats för att bli bättre på att svara på motståndskraftiga frågor utan att bli otydliga och säga mycket lite. Detta uppnås genom att förse dem med en enkel uppsättning beteendeprinciper via en teknik kallad Constitutional AI.

Vad är de vanligaste sårbarheterna i stora språkmodeller som LLM?

För att svara på din fråga om de vanligaste sårbarheterna i stora språkmodeller som Large Language Models (LLM), finns det flera potentiella hot att vara medveten om. En av de vanligaste sårbarheterna är prompt injection, vilket är en typ av sårbarhet där skadliga kommandon eller instruktioner injiceras i modellen för att påverka dess beteende. Denna typ av sårbarhet kan användas för att manipulera modellens svar eller till och med för att få den att generera skadlig kod.

Utöver prompt injection har forskare också identifierat andra hot, som till exempel logiska sårbarheter i webbapplikationer som kan utnyttjas med hjälp av stora språkmodeller. Dessa logiska sårbarheter kan vara svåra att upptäcka och kan utnyttjas för att genomföra mer avancerade attacker.

Anthropic har erkänt att det finns en verklig risk att AI-modeller blir för autonomt, särskilt när de börjar få tillgång till internet och styra robotar. För att hjälpa till att adressera denna risk har Anthropic utvecklat en säkrare stor språkmodell (LLM) på egen hand. Claude 2, en tidigare version av Anthropics modell, hyllades som en potentiell ”ChatGPT-killer”. Sedan dess har framsteg skett snabbt – Anthropics senaste uppdatering av dess LLM, känd som Claude 3, överträffar nu ChatGPT-4 på en rad benchmarks.

Alla AI-modeller är benägna att vissa grader av fördomar och felaktigheter. Hallucinationer är en vanlig företeelse: när ett AI-modell inte vet svaret, föredrar det ofta att hitta på något och presentera det som faktum snarare än att säga ”Jag vet inte”. Även värre, ett AI-drivet chattbot kan omedvetet hjälpa till vid olagliga aktiviteter, till exempel att ge användare instruktioner om hur man utför en våldsam handling eller hjälper dem att skriva hat-tal.

ai.stanford.edu- understanding-incontext

Many-shot Jailbreaking

Leave a Reply

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *