Över 50 % av boksammanfattningarna gjorda av Claude Opus och GPT-4 identifierades som innehållande faktafel

Enligt en ny studie har över 50 % av boksammafattningarna inklusive de skapade av Claude Opus och GPT-4 identifierats som innehållande faktafel och utelämnande information. Resultaten visar på begränsningarna hos de nuvarande LLM-auto-bedömarna inklusive Claude Opus och GPT-4 att tillförlitligt upptäcka felaktiga påståenden, även när de tillhandahålls med fullständig boktext.

Claude Opus-modellen introducerades som en del av Claude 3-familjen som strävar efter att sätta nya branschstandarder över ett brett spektrum av kognitiva uppgifter. Dessa modeller representerar Anthropics senaste ansträngningar för att förfina AI:s förmåga till textförståelse och generering. Å andra sidan presenterar GPT-4, den senaste uppdateringen från OpenAi signifikanta förbättringar jämfört med sina föregångare och är särskilt designad för att hantera både text- och bildinmatningar.

Faktafel och utelämnanden: Studien fann att inget av påståendena som genererades av Claude-3-Opus var helt faktamässigt korrekta eller fokuserade på boken som de borde vara. Detta indikerar ett betydande problem med noggrannheten i sammanfattningarna som produceras av denna modell.

Kostnad och prestanda: Experimentet kostade cirka 720 USD för GPT-4-Turbo och 1 070 USD för Claude-3-Opus. Trots de höga kostnaderna var prestandan för dessa modeller för att generera korrekta sammanfattningar inte tillfredsställande, med Claude-3-Opus presterade dåligt när det gällde att klassificera otrogna påståenden och uppnådde en F1-poäng på 47,5.

Anspråksverifiering: Modellerna uppmanades med hela bokinnehållet att få trogna eller otrogna etiketter för varje påstående. Resultaten visade att båda modellerna kämpade med påståenden som involverade icke-narrativ information, sunt förnuftsresonemang och karaktärsförvirringar, vilket ofta kräver en djup förståelse av hela boken. Denna svårighet att verifiera påståenden framhävdes av förvirringsmatrisen och exemplen i studien.

Fokus på specifika delar av boken: Båda modellerna visade en tendens att fokusera på specifika delar av boken, såsom slutet, vilket ledde till sammanfattningar som missade handlingspunkter eller teman från andra delar av boken. Denna fokusering på särskilda avsnitt resulterade i sammanfattningar som inte var heltäckande eller balanserade.

Utmaningar vid verifiering av påståenden: Studien lyfte också fram utmaningarna med att verifiera påståenden, särskilt de som var mycket allmänna eller abstrakta. Att hitta specifikt textstöd för sådana påståenden var svårt, och teman var ofta implicit snarare än explicit. Detta gjorde det utmanande att tillhandahålla korrekta citat för påståenden om skrivstil och avsikt, eftersom dessa vanligtvis är baserade på boken som helhet.

Sammanfattningsvis understryker studien begränsningarna hos nuvarande AI-modeller när det gäller att generera korrekta och heltäckande boksammanfattningar. Trots sina avancerade funktioner kämpade både Claude-3-Opus och GPT-4-Turbo med faktaprecision, utelämnande av viktiga detaljer och en tendens att fokusera på specifika delar av boken, vilket indikerar ett behov av ytterligare förbättringar i AI-modeller för att förbättra kvaliteten på boksammanfattningar.

Leave a Reply

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *