Meta AI introducerar AudioSeal för att lokalisera och detektera AI-genererat tal

Meta AI har nyligen introducerat AudioSeal, en banbrytande teknologi för att upptäcka AI-genererat tal. Det handlar om en första av sitt slag audio-watermarkerings teknik som är speciellt framtagen för att lokalisera AI-genererat tal med stor noggrannhet.

Talgenerering och röstkloning är två områden som har påverkats negativt av dessa AI-modeller, vilket medför större risker för bedrägerier och spridning av desinformation. För att tackla detta problem har forskare på Meta introducerat AudioSeal, en ljudvattenmärkningsteknik som har utformats för lokaliserad upptäckt av AI-genererat tal.

Vad är AudioSeal?

AudioSeal är ett system som använder en teknik för att lägga in en signal i genererad audio som är ohörbar för människan, men som kan upptäckas av specifika algoritmer. Detta är avgörande för att kunna identifiera om en ljudsnutt har genererats av en AI eller inte, vilket är viktigt i en tid då risken för bedrägerier och spridning av desinformation ökar.

AudioSeal är en ljudvattenmärkningsmetod som är speciellt utformad för lokaliserad detektering av AI-genererat tal. Genom att använda en kombination av generativ AI och detektorer kan AudioSeal identifiera och lokalisera syntetiskt tal i ljudklipp. Metoden har visat sig vara effektiv och robust mot olika typer av ljudmanipulationer.

AudioSeal har flera fördelar jämfört med tidigare metoder för ljudvattenmärkning:

Lokaliserad detektering: Till skillnad från tidigare metoder som behandlade hela ljudklippet som en enhet, kan AudioSeal lokalisera specifika segment av AI-genererat tal inom ett längre ljudklipp. Detta gör det möjligt att identifiera exakt var i ljudet som syntetiskt tal har använts.

Robusthet mot manipulation: AudioSeal har visat sig vara robust mot en mängd olika realistiska ljudmanipulationer, vilket innebär att vattenmärket fortfarande kan detekteras även om ljudfilen har ändrats på olika sätt.

Snabbare detektion: I jämförelse med tidigare metoder som WavMark, har AudioSeal visat sig kunna detektera vattenmärken betydligt snabbare, vilket är viktigt för applikationer som kräver realtidshantering.

Multi-bit vattenmärkning: AudioSeal stöder multi-bit vattenmärkning, vilket innebär att man kan bädda in mer information i ljudfilen. Detta kan användas för att till exempel attribuera ett ljudklipp till en specifik AI-modell eller version.

Förbättrad imperceptibilitet: Forskarna har infört en ny förlustfunktion inspirerad av auditiv maskering, vilket gör att vattenmärket blir ännu svårare att upptäcka för människan samtidigt som det förblir detekterbart för algoritmer.

Säkerhet mot angrepp: Genom att hålla detektormodellens vikter konfidentiella kan man begränsa effekten av överlagrade attacker där angriparen försöker överväldiga detektionssystemet.

För att ytterligare stärka säkerheten, förespråkar forskarna att viktningen av detektor-modellen hålls konfidentiell, vilket skulle begränsa effekten av eventuella angrepp där angriparen försöker överbelasta detektionssystemet.