MetaVoice-1B opensource text-till-tal och röst-kloning

MetaVoice-1B är en avancerad modell för text-till-tal (TTS) och röstkloning med öppen källkod. Modellen har utvecklats med fokus på emotionell talrytm och ton i engelska. Den har tränats med hjälp av 100 000 timmars tal och har en kapacitet av 1,2 miljarder parametrar.

Modellen är utformad för att inte generera oavsiktliga eller irrelevanta talinnehåll, vilket ofta beskrivs som ”hallucinationer”. Detta säkerställer att den syntetiserade rösten är precis och pålitlig.

Denna modell kan användas för olika tillämpningar, från innehållsskapande och utveckling till affärsanvändning. Den kan exempelvis förbättra användarinteraktion och engagemang genom högkvalitativtalssyntes

Stöd för Röstkloning

MetaVoice-1B stöder röstkloning vilket innebär att den kan efterlikna en specifik persons tal genom att enbart använda en kort ljudreferens som exempelvis 30 sekunder av dess röst. Detta stöd sträcker sig även till amerikanska och brittiska röster genom zero-shot kloning. Modellen har också fungerat med framgång för indiska talare med så lite som 1 minuts träning.

Cross-lingual Röstkloning

Modellen kan även utföra cross-lingual röstkloning med finjustering 5. Detta innebär att den kan efterlikna en röst på ett språk den ursprungligen inte tränats på, förutsatt att korrekt finjustering utförs.

För att få mer information om hur du använder MetaVoice-1B och tillgång till senaste bruksanvisningarna besök deras GitHub-sida.

https://themetavoice.xyz

https://huggingface.co/metavoiceio/metavoice-1B-v0.1