Google DeepMind har utvecklat MusicRL

Forskare från Google DeepMind har utvecklat MusicRL som är det första musikgenereringssystemet som finslipats med hjälp av mänsklig feedback.

Musikappreciering är subjektivt och beroende av användaren, vilket gör träning av sådana modeller utmanande. Därför integrerade forskarna kontinuerlig mänsklig feedback för att finslipa MusicRL. Resultaten visar att både MusicRL-R och MusicRL-U föredras framför baslinjen, och kombinationen av de två resulterade i den bästa modellen enligt de mänskliga bedömarna.

Hur MusicRL fungerar

Kärnan i MusicRL är MusicLM, en autoregressiv modell som skapar musik genom diskreta ljudtoken. För att förbättra denna modells förmåga att generera musik som överensstämmer med mänskliga preferenser har belöningsfunktioner relaterade specifikt till text-tillmässighet och ljudkvalitet utformats med hjälp av utvalda bedömare. Dessa belöningsfunktioner används sedan för att finjustera MusicLM till MusicRL-R.

För att ytterligare förbättra modellen har DeepMind utvecklat MusicRL-U genom att använda Reinforcement Learning from Human Feedback (RLHF), vilket gör MusicRL-U till den första text-till-musik modellen som inkorporerar mänsklig återkoppling i stor skala. Ett dataset med 300 000 parvisa preferenser har samlats in från användare för att träna modeller.

MusicRL är en innovativ modell som hjälper till att skapa en mer personlig och mänsklig anpassad musikupplevelse genom att lyssnare får ge sin återkoppling under utvecklingsprocessen. Med sitt grundande i MusicLM och finjustering genom RLHF, är MusicRL en modell som inte bara förgyller musikalisk skapande utan även ger en djupare förståelse för musikkreationens subjektiva natur.

https://google-research.github.io/seanet/musiclm/rlhf