Istraživači Googlea razvili su SoundStorm, tehniku stvaranja zvuka koja se bavi izazovom generiranja dugih nizova audio tokena. SoundStorm koristi hijerarhijsku strukturu tokena i paralelnu, ne-regresivnu shemu dekodiranja dizajniranu za neuralne audio kodeke.
Prvo, što to zapravo znači?
Zamislili su SoundStorm da funkcionira poput tornja s više razina. Svaka razina predstavlja različiti dio audija, poput različitih instrumenata u pjesmi. Organizirajući audio na ovaj hijerarhijski način, SoundStorm može efikasno generirati duge sekvence.
Shvatili ste? Super, idemo dalje
Da bi stvari bile još brže, SoundStorm koristi posebnu tehniku nazvanu ne-regresivno dekodiranje. To je kao da imate više glazbenika koji sviraju zajedno istodobno, umjesto da čekaju da svaki glazbenik završi prije nego što sljedeći počne. To omogućava SoundStormu da stvara audio mnogo brže.
U sažetku, SoundStorm je revolucionarna tehnika stvaranja zvuka koju je razvio Google.
Koristi hijerarhijsku strukturu tokena i ne-regresivno dekodiranje za efikasno generiranje dugih audio sekvenci. Zamjenom akustičkog generatora AudioLM-a, SoundStorm postiže brže generiranje zvuka bez žrtvovanja kvalitete.