‘Ne dirajte moj glas’: Glasovni glumci strahuju da će zbog umjetne inteligencije ostati bez posla

Tech Forbes 16. lis 2023. 11:17
featured image

16. lis 2023. 11:17

Produkcijski studiji, ali i fanovi, okreću se alatima generativne umjetne inteligencije kako bi u usta glasovnih glumaca stavljali riječi koje oni nikada nisu izrekli. Što to znači za njihove poslove?

Glasovna glumica Allegra Clark na TikToku je naletjela na video s likom kapetana Beidoua iz videoigrice Genshin Impact, kojemu je posudila svoj glas. U ovom videu, Beidou je prikazan u seksualno sugestivnoj sceni, izgovarajući stvari koje Clark nikada nije snimila za potrebe videoigrice. Glas je bio identičan njezinom. Kreator videa klonirao ga je uz pomoć alata generativne umjetne inteligencije imena ElevenLabs i tako sada Clark “izgovara” sve što kreator želi.

Clark je posudila glas za više od stotinu likova u videoigricama, kao i u desecima reklama. Kaže kako je video shvatila kao samo šalu, ali boji se da bi ga mogao vidjeti i njen klijent i pomisliti da je ona sudjelovala u kreaciji, što bi bilo kršenje njenog ugovora.

“Ne samo da nas ovo može uvaliti u velike probleme ako ljudi pomisle da smo zaista izgovorili te stvari, nego je i vrlo uznemirujuće čuti kako vaš vlastiti glas izgovara nešto što nema veze s vama,” napisala je Clark u emailu ElevenLabsu. Zamolila je taj start-up da ukloni snimku i spriječi buduće kloniranje njenog glasa, ali iz tvrtke su joj odgovorili da nisu uspjeli potvrditi da je snimka zaista nastala korištenjem njihove tehnologije. Dodali su kako će nešto poduzeti tek ako se pokaže da snimka sadrži “govor mržnje ili uvrede” i kako nisu odgovorni ni za kakvo kršenje autorskih prava.

Kompanija nikada nije poduzela nikakve korake.

“Užasno je što nemamo kontrolu nad vlastitim glasovima. Sve što možemo napraviti je mrštiti se,” kaže Clark za Forbes.

Forbes je od ElevenLabsa zatražio komentar o njenom iskustvu, a suosnivač i izvršni direktor Mati Staniszewski odgovorio je kako korisnici alata trebaju dobiti “eksplicitni pristanak” pojedinaca čiji glas kloniraju u slučaju da bi kreirani sadržaj mogao sadržavati “uvrede ili klevetu.” Nekoliko mjeseci nakon slučaja s Clark, kompanija je predstavila alat kroz koji zahtijevaju da ljudi snime nasumičnu riječ, a taj glas mora odgovarati glasu koji pokušavaju klonirati.

Vrijednost tvrtke procjenjuje se na oko 100 milijuna dolara, a podržavaju ju Andreessen Horowitz i suosnivač Googleovog DeepMinda Mustafa Suleyman. Trenutno je jedna od najpopularnijih tvrtki za glasovnu umjetnu inteligenciju. Tehnologiji je potrebno tek između 30 sekundi do 10 minuta audio snimke kako bi kreirala gotovo identičnu repliku nečijeg glasa. Uz stranice poput FakeYou i Voice AI, koje nude besplatnu arhivu digitalnih glasova, ElevenLabs je postao središte utjecaja generativne umjetne inteligencije na glasovne glumce.

“Glas nije pravno zaštićen kao lice ili otisak prsta.”

Jennifer Roberts, glasovna glumica

Intervjui s 10 glasovnih glumaca otkrivaju već ionako nestabilnu industriju koja se nalazi na rubu tektonskih promjena dok poslodavci eksperimentiraju s alatima za pretvaranje teksta u govor. Jedna glumica za Forbes kaže kako joj je poslodavac rekao da neće biti angažirana za dovršetak snimanja serijala audioknjiga, i to tek dan nakon što je najavio suradnju s ElevenLabsom. Zbog toga je počela strahovati da će ju zamijeniti umjetna inteligencija. Druga glumica govori kako joj je poslodavac rekao da želi koristiti umjetnu inteligenciju ElevenLabsa za ubrzavanje ponovnog snimanja nekih segmenata, što je standardni dio audiosnimanja za koji su glasovni glumci plaćeni. Kada je poslodavcu rekla da ne pristaje na to da se njen glas učita u alate umjetne inteligencije, on je to prihvatio, ali nije ju zvao da dovrši posao.

Zajednica glasovnih glumaca prvi put je primijetila prisutnost glasova stvorenih umjetnom inteligencijom nakon što je Apple Books pokrenuo digitalnu naraciju audio knjiga u siječnju ove godine, kaže Tim Friedlandler, predsjednik Nacionalne udruge glasovnih glumaca (NAVA). Glumci su uskoro otkrili da postoje tisuće audio datoteka s poznatim glasovima koje na stranice učitavaju najviše fanovi, kaže on. Poznati britanski glumac Stephen Fry nedavno je izjavio kako je njegov glas izbrisan s audioknjiga serijala o Harryju Potteru i potom kloniran korištenjem umjetne inteligencije. U govoru na festivalu CogX, Fry je rekao kako ga je to iskustvo “šokiralo.”

U javno dostupnoj tablici, stotine glasovnih glumaca zahtijeva da se njihovi glasovi obrišu iz baze generatora glasa Uberduck i FakeYou.ai, koje su se obvezale da će obrisati glasove sa stranice ako vlasnici to zatraže. FakeYou.ai još uvijek nudi tisuće popularnih glasova poput onog Johna Cene ili Kanyea Westa, a Uberduck ih je sa svoje platforme obrisao u srpnju. Nijedna tvrtka nije odgovorila na upite za komentar.

Jedan od glasovnih glumaca koji je javno zatražio da se njegov glas izbriše iz baza generatora je Jim Cummings, koji je glas posudio popularnim crtanim likovima Winnie-the-Poohu i Tazu iz Looney Tunesa. Cummings za Forbes kaže kako bi pristao da se njegov glas koristi na ovaj način samo ako bi on i njegova obitelj za to primali tantijeme.

“Ne dirajte moj glas,” rekao je on.

Pravna dilema

I filmski glumci upozoravaju kako bi umjetna inteligencija mogla utjecati na njihove karijere, no glasovne glumce val tehnoloških promjena zahvaća prve. Za razliku od drugih umjetnika i autora koji podižu grupne tužbe u kojima traže da se zabrani korištenje njihovih autorskih radova za obučavanje modela umjetne inteligencije, glasovni glumci su u jedinstvenoj opasnosti. Iako su glasovi individualni, oni nisu zaštićeni kao intelektualno vlasništvo.

“Glas nije pravno zaštićen kao lice ili otisak prsta,” kaže Jennifer Roberts, koja je svoj glas posudila nizu likova u videoigricama. “Ruke su nam vezane.”

Ipak, snimka glasa podliježe autorskim pravima, a, kako kaže odvjetnica Jeanne Hamburg, korištenje glasa u komercijalne svrhe može biti zaštićeno zakonom koji sprječava da se iskorištavaju likovi koji nalikuju slavnim osobama. Ipak, to je samo teorija: većina ugovora koje potpisuju glasovni glumci ne sprječavaju da se snimke njihovih glasova koriste u svrhu obučavanja sustava umjetne inteligencije. Više od deset godina u ugovorima stoji da su producenti “stalni vlasnici snimki, bez ograničenja, u svakoj tehnologiji koja trenutno postoji ili će tek biti razvijena,” kaže Cissy Jones, glasovna glumica novoosnovanog sindikata glasovnih glumaca NAVA-e.

Ti ugovori uglavnom su napisani i potpisani prije dolaska umjetne inteligencije.

“Glasovni glumci nisu dali svoj informirani pristanak za buduće korištenje audio snimki i nisu za to dobili pravednu kompenzaciju, kaže odvjetnik za NAVA-u, Scott Mortman. “Nakon pojave umjetne inteligencije, zaštite moraju postati mnogo snažnije.”

Upravo zbog toga NAVA, kao i sindikat glumaca SAG-AFTRA, žele iz ugovora ukloniti stavke koje poslodavcima dopuštaju korištenje njihovog glasa u svrhu kreiranja “digitalnih imitacija”, kao i sintetiziranje njihovog glasa kroz strojno učenje. Organizacije također razvijaju novi rječnik koji će biti uključen u ugovore, a kojim se želi osigurati da glasovni glumci ne izgube pravo na vlastiti glas.

Niz zloupotreba

Čitav niz glumaca, baš kao i Clark, ima iskustva s manipulacijama njihovih glasova umjetnom inteligencijom, a u nekim slučajevima su fanovi kreirali pornografski, rasistički ili nasilan sadržaj. Čak i kada fanovi koriste glasove nastale umjetnom inteligencijom za kreiranje nevinih memeova ili drugih vrsta sadržaja, glasovni glumci se bune na društvenim mrežama i brane ljudima da stvaraju lažne verzije njihovih glasova.

Članica NAVA-e Jones, čiji glas se može čuti u Disneyevim serijama i Netflixovim dokumentarcima, pronašla je videosnimke na TikToku u kojima su fanovi Uberduckom stvorili klon njenog glasa koji izgovara neprimjerene stvari.

“Ne samo da moj glas izgovara nešto što ja nikada ne bih rekla, već te stvari svi mogu vidjeti,” kaže Jones za Forbes. “Ako potencijalni kupci čuju naše glasove kako izgovaraju te stvari, kako će to utjecati na moj posao?” Nakon što ih je kontaktirala, Uberduck je njen glas uklonio s platforme, dodaje.

Glasovi nastali umjetnom inteligencijom također su postali nova metoda zlostavljanja. Abbey Veffer svoj glas je posudila likovima iz videoigara Genshin Impact i The Elder Scrolls, a kaže kako je netko u veljači kreirao klon njenog glasa. Ta osoba potom je otvorila račun na Twitteru, navodeći njenu privatnu adresu kao korisničko ime, a potom je njen glas koristila rasističkim i nasilnim izjavama. Anonimni korisnik poslao joj je direktnu poruku sporne snimke i postavio ju kao prvu objavu na Twitter profilu, rekavši kako su za stvaranje klona koristili tehnologiju ElevenLabsa. To iskustvo, prepričava Veffer za Forbes, bilo je “intenzivno” i “iznimno uznemirujuće.”

No kada je Veffer kontaktirala ElevenLabs, kompanija joj je rekla kako klon nije kreiran njihovom tehnologijom i kako je cijela priča dio “organizirane kampanje blaćenja” tog start-upa. Veffer je kontaktirala i Twitter, a tri dana kasnije račun je suspendiran i video uklonjen, no njena adresa ostala je vidljiva na stranici čitava tri mjeseca, kaže ona.

Nakon što je ElevenLabs u siječnju predstavio svoj alat umjetne inteligencije koji tekst pretvara u govor, objavili su kako imaju problema s ljudima koji zloupotrebljavaju njihovu tehnologiju. Dan kasnije, Viceov Motherboard otkrio je kako su anonimni korisnici platforme 4Chan koristili tada besplatan ElevenLabsov alat za kloniranje kako bi kreirali rasističke, transfobne i nasilne komentare glasovima slavnih osoba poput Joea Rogana ili Emme Watson.

Sposobnost umjetne inteligencije da imitira ljudske glasove također je otvorila vrata i prevarantima. Američka agencija za zaštitu potrošača ove godine je izdala niz upozorenja u kojima stoji kako kriminalci pokušavaju nagovoriti svoje žrtve da im pošalju novac koristeći klonove glasova njihovih bližnjih. Jedan novinar je upotrijebio alat ElevenLabsa kako bi kreirao verziju vlastitog glasa i njom se uspješno logirao u svoj bankovni račun.

ElevenLabs nije komentirao nijedan od ovih konkretnih primjera, no izvršni direktor Staniszewski u emailu je rekao: “Ako netko koristi naš alat kako bi klonirao glasove za koje nema dopuštenje i koji krše pravila pravedne upotrebe, izbrisat ćemo taj korisnički račun i spriječiti otvaranje novih korisničkih računa s istim podacima.” Uz novi alat koji zahtijeva to dopuštenje, kompanija kaže da je također razvila alat koji sa sigurnošću od preko 90 posto može procijeniti jesu li njihovi programi korišteni za kreiranje audiosnimki koje sadrže umjetnu inteligenciju.

Pristanak i kontrola

Kako bi zaustavile zloupotrebu, stranice za generiranje glasova uvode restriktivne mjere kako bi nadzirale svoju tehnologiju. Speechify, koji licencira glasove slavnih naratora poput Snoop Doga i Gwyneth Paltrow – uz njihovo dopuštenje – ne dozvoljava ljudima da učitavaju sadržaj za kreiranje umjetnih glasova bez dopuštenja ljudi čije glasove žele koristiti. Slično kao i ElevenLabs, Speechify korisnicima daje jedinstven tekst koji sam korisnik ili netko tko je uz njih fizički prisutan, mora naglas pročitati vlastitim glasom.

“Mislim da su prečice kratkovidne, a moj cilj je da vlasnici sadržaja imaju kontrolu,” rekao je osnivač Cliff Weitzmann, koji je pokrenuo Speechify 2012. godine kako bi od svojih bilješki stvorio audiosnimke kroz strojno učenje.

Resemble AI, koji se može pohvaliti klijentima poput Netflixa i Svjetske banke, dopušta korisnicima da kreiraju prilagođene glasove umjetnom inteligencijom samo nakon što snime izjavu privole pročitanu glasom koji žele kreirati. Osnivač i izvršni direktor Resemble AI-ja, Zohaib Ahmed, kaže kako je uvođenje sigurnih načina za korištenje tehnologije bio integralni dio njegovog start-upa jer on vjeruje kako bi teret sprječavanja zlouporabe trebao biti na onima koji alate izrađuju, a ne na krajnjim korisnicima.

“Užasno je što nemamo kontrolu nad vlastitim glasovima.”

Allegra Clark, glasovna glumica

Ipak, ovakve provjere ne dotiču se širih etičkih pitanja oko problema pristanka. Na primjer, glumci nemaju kontrolu nad tim kako će njihovi glasovi biti korišteni nakon njihove smrti. Glasovni glumci razbjesnili su se kada je gaming studio Hi-Rez Studios u ugovore dodao klauzulu koja im dopušta da umjetnom inteligencijom kloniraju glas glumaca nakon njihove smrti. Klauzula je nakon žestoke reakcije uklonjena.

“Ako glumac premine, bolje ga je zamijeniti novom osobom, a ne kreirati nekakvu umjetnu verziju jer to nije on i to ga neće vratiti natrag,” kaže glumica Clark.

Najveća briga u cijeloj priči je ima li uopće mjesta u budućnosti za glasovne glumce. Poslodavci i fanovi sve više eksperimentiraju umjetno kreiranim glasovima, a mnogi se boje hoće li pronaći sljedeći angažman ili uopće zadržati one koje su već dogovorili.

“Iznimno nam je važno da možemo kontrolirati kako i gdje se koristi naš glas i koliko smo za to korištenje plaćeni,” kaže osnivač NAVA-e Friedlander.

Autor originalnog članka: Rashi Shrivastava, Forbes
Link: ‘Keep Your Paws Off My Voice’: Voice Actors Worry Generative AI Will Steal Their Livelihoods
(Prevela: Nataša Belančić)