Vjerovali ili ne, internet je premali za obučavanje umjetne inteligencije. Jesu li rješenje lažni podaci?
Novi val startupova predviđa egzistencijalnu krizu koja prijeti AI industriji: Što kada nam ponestane podataka?
Još 2011. godine, Marc Andreessen – čija firma Andreessen Horowitz je otada investirala u neke od najvećih startupova u AI industriji – napisao je kako “softver proždire svijet”. Više od deset godina kasnije, doslovno to se i događa.
Umjetna inteligencija, pogotovo veliki jezični modeli koji ju pokreću, veliki je proždrljivac podataka. Međutim, ti podaci su ograničeni, a sada ih ponestaje. Kompanije su u svojim naporima da obuče sve moćniju umjetnu inteligenciju iskoristili doslovno sve: video transkripte i titlove s YouTubea, javne objave na Facebooku i Instagramu, autorskim pravima zaštićene knjige, novinske članke – ponekad bez dopuštenja, ponekad uz licence. ChatGPT tvrtke OpenAI, chatbot koji je umjetnu inteligenciju donio u mainstream, već je obučen na čitavom javnom internetu; oko 300 milijardi riječi među kojima su i čitava Wikipedia i Reddit. U nekom trenutku neće ostati više ništa.
Istraživači to zovu “udaranjem u zid podataka” i kažu kako bi se to vjerojatno moglo dogoditi već 2026. godine.
Pitanje od milijardu dolara
To znači da je kreiranje više podataka za obuku umjetne inteligencije postalo pitanje od milijardu dolara, a pojavila se čitava vojska novih startupova koja na njega želi odgovoriti.
Jedna mogućnost: kreiranje umjetnih podataka.
Upravo to je pristup pet godina starog startupa Gretel. Oni proizvode ono što se naziva “sintetički podaci”, odnosno podaci koje generira umjetna inteligencija, ali koji su vrlo slični činjeničnim informacijama, iako nisu stvarni. Već godinama ovaj startup čija vrijednost iznosi 350 milijuna dolara, sintetskim podacima opskrbljuje kompanije koje rade s informacijama koje moraju biti zaštićene zbog privatnosti, na primjer informacijama pacijenata u bolnicama. Sada izvršni direktor kompanije Ali Golshan vidi priliku da izgladnjelim AI kompanijama da lažne podatke sastavljene od nule, koje one potom mogu koristiti za obučavanje svojih AI modela.
“Sintetski podaci odlično odgovaraju,” rekao je Golshan, inače bivši obavještajni analitičar. “Rješavaju dvije strane istog problema. Podatke možete učiniti visoko kvalitetnima, ali i sigurnima.”
Umjetna inteligencija hrani umjetnu inteligenciju
Ovaj pristup u kojemu “AI hrani AI” već su prigrlili giganti Anthropic, Meta, Microsoft i Google. Oni svi do neke mjere koriste sintetske podatke za obučavanje svojih mdoela. Prošlog mjeseca je Gretel objavio kako će svoje sintetske podatke učiniti dostupnima klijentima koji koriste platformu za analizu podataka Databricks za izradu AI modela.
Ipak, sintetski podaci imaju svoja ograničenja. Oni mogu povećati pristranost originalnog seta podataka, a ponekad ne uključuju rijetke iznimke koje se pojavljuju samo u stvarnim podacima. Sve to moglo bi dodatno pogoršati “haluciniranje” AI-ja. Također je moguće kako modeli obučeni na lažnim podacima jednostavno nikada neće moći proizvesti ništa novo. Golshan to naziva “spiralom smrti”, no poznatije je kao “kolaps modela”. Kako bi se to izbjeglo, novi klijenti Gretelu moraju dati stvarne, visokokvalitetne podatke. “Sigurni bezvrijedni podaci još uvijek su bezvrijedni podaci,” kaže Golshan za Forbes.
Postoji i drugi način za zaobilaženje “zida podataka”, a to su ljudi. Neki startupovi zapošljavaju gomile novih ljudi čiji je zadatak očistiti i označiti postojeće podatke koji bi mogli biti korisni za kreiranje novih podataka umjetnom inteligencijom.
Ljudi koji označavaju podatke
Pravi teškaš u tom području označavanja podataka je 14 milijardi dolara vrijedan gigant Scale AI, koji velikim AI startupovima OpenAI, Cohere i Character AI pruža podatke koje su “pročešljali” ljudski zaposlenici. Poslovanje kompanije je ogromno: zapošljavaju oko 200.000 ljudi diljem svijeta putem podružnice Remotasks. Ti radnici obavljaju zadatke poput crtanja okvira oko predmeta na slikama ili uspoređivanja različitih odgovora na pitanja i ocjenjivanja koji je točniji.
Na još većoj skali, tvrtka Toloka iz Amsterdama za slične zadatke je zaposlila nevjerojatnih devet milijuna ljudi. Nadimka “Tolokeri”, ovi freelanceri iz svakog kutka svijeta također označavaju podatke – na primjer osobne informacije u setovima podataka za upotrebu u AI projektu koji predvode Hugging Face i ServiceNow. Ali oni također i kreiraju podatke od nule: prevode informacije na nove jezike, sažimaju ih i transkribiraju audio u tekst.
Toloka također surađuje sa stručnjacima poput doktora fizike, znanstvenika, odvjetnika i programera kako bi kreirali podatke specifične za domene za projekte koji se bave usko definiranim zadacima. Na primjer, zapošljavaju odvjetnike koji govore njemački za potrebe kreiranje sadržaja koji se mogu unijeti u AI modele za pravna pitanja. Ipak, veliki je posao upravljati ljudima iz 200 zemalja svijeta, provjeravati da je njihov rad točan, autentičan i nepristran, kao i prevoditi akademske žargone u jezik koji je pristupačan AI modelima.
“Nitko se ne voli baviti ljudskim operacijama,” kaže za Forbes izvršna direktorica Toloke Olga Megorskaya. “Svi vole graditi AI modele i biznise, ali upravljanje stvarnim ljudima nije baš česta vještina u AI industriji.”
Što se ove vrste posla tiče, veliki su problemi s radnom snagom u čitavoj industriji. Radnici Scalea prošle godine su za Forbes progovorili o svojim niskim plaćama. Radnici Toloke koje je Forbes kontaktirao za potrebe ove priče imaju slične pritužbe. Megorskaya za Forbes kaže kako vjeruje da je njihova kompenzacija poštena, a i iz Scale AI-ja su rekli slično: da naprno rade kako bi svojim radnicima “osigurali plaće od kojih mogu živjeti.”
Najočitije rješenje: Koristiti manje podataka
Najočitije rješenje za problem nedostatka podataka je možda i najjednostavnije: korištenje manje količine podataka.
Iako postoji velika potreba za podacima koji se učitavaju u ogromne modele, neki istraživači vjeruju kako jednog dana napredna umjetna inteligencija možda neće trebati baš toliko podataka. Nestor Maslej, istraživač na institutu Human-Centred Artificial Intelligence sveučilišta Stanford, vjeruje kako jedan od glavnih problema nije kvantiteta, nego efikasnost.
“Kada malo razmislite, ti veliki jezični modeli – koliko god impresivni bili – prolaze kroz nekoliko milijuna puta više podataka nego što će i jedan pojedinac vidjeti u čitavom svom životu. Ali ljudi nekako mogu postizati stvari koje ti modeli ne mogu,” kaže Maslej. “Jasno je iz određene perspektive da ljudski mozak radi na razini efikasnosti koju ovi modeli ne prate.”
Do tog tehnološkog napretka još nije došlo, ali AI industrija već polako počinje okretati leđima ogromnim modelima. Umjesto da proizvode velike jezične modele koji se mogu natjecati s OpenAI-jem ili Anthropicom, mnogi AI startupovi umjesto toga grade manje, specifičnije modele koji zahtijevaju manje podataka. Popularni proizvođač open-source AI modela Mistral AI, na primjer, nedavno je predstavio Mathstral, AI koji odlično rješava matematičke zadatke. Model čini tek djelić modela GPT-4 OpenAI-ja. I sam OpenAI ulazi u utakmicu mini modela, predstavljanjem modela GPT-40 mini.
“Ne treba vam raketa da odete u dućan”
“Promatramo tu utrku za dimenzijama i velikim općim modelima koji usisavaju sve više podataka i iskušavaju programe za generiranje novih podataka,” kaže Alex Ratner, izvršni direktor kompanije za označavanje podataka Snorkel AI. “Rješenje je da model jako dobro obavlja jedan određeni zadatak, a tu su ključ kvaliteta i konkretni podaci, a ne opseg.”
Snorkel tako pomaže kompanijama iskoristiti podatke koje već imaju, i pretvoriti ih u blago za obučavanje umjetne inteligencije. Ovaj startup nastao je u AI laboratoriju Stanforda, a njegova vrijednost sada se procjenjuje na milijardu dolara. Nude softver koji olakšava kompanijama brzo označavati podatke.
Na taj način, modeli kompanija izgrađeni su za određenu svrhu, odnosno ono što oni zaista i trebaju. “Ne treba vam raketa da odete u dućan,” kaže slikovito Ratner.
Autor originalnog članka: Rashi Shrivastava, Forbes
Link: The Internet Isn’t Big Enough To Train AI. One Fix? Fake Data.
(Prevela: Nataša Belančić)