Umjetna inteligencija često halucinira, ovaj trener brže i jeftinije od drugih hvata greške

Tech Forbes 17. srp 2024. 06:45
featured image

17. srp 2024. 06:45

Tvrtka Patronus AI tvrdi kako njihov novi model Lynx može ne samo zamijetiti takozvane ‘halucinacije’ drugih velikih jezičnih modela, već i objasniti zašto su one pogrešne

Modeli generativne umjetne inteligencije mogu proizvesti nevjerojatne rezultate, ali su također postali notorni zbog svojih samouvjerenih, ponekad i vrlo uvjerljivih grešaka (ili “halucinacija”): ponekad će ljudima preporučiti da pet puta dnevno jedu kamenje ili na pizzu stave ljepilo. Novi AI model otvorenog koda Lynx, kojeg je proizvela mlada kompanija za evaluaciju umjetne inteligencije Patronus AI, želi riješiti taj problem. Model obećava brži, jeftiniji i pouzdaniji način za otkrivanje takvih halucinacija bez ljudske pomoći.

Osnivači Anand Kannappan i Rebecca Qian, koji su ranije radili na istraživanju umjetne inteligencije u Meti, tvrde kako je novi model precizniji u otkrivanju grešaka od drugih vodećih AI sustava poput GPT-ja tvrtke OpenAI ili modela Claude 3 tvrtke Anthropic. Kako bi to postigli, kompanija je usavršila najnapredniji veliki jezični model Mete, Llama 3, pokazujući mu 2400 primjera halucinacija i točne odgovore.

Prije nego su pokrenuli kompaniju u rujnu prošle godine, Kannappan i Qian su razgovarali s oko šezdeset direktora kompanija i otkrili kako je njihov najgori strah da će predstaviti AI proizvod i onda dospjeti u medije iz pogrešnih razloga. Kannappan se nada kako Lynx može riješiti te strahove. On svoj model opisuje kao “trenera” za druge AI modele koji ih može naučiti kako postati precizniji. Cilj je da klijenti koji predstavljaju AI aplikacije mogu upotrijebiti Lynx za otkrivanje halucinacija tijekom razvoja, umjesto da popravljaju greške nakon predstavljanja.

“Jedan od razloga zašto smo Rebecca i ja pokrenuli kompaniju bio je koncept koji se naziva skalabilni nadzor,” kaže on. “Tu se radi o tome kako ljudi mogu nadzirati sustave koji su daleko bolji od njih samih. Jedini način na koji to možete postići je ako imate iznimno moćnu umjetnu inteligenciju koja nadzire umjetnu inteligenciju.”

To je različito u odnosu na to kako se AI proizvodi trenutno testiraju prije slanja, nastavlja, što se čini raznim tehnikama. Jedna od njih je ručno hakiranje AI modela kako bi se otkrile slabosti koje mogu dovesti do grešaka. Drugi timovi koriste AI modele poput GPT-4 za otkrivanje halucinacija, kaže Kannappan koji kritizira ovaj pristup: “Doslovno GPT-4 testira GPT-4.” To je problem, objašnjava, jer takvi modeli nisu dizajnirani konkretno kako bi hvatali greške. Lynx je, s druge strane, obučen da objasni zašto je odgovor pogrešan, i to zato jer je dobio više konteksta, kaže Qian.

“Davali smo mu primjere netočnih odgovora i pokazali konkretne financijske izračune ili medicinske izvore koji su pokazali zašto je odgovor kriv,” kaže ona. To je efikasniji pristup jer model dobiva dodatne pozadinske informacije i može kvalitetnije primjećivati slične greške.

Kompanija je također predstavila novo mjerilo imena HaluBench, koje ocjenjuje koliko dobro različiti AI modeli mogu uhvatiti halucinacije u rezultatima, pogotovo u domenama prava, financija i medicine. To mjerilo pokazuje da čak ni Lynx nije savršen – točnost mu je otprilike 88 posto – ali bolji je od većine drugih, kaže Kannappan.

U ožujku je Patronus AI također predstavio Copyright Catcher, alat koji otkriva slučajeve u kojima popularni AI modeli (npr. GPT-4, Claude 2 ili Mixtral) proizvode sadržaj zaštićen autorskim pravima. Alat je navedene modele “uhvatio” kako ponavljaju čitave odlomke iz knjiga poput “Becoming” Michelle Obame ili “The Fault in Our Stars” Johna Greena.

Razvili su i druge alate koji ocjenjuju izvedbu modela u konkretnim domenama. Na primjer, tu je FinanceBench koji se koristi za ocjenjivanje koliko dobro veliki jezični modeli odgovaraju na financijske upite; Enterprise PII koji tvrtkama pomaže otkriti odaju li AI modeli njihove osjetljive ili povjerljive podatke; ili Simple Safety, koji ocjenjuje velike jezične modele po pitanju sigurnosnih rizika poput kreiranja opasnih odgovora vezanih za prijevaru, samoubojstvo ili zlostavljanje djece.

Čitav taj posao usmjeren je na ispunjavanje misije kompanije, a to je osiguravanje da veliki jezični modeli ne proizvode loše rezultate na koje će se ljudi oslanjati. “Kada model halucinira, on svejedno proizvodi odgovore koji zvuče uvjerljivo,” kaže Qian. “To na kraju dovodi do širenja dezinformacija.”

Autor originalnog članka: Rashi Shrivastava, Forbes
Link: This AI-Powered ‘Coach’ Catches Hallucinations In Other AI Models
(Prevela: Nataša Belančić)