Od omejitev do rešitev: razložljiva umetna inteligenca
Avtor: Martin Marzidovšek, svetovalec na Ministrstvu za digitalno preobrazbo RS in raziskovalec na Inštitutu Jožef Stefan.
Ključne besede: razložljiva umetna inteligenca, transparentnost, pravo, veliki jezikovni modeli, umetna inteligenca, regulacija
Izvleček: Razložljiva umetna inteligenca postaja ključna komponenta pri uporabi umetne inteligence v občutljivih družbenih kontekstih, kot so pravo, zdravstvo in finance. Kompleksnost naprednih modelov umetne inteligence, kot so globoke nevronske mreže in veliki jezikovni modeli, pogosto onemogoča razumevanje njihovega delovanja in tako zmanjšuje zaupanje uporabnikov. V tem prispevku predstavimo glavne koncepte in metode razložljive UI, raziskujemo regulativne zahteve in tehnološke izzive ter posebno pozornost namenimo uporabi razložljive UI v pravnem okviru. Članek osvetljuje tudi izzive, ki jih predstavljajo veliki jezikovni modeli, in zagovarja potrebo po razložljivosti kot temeljnem pogoju za zanesljivo, pravično in zakonito uporabo UI.
Abstract: Explainable Artificial Intelligence (XAI) is becoming a crucial component in the application of artificial intelligence (AI) in sensitive domains such as law, healthcare, and finance. Despite their impressive capabilities, modern AI models often operate as "black boxes," making it difficult to understand or trust their decisions. This paper provides a comprehensive overview of explainability in AI, outlines key concepts and technical methods, and emphasizes the importance of interpretability for ensuring legal compliance and ethical alignment. Special attention is given to the challenges of applying explainable AI in the legal domain, particularly with regard to large language models (LLMs). The article argues that explainability must be integrated as a core design principle in high-risk AI systems and highlights future directions for research, regulation, and institutional adaptation to support responsible AI deployment.
1. Uvod
Umetna inteligenca (UI) se vse bolj uporablja v sektorjih, kjer imajo odločitve resne posledice za posameznike. Primeri vključujejo zdravstvene diagnoze, kreditno ocenjevanje, zaposlovanje in pravosodje. V teh kontekstih je ključno, da so odločitve razumljive, preverljive in odgovorne. Razložljiva UI naslavlja to potrebo, saj omogoča, da uporabniki in odločevalci razumejo logiko, ki stoji za delovanjem modelov.
Sistemi UI danes opravljajo predvsem dve vrsti nalog: napovedovanje (npr. vedenje uporabnikov, tržne trende, bolezni) in generiranje vsebin (npr. besedila, slike, programska koda). Ker pa modeli UI na katerih ti sistemi temeljijo pogosto delujejo kot „črne škatle“, njihova notranja logika ostaja nejasna. Zato razložljivost ni le tehnična lastnost, temveč tudi pravna in etična zahteva.
Vse več raziskovalcev, regulatorjev in uporabnikov se zaveda, da brez zadostne razložljivosti UI ne more postati zaupanja vredna tehnologija v procesih odločanja. V takšnih kontekstih, kjer UI vpliva na človekove pravice in temeljne svoboščine, je razumevanje odločitvenih mehanizmov ključno ne le zaradi tehnične robustnosti, temveč tudi zaradi skladnosti s pravnimi normami in etičnimi pričakovanji.
2. Ključni pojmi in koncepti razložljive UI
Razložljivost označuje zmožnost UI modela, da pojasni ali predstavi svoje delovanje na način, razumljiv človeku. Poleg same razložljivosti govorimo tudi o transparentnosti (dostop do informacij o notranji strukturi modela), odgovornosti(določljivost nosilcev odgovornosti za odločitev) in zaupanju (predvidljivost in zanesljivost odločitev). Dandanes se pogosto uporablja tudi izraz zaupanja vredna UI (angl. trustworthy AI) za sisteme UI, ki so predvidljivi, robustni, pravični, oblikovani etično in skladno z družbenimi in pravnimi normami.
Razložljivost sicer ni absolutna kategorija, temveč je odvisna od uporabnika, konteksta in področja uporabe. Kar je razumljivo za podatkovnega znanstvenika, morda ni razumljivo za pravnika ali regulatorja. Zato razložljiva UI ne pomeni le, da UI razume sama sebe, ampak da je njeno delovanje razloženo tako, da je razumljivo in uporabno ljudem. V tem okviru razložljivost služi kot prevajalec med strojem in človekom ter povečuje uporabnost UI v praksi.
Pomembni koncepti vključujejo tudi pojma interpretabilnosti in sledljivosti. Interpretabilnost, ki je pogosto razumljena slično kot razložljivost, pomeni stopnjo, do katere lahko človek intuitivno razume vzročno povezavo med vhodnimi podatki in izhodnim rezultatom. Sledljivost pa omogoča rekonstrukcijo procesa odločanja za namen revizije, nadzora ali pritožbenih postopkov.
3. Strojno učenje in razložljiva UI
Temeljni razvoj UI v zadnjem desetletju temelji na napredku metod strojnega učenja, zlasti globokega učenja. Ta pristop temelji na učenju iz podatkov, kjer algoritmi prepoznavajo vzorce in gradijo matematične modele brez eksplicitnega programiranja pravil. Globoke nevronske mreže, ki so osnova številnih današnjih naprednih sistemov UI, zmorejo izredno kompleksno obdelavo podatkov, vendar so njihovi notranji mehanizmi pogosto nerazumljivi tudi strokovnjakom.
Zaradi nelinearnih odvisnosti, velikega števila parametrov in večplastne strukture, globoke mreže delujejo kot kompleksni sistemi, katerih obnašanje ni trivialno razložiti. To pomeni, da kljub izjemni natančnosti, na primer pri prepoznavanju slik ali naravnem jeziku, takšni modeli ne omogočajo enostavnega pojasnjevanja svojih odločitev. Razložljivost zato pomeni ključno povezavo med učinkovitostjo in odgovornostjo uporabe UI.
Kombinacija visoke zmogljivosti in nizke razložljivosti ustvarja t. i. „kompromis med zmogljivostjo in interpretabilnostjo“, ki je še posebej pomemben v kontekstih, kjer morajo biti odločitve razložljive, kot v pravu ali medicini. Tu se postavlja vprašanje: ali je bolje uporabiti enostavnejši in razložljiv model z nekoliko nižjo natančnostjo, ali kompleksnejši, a manj razložljiv sistem?
4. Potreba po transparentnosti sistemov UI v praksi
Zadržanost do uporabe UI pri nalogah, ki so bile doslej v domeni človeka, temelji predvsem na strahu pred izgubo nadzora nad procesi odločanja. Ključna skrb je, da sistemi UI delujejo netransparentno in nepričakovano, kar zmanjšuje njihovo zanesljivost. Razložljiva UI ponuja rešitev: omogoča uporabnikom, da razumejo, zakaj in kako je sistem prišel do določenega rezultata. S tem se krepi zaupanje in povečuje sprejemljivost tehnologije v družbi.
Razložljivost ni pomembna le za posamezne uporabnike, temveč tudi za širšo družbo. Kadar UI sistemi odločajo o pravicah in obveznostih posameznikov, je ključno, da so njihove odločitve pojasnljive – tako zaradi uveljavljanja pravne zaščite kot zaradi transparentnosti delovanja institucij. Regulacija UI zahteva, da so sistemi ne le tehnično robustni, temveč tudi razložljivi na način, ki omogoča preverjanje njihove zakonitosti in etičnosti. Prav zato razložljivost ni zgolj stvar tehnične izbire, ampak zakonska in demokratična nujnost.
Zaupanje temelji na razumevanju. Če uporabnik razume logiko sistema, bo bolj pripravljen slediti njegovim priporočilom. Z razložljivostjo se UI tako prelevi iz skrivnostne tehnologije v orodje, ki ga lahko človek obvladuje, nadzira in mu zaupa.
5. Metode za doseganje razložljivosti
Metode razložljive UI lahko razdelimo na dve osnovni skupini: intrinzično razložljive modele in post-hoc razlagalne metode. Prva skupina vključuje modele, katerih struktura je že po zasnovi razumljiva in transparentna. Sem sodijo linearna in logistična regresija, odločitvena drevesa in modeli, ki temeljijo na preprostih logičnih pravilih. Zaradi enostavne strukture omogočajo neposreden vpogled v proces odločanja, kar omogoča uporabnikom, da razumejo, kako posamezne vhodne značilnosti vplivajo na rezultat.
Druga skupina so post-hoc metode, ki se uporabljajo pri modelih, katerih delovanje je zaradi kompleksnosti netransparentno. Te metode ne spreminjajo strukture modela, temveč analizirajo njegovo vedenje na podlagi vhodnih in izhodnih podatkov ali z uporabo posebnih tehnik. Post-hoc metode lahko razvrstimo še naprej: na modelno specifične in modelno neodvisne metode ter na lokalne in globalne razlage.
Modelno specifične razlage so namenjene razlagi posameznih vrst modelov, pri katerih je dostop do notranje strukture mogoč. Tipičen primer je vizualizacija odločitvenega drevesa, kjer je mogoče natančno slediti pogojem, ki vodijo do posamezne odločitve. Te razlage so posebej uporabne v razvojni fazi modela, kjer je cilj optimizacija logike odločanja.
Modelno neodvisne razlage ne zahtevajo dostopa do notranjosti modela in temeljijo zgolj na analizi vhodnih in izhodnih podatkov. Njihova prednost je, da jih lahko uporabimo pri kateremkoli modelu, ne glede na njegovo kompleksnost. Primer takšne metode je permutacijska analiza pomembnosti, ki meri, kako spremembe posameznih vhodnih spremenljivk vplivajo na napoved modela.
Lokalne razlage se osredotočajo na pojasnitev posamezne napovedi. Pomembni metodi sta SHAP (Shapley Additive Explanations) in LIME (Local Interpretable Model-agnostic Explanations). SHAP temelji na kooperativni teoriji iger in omogoča natančno dodelitev vpliva vsaki vhodni spremenljivki na odločitev modela. LIME pa lokalno aproksimira delovanje modela z enostavnimi interpretabilnimi modeli. Lokalna razlaga je uporabna zlasti tam, kjer mora biti vsaka posamezna odločitev utemeljena, denimo pri medicinski diagnozi, sodni odločbi ali kreditni oceni.
Globalne razlage nudijo širši pogled na delovanje modela kot celote. Omogočajo analizo splošnih pravil in vzorcev v odločanju modela ter tako prispevajo k boljšemu razumevanju vedenja sistema v celotnem podatkovnem prostoru. Takšne razlage so bistvene za ocenjevanje pravičnosti, etičnosti in skladnosti modela z zakonodajo.
Vsaka izmed navedenih metod ima svoje prednosti in slabosti, zato je v praksi pogosto potrebna kombinacija več pristopov. Različne metode razlage služijo različnim ciljem – razvoj modela, razumevanje odločitev, komunikacija z uporabniki ali regulatorji. Ključno je, da so razlage prilagojene kontekstu in potrebam uporabnikov.
6. Tehnološke omejitve razložljive UI
Čeprav razložljiva UI ponuja pomembna orodja za povečanje preglednosti, so trenutne metode še vedno daleč od popolnosti. Ena izmed največjih težav je, da večina razlagalnih metod temelji na strukturiranih, numeričnih podatkih. V praksi pa se UI pogosto uporablja za obdelavo nestrukturiranih podatkov, kot so besedila, slike ali zvok. Besedilni podatki – na primer pravni dokumenti, sodne odločbe, zakonodajna besedila ali pogodbe – predstavljajo poseben izziv. Njihova kompleksnost je v tem, da pomen ne izhaja le iz posameznih besed, temveč iz konteksta, sintakse in implicitnih pomenov. Tradicionalne razlagalne metode, razvite za numerične atribute, ne morejo učinkovito zajeti te večdimenzionalnosti jezika.
Dodaten problem je, da različne metode pogosto vodijo do različnih rezultatov. Pomanjkanje standardiziranih meril za ocenjevanje razložljivosti pomeni, da je težko določiti, katera razlaga je „prava“ ali najbolj uporabna. To zmanjšuje zanesljivost in ponovljivost razlag ter odpira vrata subjektivni interpretaciji. Poleg tega mnoge razlage temeljijo na predpostavkah, ki morda niso skladne z dejanskim delovanjem modela – zato obstaja nevarnost, da bi bili uporabniki zavedeni z „navidezno“ transparentnostjo.
Ne gre spregledati niti računske zahtevnosti razlagalnih metod. Nevronske mreže z milijardami parametrov, kot so veliki jezikovni modeli, zahtevajo ogromno računalniško moč že za samo izvajanje napovedi, kaj šele za njihove razlage. V mnogih primerih to pomeni, da razlage niso na voljo v realnem času ali da jih ni mogoče zagotoviti v kontekstih, kjer so strojni viri omejeni.
Zadnji, a nič manj pomemben vidik je predstavitev rezultatov razlage. Tehnološka razlaga, četudi natančna, ni uporabna, če je ne more razumeti končni uporabnik – denimo pravnik, sodnik ali državni regulator. Potrebna je „prevedba“ rezultatov v jezik, ki je prilagojen ciljni publiki. To vključuje oblikovanje vizualizacij, povzetkov, pravno ustreznih pojasnil in uporabniških vmesnikov, ki razlago naredijo ne le dostopno, ampak tudi uporabno v odločanju.
7. Razložljivost za besedilne podatke in veliki jezikovni modeli
Veliki jezikovni modeli (angl. Large Language Models – LLM), kot so ChatGPT, Claude ali Gemini, so danes temelj sodobnih aplikacij generativne UI. Ti modeli so naučeni na obsežnih jezikovnih korpusih in so sposobni generirati besedila, ki so slovnično pravilna, logično povezana in semantično bogata. V pravnem kontekstu se LLM-ji uporabljajo za avtomatizacijo raziskav, povzemanje sodne prakse, ustvarjanje predlogov pogodb ali tolmačenje zakonodajnih določil.
Vendar prav ta zmogljivost prinaša nove izzive. Zaradi velikosti in kompleksnosti teh modelov pogosto ni mogoče razložiti, zakaj je model generiral določen odgovor, zakaj je povezal določene koncepte ali zakaj je izločil druge. Gre za t. i. „črno škatlo“ na steroidih – sistem, ki zmore marsikaj, a ga hkrati skoraj ne moremo razumeti.
Eden izmed ključnih izzivov je razložitev rezultatov pri obdelavi besedilnih podatkov. Besedilna vsebina je visoko dimenzionalna, odvisna od konteksta in polna implicitnih pomenov. Klasične razlagalne metode pogosto odpovejo pri takih nalogah, saj ne zmorejo zajeti kompleksnih povezav med pojmi in konteksti. LLM-ji lahko denimo napišejo pravilen povzetek sodne odločbe, a ni jasno, katere dele izvirnega dokumenta so šteli za relevantne ali katere vire pravnega znanja so implicitno uporabili.
Poleg tega LLM-ji pogosto reproducirajo pristranskosti, ki so prisotne v učnih podatkih. Če ni razložljivosti, ni mogoče ugotoviti, ali je model ustvaril vsebino, ki je diskriminatorna, napačna ali neetična. Brez ustreznih metod za razlago postane uporaba takšnih modelov v pravnem kontekstu zelo tvegana, saj lahko vodi do sistemskih napak ali celo kršitev človekovih pravic.
Zaradi specifične arhitekture in kompleksnosti velikih jezikovnih modelov je bilo razvito več pristopov za njihovo razlago, ki jih lahko razvrstimo v različne kategorije glede na to, kako so modeli naučeni in kako delujejo. Zhao et al. (2024) ponujajo pregledno taksonomijo teh pristopov, ki razlago LLM-jev razdeli glede na dva glavna načina uporabe: paradigmatično učenje prek dodatnega treniranja (finetuning) ter interakcijo prek pozivov (prompting).
Paradigma finetuninga temelji na tem, da se osnovni model, ki je bil predhodno treniran na velikih količinah splošnega besedilnega korpusa, dodatno prilagodi na manjšem, domensko specifičnem sklopu označenih podatkov. Cilj tega dodatnega treniranja je izboljšati zmogljivost modela pri izvajanju nalog, ki zahtevajo specifično znanje – na primer pravno tolmačenje, medicinsko diagnostiko ali finančne analize. Razlagalne metode znotraj te paradigme se zato osredotočajo na vprašanja, kot so: kako dodatno treniranje vpliva na strukturo pozornosti znotraj modela, katere entitete ali besedne zveze pridobijo na pomenu, in kako se s do-trenranjem spreminja semantična reprezentacija besedilnih enot.
Druga paradigma, ki se v zadnjih letih močno uveljavlja, je paradigma pozivov ali prompting. Namesto dodatnega treniranja se LLM-ju zastavljajo naloge prek posebej oblikovanih vhodnih besedil (pozivov), ki vsebujejo navodila, vprašanja ali primere. V tem okviru razlagalne metode iščejo odgovore na vprašanja, kot so: zakaj je model odgovoril na določen način, katere dele poziva je upošteval pri formulaciji odgovora in kateri kontekstni elementi so imeli največji vpliv na rezultat. Poseben izziv v tej paradigmi predstavlja dejstvo, da struktura notranjih reprezentacij modela ni neposredno dostopna, zato razlaga pogosto temelji na opazovanju sprememb v izhodih pri spremembah vhodnih pozivov.
Razumevanje odzivov v obeh paradigmatskih okvirih je zahtevno, saj so modeli zasnovani kot verižni mehanizmi z visoko nelinearno dinamiko. Dodatno kompleksnost ustvarja dejstvo, da lahko majhne spremembe v vhodnih podatkih povzročijo znatne spremembe v izhodih, kar še dodatno otežuje izdelavo stabilnih in ponovljivih razlag.
Poleg teh dveh glavnih pristopov se pojavljajo tudi alternativni eksperimentalni pristopi, kot so vizualizacija pozornosti (angl. attention maps), analiza vpliva posameznih besed ter uporaba kontrastnega učenja za prepoznavanje ključnih razlik v modelovem odzivu glede na variacije v vhodu. Vse te metode skupaj tvorijo hitro rastoče raziskovalno področje, ki poskuša razkriti notranje mehanizme teh modelov, z namenom povečanja njihove zanesljivosti, pravičnosti in regulativne skladnosti.
Slika 1: Razložljivost velikih jezikovnih modelov (LLM) kategorizirana v dve glavni paradigmi: učenje prek dodatnega treniranja (finetuning) in interakcijo prek pozivov (prompting) (Zhao et al., 2024).
10. Zaključek
Razložljiva UI je eden ključnih pogojev za uspešno integracijo UI v družbo. V kontekstu prava razložljivost ni le zaželena, temveč nujna – brez nje ni mogoče zagotoviti zakonitosti, preglednosti in odgovornosti odločitev, ki vplivajo na človekove pravice in pravne položaje. Skozi celoten članek smo pokazali, da razložljivost ni enoznačen pojem, temveč skupek metod, pristopov in institucionalnih mehanizmov, ki skupaj omogočajo vpogled v kompleksne sisteme UI.
Čeprav popolna razložljivost morda nikoli ne bo dosežena – tako kot pri človeškem mišljenju vedno ostaja določena stopnja nejasnosti – to ne pomeni, da moramo opustiti zahteve po nadzoru in odgovornosti. Nasprotno: prav ta omejenost naj bo razlog, da razložljivost zasledujemo z največjo resnostjo in zavzetostjo. Prizadevati si moramo za največjo možno transparentnost, jasnost dokumentacije, odgovoren dizajn in vključitev človeka v odločanje tam, kjer ima to etični in pravni pomen.
Le na ta način lahko UI razvijamo v skladu z vrednotami demokratične družbe – kot orodje, ki dopolnjuje človeško razsodnost, ne pa jo nadomešča; kot tehnologijo, ki služi ljudem, ne pa jih ogroža.
Literatura
● Zhao, J. et al. (2024). A Taxonomy of Explanation Techniques for Large Language Models. Journal of Artificial Intelligence Research.
● Marzidovšek, M. (2024). Explainable Machine Learning Techniques for Applications in Life Sciences: Doctoral Dissertation (Doctoral dissertation, M. Marzidovšek).