Kódolt egyenlőtlenségek? Diszkrimináció az algoritmusok korában

jtiblog

A Jogtudományi Intézet blogoldala

Kódolt egyenlőtlenségek? Diszkrimináció az algoritmusok korában

2021. május 03. 22:20

Körtvélyesi Zsolt

tudományos segédmunkatárs, TK JTI

Számos vita és félreértés övezi azt a kérdést, hogy mi számít mesterséges intelligenciának vagy akár okos robotnak (lásd például az Európai Bizottság meghatározását), mint ahogy az is gyakran előfordul, hogy misztifikáljuk a jelenséget. Ebből kiindulva alább inkább algoritmusokra vagy kódokra utalok, és úgy tárgyalom a felmerülő kérdéseket, hogy azok egyszerre alkalmazhatóak szofisztikált, önállóan tanuló programokra (deep learning), és olyan egyszerűbb programokra is, amelyek nem nevezhetők mesterséges intelligenciának.

Az áttekintésből látható, hogy az egyre összetettebb algoritmusok nem annyira új kérdéseket vetnek fel, mint inkább régóta velünk lévő dilemmákat helyeznek új megvilágításba, ugyanakkor valóban új megoldásokat tesznek szükségessé. Az egyik kapcsolódó jelenség, hogy az emberi hibák hatását az algoritmusok hajlamosak olyan mértékben felnagyítani, amikor azok növelik az egyenlőtlenségeket. Az algoritmusok használata ugyanakkor alkalmat ad arra is, hogy jobban megértsük, mit értünk jogellenes megkülönböztetés alatt, illetve hogyan tehetünk ellene, sőt, az optimista megközelítések szerint kifejezetten abba az irányba hatnak, hogy az egyenlőség szempontját hatékonyabban érvényesítsük a gyakorlatban.

Az algoritmusok jelen vannak olyan területeken, mint a határátlépés engedélyezése, a letartóztatás és a szabadlábra helyezés, az állami támogatásokra vagy a banki hitelekre való jogosultság megállapítása, a munkaerő-felvétel, vagy éppen az iskolai jegyek megállapítása a járvány alatti iskolabezárások után (utóbbira lásd a brit vitákat). Az algoritmusok elterjedése olyan módon alakíthatja át a munkaerőpiacot és az egyenlőtlenségeket, hogy új szociálpolitikai intézkedésekre lehet szükség. Az algoritmusok közvetlenül is befolyásolják a demokráciák működését, a szólásszabadság határait, mint ahogy ezt a technológiai óriáscégeket érő kritikákból ismerjük. A hírfolyamok torzításait egyre nehezebb számon tartani, a hamis hírek terjedéséért viselt felelősséget egyre nehezebb követni, ahogy egyre inkább algoritmusok döntik el, mit olvasunk. Új egyenlőtlenséghez vezet, hogy valaki jó minőségű, válogatott (gyakran fizetős) vagy ömlesztett, ellenőrizetlen (és ingyenes) híreket követ, vagy hogy kritikus olvasással képes ellensúlyozni szofisztikált algoritmusok manipulatív hatását.

Vannak életek, amelyeket még közvetlenebbül befolyásolhat az algoritmus működése, például ha egy programon múlik, hogy valaki szabadon vagy rács mögött tölti el a következő éveit. Ez az írás büntetőjogi és rendészeti példákból kiindulva vizsgálja, milyen egyenlőségi dilemmákat vet fel az algoritmusok tömeges használata.

Részrehajlás a büntetőjogi és a rendészeti munkában

Egy gyakran tárgyalt amerikai példa jól mutatja a részrehajló rendészeti és bűnügyi algoritmusok által felvetett kérdéseket. Az Egyesült Államokban a bűnözői visszaesés valószínűségét megbecslő, bírói döntésekhez használt COMPAS algoritmus 70%-os biztonsággal végezte el a számítást. Ugyanakkor fekete elkövetők esetében közel kétszer akkora valószínűséggel tévedett az érintett hátrányára (tévesen jelezve, hogy az illető a „nagyon veszélyes” kategóriába esik), és fehér elkövetők esetében közel kétszer akkora valószínűséggel tévedett a másik irányba (tévese jelezve, hogy az illető a „nem veszélyes” csoportba tartozik). Egy ilyen algoritmus széleskörű használata önmagát erősítheti, hiszen részben a diszkriminatív döntések eredménye az lesz, hogy több fekete elkövető és hosszabb ideig lesz rács mögött, megerősítve azt a képet, hogy ők egyben veszélyesebbek is.

Ebben a konkrét esetben az algoritmus nem közvetlen rasszt kódolt, hanem közvetítő jegyeken keresztül valósított meg rassz-alapú diszkriminációt. A dilemmát még nehezebb feloldani, ha végigzongorázzuk ezeket a kevésbé gyanús besorolási tényezőket, mint például a családi háttér, lakóhely, vagyoni helyzet, foglalkoztatottság, iskolázottság, amelyek önmagukban nem feltétlenül gyanúsak, de diszkriminációhoz vezethetnek. A statisztikai alapon dolgozó kód könnyen kategorizálja ezeket a tulajdonságokat mint a visszaesés valószínűségét befolyásoló tényezőket. Ez ahhoz vezethet, hogy a szegényebbeket, a kevésbé iskolázottakat stb. immár közvetlenül és szisztematikus módon kezeli hátrányosabban a rendszer. Hasonló következtetésekre jutott egy amerikai egészségügyi algoritmust vizsgáló tanulmány: az algoritmus az egészségügyi kiadások alapján rangsorol betegeket, és ennek révén sorolja szisztematikusan hátrébb az afroamerikaiakat. Az algoritmusok működése így elvezet a diszkrimináció egyik alapkérdéséhez, az egyéniesítés hiányához, a kollektív, csoporthoz tartozás alapján hozott döntés kérdéséhez, illetve a nem megfelelő egyéniesítéshez.

Hasonlóan zárt működésű programok segítik a bankokat hitelnyújtáskor, mint ahogy számos rendészeti döntésben is szerepet játszanak. Példa rá a határellenőrzés, és hogy számos szerv kezdett el arcfelismerő programokat használni. Utóbbira reagálva több helyen döntöttek az arcfelismerő szoftverek ilyen célú használatának tiltásáról, az Amnesty International más szervezetekkel együtt New Yorkban kampányt is indított hasonló tiltást követelve. Az egyik közkeletű példája az összetett algoritmusok részrehajlásának éppen az arcfelismerő algoritmusok működése során tapasztalt probléma, hogy ezek a programok nehezebben azonosítják a sötétebb bőrszínt. Ez egyrészt jelenthet diszkriminációt abban az értelemben, hogy bőrszíntől függően valaki ugyanazért a pénzért rosszabbul használható applikációt kap. Ugyanakkor a rendészet területén alkalmazott arcfelismerés jelenthet alkalmi személyes előnyt (nehezebb egy feltételezett elkövető nyomára akadni), mint ahogy súlyos hátrányt is. Nem bőrszínnel összefüggő, de hasonló téveséről számoltak be a Capitolium 2021. január 6-ai ostromát követő nyomozások során: beszámolók szerint több esetben előfordult, hogy hibás azonosítás miatt tévedésből állítottak elő embereket.

Egy hozzánk közelebbi példa a hazai igazoltatási gyakorlatban észlelt diszkrimináció és az ehhez kapcsolódó vita, amely részben éppen az eredményességi szempont körül forgott. Mérő László egy 2009-es írásában amellett érvelt, hogy ha a rendőrök száz igazoltatásból nagyobb arányban találnak szabálytalanságot roma igazoltatottak esetén, mint ha nem romákat igazoltatnának, akkor racionális és indokolt, ha inkább romákat állítanak meg – igen széles körben legitimálva az etnikai profilalkotást. Félretéve azt a kérdést, hogy hogyan (milyen megbízhatóan és milyen felhatalmazással) végzik el a rendőrök az etnikai azonosítást, a meglátás a rendőri munka céljának korlátozott és ezért téves felfogásán alapszik. Annak csak egyik eleme a konkrét elkövetők azonosítása, ugyanilyen fontos a lakosság bizalmának megszerzése és megőrzése, annak közvetítése, hogy tisztességes, egyenlő módon járnak el, és eljárásukban statisztikai alapon igazolhatónak tűnő etnikai megkülönböztetés sem jelenik meg munkájuk során. (Itthon végzett, erre vonatkozó kutatás alapján ráadásul cáfolhatjuk a kiinduló állítás alapfeltevését: a rendőrök által romaként azonosítottak esetén nem volt magasabb a „találati arány”.) Hasonlóan szükséges biztosítani, hogy a szofisztikált algoritmusok – amelyek a profilalkotásban egyre fontosabb szerepet kapnak – ebben az értelemben felelős eszközök maradnak.

A fenti példáktól elrugaszkodva, tegyük fel, hogy az algoritmusból annak árán törölhető a részrehajlás, hogy közben csökken a megbízhatósága. Az algoritmusok használata arra kényszerít minket, hogy ilyen esetekben mérlegeljük, hogy milyen mértékű „félrehordás” tolerálható, egyáltalán van-e az ilyen rendszerszintű megkülönböztetésnek elfogadható szintje. Ráadásul a büntető igazságszolgáltatás és a rassz vizsgálata egy egyértelműbb területnek tűnik: számos olyan kérdés van, ahol a megkülönböztetés jogellenességét sokkal nehezebb eldönteni. Elfogadható-e, ha hitelkihelyezési algoritmusok túlbiztosítanak, és túlzott hátránnyal sújtják az idősebbeket és a szegényebbeket? Jogellenes megkülönböztetés-e, ha a szakértelmet vagy a hosszabb távú munkavállalást igénylő munkakör betöltéséhez az algoritmusok külön büntetik a pályájuk elején álló, vagy éppen végéhez közelítő jelölteket? Az algoritmusok egyenlőségi vizsgálatához részletekbe menően tisztázni kell, milyen megkülönböztetés és milyen mértékben engedhető meg.

Az antidiszkriminációs jogban szokás elkülöníteni azt, amikor van megkülönböztetési szándék (például valaki kifejezetten rasszista megfontolásból részesít másokat hátrányban), illetve azt, amikor diszkriminatív szándék nélkül áll elő egy csoportot hátrányosan érintő hatás (például a délután négyre szervezett munkahelyi megbeszéléseken az iskolások szülei kisebb eséllyel tudnak részt venni). Könnyen belátható, hogy az algoritmusok működésében a diszkriminációs megközelítésnek az a vonulata releváns igazán, amely nem a diszkriminációs szándékot vizsgálja, hanem a diszkriminatív hatásból indul ki. A szándékkal ellentétben a hatás ugyanis világosan megjelenik a statisztikákban, amelyek alapján a programok következtetéseket vonnak le új helyzetekre nézve. Éppen ezért fontos az alapul szolgáló adatok minősége: előfordul, hogy nem maga az algoritmus logikája, hanem az adatbázis részrehajló, amelyen a kód fut.

A begyűjtött adatok minősége

Az algoritmusok gyakran elképesztő méretű adattömeggel dolgoznak. Az első kérdés ezért az lehet, milyen módon gyűjtötték össze ezeket az adatokat, ami egyszerre vet fel adatvédelmi és tágabb kérdéseket, például, hogy az adatok összetétele mennyiben reprezentatív, mennyiben tükrözi a társadalom vagy akár (világszerte alkalmazott algoritmusok esetén) az emberiség sokféleségét. Egyre inkább előfordul, hogy az adatok nem állami szereplőknél, hanem olyan vállalatoknál (Google, Facebook) gyűlnek össze, ahol sem a társadalmi felügyelet, sem a hozzáférés nem biztosított. A koronavírus járvány időszaka mutatott rá arra, hogy esetenként az állam milyen módon kiszolgáltatott annak, milyen mértékben és módon engednek hozzáférést ezek a vállalatok a kormányzati döntéshozatalt nagyban segítő adatokhoz. Ugyanakkor mindennemű adatéhség, így az állami is, hagyományos adatvédelmi problémákat is felvet.

Az algoritmusok által felvetett diszkriminációs problémák gyakran már az adatmintában jelen vannak, az algoritmus pedig ezt termeli újra a működése során. Más megfogalmazásban: nem az algoritmusok működése előítéletes, hanem az algoritmusok a működésük során tanulják meg tőlünk a társadalomban elterjedt előítéleteket. Például amikor a „tehetség” vagy a „boldog” szavakat inkább a fehér többséggel társítják a programok, vagy amikor egy (dél-)koreai csevegőrobot (chat bot) gyűlöletbeszédbe kezdett, s ezért gyorsan leállították.

(Újra)tervezés

Gyakran felmerülő kritika szerint a diszkrimináció tilalma a rendészet számos területén nem kérhető számon, mivel a munka olyan megérzésekre épít, amelyek esetenként ugyan minősülhetnek diszkriminatívnak (például mert az áldozat szerint „indiai kinézetű” volt az elkövető), de ennek hiánya ellehetetlenítené az érdemi munkavégzést. A diszkrimináció tilalma számos esetben nem zárja ki, esetenként pedig igényli az elkövetők és az áldozatok hovatartozásának azonosítását (ellenkező esetben például nehéz lenne diszkriminatív mintázatokat, gyakorlatot, hatást és közvetett diszkriminációt bizonyítani). Az algoritmusok használata és a tömeges adatgyűjtés (big data) gyakorlata valójában új lehetőséget teremt arra, hogy a korábban rejtve maradó gyakorlati lépéseket nyilvánosan megvitatva döntse el egy politikai közösség, hogy mi megengedhető, és mi számít jogellenes megkülönböztetésnek.

Ezzel függ össze az a törekvés is, hogy a rendszereket tervezők körében biztosítsák a sokféleséget, vagyis a társadalom sokszínűségét. Egy egyszerű példával élve: ha az arcfelismerés hatékonyságát magukon tesztelő programozók valamennyien világos bőrűek, az könnyebben vezet el a fentebb érintett problémához, a sötét bőr nehezebb felismeréséhez (vagy, ahogy egy dokumentált esetben történt, az emberek majmokkal való azonosításához), mint ha a tesztelés eleve diverz környezetben zajlana. Ha igaz az, hogy az algoritmusok használata felerősítheti a rendszerben egyébként is jelenlévő implicit részrehajlásokat, akár csak a standardizálás révén, akkor indokolt különös figyelmet fordítani arra, hogy tudatosítva ezeket a nem kívánt diszkriminatív hatásokat, fellépjünk ellenük. Ezt szolgálhatja a tervezett követés, felügyelet, átláthatóság és jogorvoslat.

Ezen szempontokat érvényesítik a 2021. április 21-én közzétett európai szabályozási javaslatok, amelyeknek része a határozott törekvés az egyenlőségi megfontolások érvényesítésére. Egy londoni kutatócsoport, a JUST AI átfogó egyenlőségi elvárásokat fogalmazott meg a mesterséges intelligencia működése kapcsán, amely magában foglalja a rasszalapú („faji”), a gazdasági és a környezeti egyenlőségen túl azt a törekvést, hogy a mesterséges intelligencia társadalmi hatásait megismerve mérjük fel, azok vajon számot tarthatnak-e a közbizalomra és akár állami támogatásra.

Milyen egyenlőséget?

Az írás zárásaként azt fogom érzékeltetni, hogy az általános egyenlőségre törekvés nem feltétlenül igazít el abban a kérdésben, hogy pontosan mit várunk el az algoritmusoktól, amikor a diszkrimináció hiányát kérjük számon rajtuk. A kódok használata részben éppen ezzel teremt alkalmat arra, hogy újra átgondoljuk a jogellenes és az elfogadható megkülönböztetés határait. Az egyik fontos változás, hogy az adatbőség és az eleve ezekre épített algoritmusok könnyebbé tehetik a rendszerszinten regisztrálható egyenlőtlenségek felismerését és az azokkal szembeni fellépést. Cass Sunstein ezt a jelenséget „új átláthatóságnak” hívja. Például egyértelművé tehetjük, hogy a célunk a diszkriminatív hatás kiszűrése, akár az emberi döntések eredményeként előállt egyenlőtlenségek algoritmikus kiigazításával, vagy hogy a kisebbségeket hátrányosan érintő trendeket akarjuk eltörölni úgy, hogy ragaszkodunk a lakosságarányos büntetéskiszabáshoz. Az alábbi táblázatban ezt Kleinberg és szerzőtársai adatain keresztül mutatom be.

	Előzetes letartóztatás elrendelésének aránya			Bűnelkövetés változása az emberi döntéshez képest
	Afroamerikaiak	Hispán lakosság	Kisebbségi átlag	Bűnelkövetés változása az emberi döntéshez képest
Emberi döntés (bíró)	31%	25%	29%	(0%) – összehasonlítási alap
Algoritmus 1: ugyanazon bűnelkövetési szintet tartva	19%	14%	17%	0%
Algoritmus 2: ugyanazon fogva tartási számot tartva	32%	24%	29%	-24,68%
Algoritmus 3: a kisebbségi arányokat tartva	31%	25%	29%	-24,64%
Algoritmus 4: a kisebbségi arányok kiegyenlítésével	26%	26%	26%	-23,02%

Kisebbséghez tartozás és előzetes letartóztatási gyakorlatok összehasonlítása

Forrás: Jon Kleinberg, Himabindu Lakkaraju, Jure Leskovec, Jens Ludwig és Sendhil Mullainathan, Human Decisions and Machine Predictions, Quarterly Journal of Economics 133, no. 1 (2018): 237–93, Table VII (a kisebbségek arányát egész számokra kerekítve).

A táblázatból leolvasható, hogy attól függően, milyen célt fogalmazunk meg, az egyenlőség és az eredményesség eltérően alakul. Mindez azért kíván új és pontosabb szabályozást, mert az, hogy milyen hatással jár az egyik vagy másik algoritmus alkalmazása, sokkal pontosabban becsülhető, mint emberi döntések esetén. Az emberi döntésekkel egyező bűnelkövetési szintet megcélozva az algoritmusok jelentősen csökkentik a fogva tartás arányát, ennyivel kevesebb ember szabadságát vesszük el, és ennyivel kevesebb terhet rovunk az államra (Algoritmus 1). Ha az a célunk, hogy a fogva tartási arányt szinten tartva a lehető legnagyobb mértékben növeljük az eredményességet, vagyis a bűnelkövetést csökkentsük, akkor negyedével csökkenthető az elkövetett bűncselekmények száma (Algoritmus 2). Érdemben nincs változás ez utóbbi szempont szerint, ha egyúttal azt kérjük kódolni, hogy a bírói döntésekre jellemző kisebbségi arányokat tartsa a program (Algoritmus 3). Amennyiben a kisebbségekhez tartozókat arányosan sújtó előzetes letartóztatási gyakorlat kialakítása a célunk, a program a bűnelkövetési ráta kisebb csökkenése mellett ezt is elvégzi (Algoritmus 4).

Jól látható, hogy a szabályozás kialakításánál kompromisszumra kényszerülünk, hiszen nem tudjuk a legkisebb bűnelkövetési rátát érvényesíteni teljes (paritásos) egyenlőség mellett. A példa azt mutatja, hogy a kódok biztosította „új átláthatóság” mellett nem elég általánosan megfogalmazni az egyenlőségi célokat (ne diszkrimináljon a rendszer), hanem konkrét választ kell adnunk, pontosan milyen szempont szerint mért egyenlőséget kívánunk elérni, és például a bűnelkövetés 1%-os növekedése elfogadható ár-e azért, hogy cserében a különböző kisebbségekhez tartozó vádlottak egyenlő esélyekkel szabadlábon védekezhetnek.

A fentiek azt is illusztrálják, hogy fontos választóvonal húzódik az aritmetizálható és a programok nyelvére le nem fordítható döntési elemek között. Kérdés, hogy a diszkrimináció melyik körbe tartozik: az azonos helyzetben lévő csoportok, egyének összevetését vagy a szükségességi-arányossági teszt alkalmazását a jövőben számítógépekre tudjuk-e bízni.

Egy következő bejegyzésben azt fogom vizsgálni, hogy milyen dilemmákat és felelősségi kérdéseket vet fel az algoritmusok használata a jogi döntéshozatalban.

_____________________________________________

Készült a Mesterséges Intelligencia Nemzeti Laboratórium keretében az Innovációs és Technológiai Minisztérium, valamint a Nemzeti Kutatási, Fejlesztési és Innovációs Hivatal támogatásával.

_____________________________________________

Az írás a szerző véleményét tartalmazza, és nem értelmezhető a TK hivatalos állásfoglalásaként.