Per què i com s’avaluen els algoritmes?
Comparteix
Per a que siguin eficaços i reflecteixin resultats reals, han de ser processos quantitatius i qualitatius, duts a terme per una varietat d’agents en interdependència.
Els algoritmes són passos o seqüències que instrueixen un programari d’intel·ligència artificial en la consecució d’uns resultats específicament determinats. El seu benefici principal, vinculat al que ofereix la IA, és l’augment de l’eficàcia de qualsevol procés on estiguin implicats. La problemàtica primordial, per altra banda, és la possibilitat que continguin biaixos que, a causa de l’extensió, cada cop més amplia, de l’ús d’IA als diferents procediments informàtics de gestió pública, tinguin una afectació no desitjada en la vida de les persones.
És per això que avui en dia cada cop són més les entitats i institucions que demanen i treballen per la detecció d’aspectes problemàtics en els sistemes algorítmics. El document ‘Herramientas y metodologías para la auditoria y la evaluación de algoritmos’, de Digital Future Society, presentat el 28 de febrer en el marc de la jornada ‘Intel·ligència artificial i drets socials: riscos i oportunitats’ del projecte m4Social de la Taula d’entitats del Tercer Sector Social al Mobile World Congress, sota el paraigua de la Fundació Mobile World Capital, recull les raons darrere la necessitat de la detecció d’aquestes problemàtiques i ofereix algunes eines per a avaluar-les i contribuir a la seva mitigació.
A continuació, s’ofereix un resum d’aquest informe, amb l’objectiu d’introduir a les entitats del tercer sector, tecnològiques o no, a aquest àmbit de treball i lluita per la defensa d’uns drets tan digitals com socials.
Per què avaluar els algoritmes
La de la IA i els algoritmes està sent anomenada la ‘Quarta Revolució Industrial’, i molts actors consideren que analitzar aquests sistemes és imperatiu, entre altres coses perquè no és possible saber quina direcció prendran en el futur.
Concretament, l’informe de Digital Future Society recull quatre raons que argumenten sobre la necessitat d’avaluar amb deteniment els sistemes algorítmics. La primera és que l’impacte de la IA i els algoritmes és directament tangible, és a dir, que ja existeixen evidències dels seus impactes negatius, actuals i potencials. Per exemple: biaixos de gènere, exclusió de persones en situació de vulnerabilitat de determinats serveis públics, impactes en el medi ambient...
Una altra raó que esmenta l’informe és que les accions d’avaluació i auditoria han estat part essencial del procés d’instauració de molts altres sistemes precedents, tecnològics o no, com és el cas de l’anàlisi financera, el càlcul de l’impacte social i ètic, la rendició de comptes pel que fa als drets humans o la privacitat...
Una tercera raó, vinculada a l’anterior, que assenyala el document és el fet que l’avaluació d’algoritmes és una obligació ètica que ja està quedant plasmada a l’àmbit legal en alguns casos, encara que de manera nímia i amb moltes variacions segons l’estat. A la Unió Europea, però, sí que s’aposta, com a mínim, per un enfocament regulador. S’espera, però, que aquesta sigui la perspectiva adoptada en els pròxims anys de manera global.
Una última raó és que l’avaluació algorítmica és, per davant de tot, una qüestió socio-tècnica, la qual cosa vol dir que més enllà de fer auditories en relació amb l’àmbit tecnològic de la IA, cal traspassar la preocupació a l’esfera pública i social, cercant no només els biaixos en la programació dels sistemes sinó en la seva arrel pública i estructural.
Tipus d’avaluació d’algoritmes
L’avaluació o auditoria d’algoritmes és un mecanisme que permet identificar comportaments problemàtics d’aquests sistemes, sempre determinats i concretats: biaixos en les decisions, danys potencials, riscos en termes de drets humans o privacitat, o impacte en els drets o interessos de col·lectius.
Les diferents dimensions en les avaluacions d’algoritmes són: focus, locus, actors promotors, actors externs, moment, orientació a la normativa, tema, àmbit, nivell d’accés i metodologia.
- Focus
El focus de l’avaluació dels algoritmes pot ser tècnic, quan es vol entendre merament el funcionament de l’algoritme i els seus codis i models, o holístic, que és una perspectiva més àmplia que se centra en la comprensió del context, les estructures i els actors que s’activen en el desplegament de l’algoritme i que poden influir en els seus resultats. L’informe objecte d’aquest recurs recomana combinar ambdues visions.
- Locus
L’avaluació dels algoritmes pot ser interna, si el procés es desenvolupa en el marc d’una organització concreta, o externa, si té lloc en altres entorns de manera independent.
- Actors promotors
Els actors o institucions que impulsen el procés d’avaluació dels algoritmes poden ser actors primaris, és a dir el personal de la pròpia organització que genera els algoritmes, que mai sol fer públics els resultats; secundaris, si es tracta d’institucions i empreses externes que són contractades per l’organització generadora dels algoritmes, i per la qual cosa no són totalment independents; o tercers, que investiguen els algoritmes de manera independent, normalment amb l’objectiu de sensibilitzar la ciutadania o denunciar l’organització.
- Rol dels actors externs
Segons la implicació de les comunitats afectades i del públic general en l’auditoria dels algoritmes, aquestes poden ser no participatives, si només les desenvolupen especialistes sense la consideració dels actors externs, o participatives, si, amb l’objectiu d’aportar diversitat i perspectives diferents a l’avaluació, s’hi impliquen les visions de les persones que s’hagin pogut veure afectades pel funcionament dels algoritmes. En aquest cas s’involucra a la ciutadania, a organitzacions de la societat civil, a entitats...
- Moment
L’informe recull que el més aconsellable és fer una auditoria continuada dels algoritmes, durant tot el seu cicle de vida. Tanmateix, també s’identifiquen dos moments, les avaluacions ‘ex ante’, que es fan prèviament a la implementació de l’algoritme, i les avaluacions ‘ex post’, que venen a ser les auditories que es fan quan l’algoritme ja està en marxa.
- Orientació a la normativa
Una altra forma de classificar les avaluacions dels algoritmes és segons el seu grau d’obligatorietat. En aquest sentit, hi ha aquelles auditories que són obligades per llei, que són totalment vinculants, i aquelles que compleixen un marc normatiu més ampli, com aquelles que s’orienten a recomanacions generals o disposicions ètiques. D’altra banda, també pot ser que les avaluacions no tinguin a veure amb una normativa regulada, i que, per tant, es realitzen com una alineació a bones pràctiques, per exemple per a contribuir a la igualtat de gènere.
- Tema i àmbit
El més usual és que l’avaluació dels algoritmes es faci en el marc d’una temàtica concreta. Així, pot haver-hi tants tipus d’avaluació com temes, però sí que se sol fer una classificació en tres paraigües de continguts: dades i transparència, ètica general i drets humans.
Relacionat amb això, l’abast de l’auditoria pot variar depenent dels objectius i recursos que es tenen, per la qual cosa pot ser que s’avaluï un aspecte concret de l’algoritme o tot el seu cicle de vida.
- Nivell d’accés
Depenent de la resta de factors, l’accés a les dades per a desenvolupar l’avaluació d’algoritmes pot ser més o menys gran. En aquest sentit, l’informe recull set nivells d’accés que tenen la caixa blanca (es coneixen totes les dades) en un dels extrems, i la caixa negra (només es poden fer observacions indirectes del sistema), a l’altre.
- Metodologia
En l’avaluació d’algoritmes cal distingir, sobretot, entre les auditories, que analitzen el funcionament dels algoritmes segons uns criteris específics (hipòtesis sobre biaixos o estàndards que estableixen les regulacions), i les avaluacions d’impacte, amb un enfocament més ampli (possibles riscos del sistema abans de la seva implementació o impactes produïts posteriorment).
Mètodes de les avaluacions
Hi ha molts i diversos mètodes per a avaluar algoritmes, i el seu ús depèn dels objectius de l’autoria i els recursos disponibles, així com de la dimensió de la qual tracten. L’informe objecte d’aquest recurs recull un total de 10 mètodes per a avaluar algoritmes, les claus dels quals es resumeixen a continuació.
- Auditories de codi
L’objectiu de l’avaluació que es fa amb aquesta metodologia és avançar cap a la transparència algorítmica, i se centra en l’avaluació de tipus tècnic. Per fer-ho, s’analitza el codi font per a identificar els aspectes problemàtics que poden provocar resultats no desitjats. Sol dur-se a terme des de l’interior de la pròpia organització, perquè demana un accés complet a informació que pot ser sensible.
- Scraping
Aquesta avaluació consisteix a interactuar de manera intensiva amb l’algoritme des de l'organització per a avaluar el seu funcionament i resultats, per la qual cosa té lloc sempre un cop ja s’ha posat en marxa l’algoritme. És, com l’anterior, una auditoria tècnica, però en aquest cas no cal l’accés complet a la informació sobre el codi font, per la qual cosa pot ser duta a terme per un agent extern.
- Sock puppet
És similar a l’anterior metodologia, però la interacció amb l’algoritme la tenen programes que simulen ser usuaris del sistema. Com es tracta d’una interacció entre dos sistemes, la informació avaluable que s’obté com a resultat del procés és més detallada en relació amb les variables específiques que es volen estudiar que en el cas de l’scraping.
- Carrier puppet
Un mètode similar al sock puppet en què un programa pren el paper d’una persona, però en comptes de tractar-se del rol d’usuari, agafa el de desenvolupador. Això vol dir que l’objectiu de l’avaluació no és el sistema finalitzat, sinó una fase intermèdia del mateix, en què el que es busca és precisament identificar les problemàtiques en el desenvolupament de l’algoritme. Sol ser una metodologia utilitzada per a impulsar bones pràctiques.
- Auditoria col·laborativa
Aquesta metodologia és semblant a l’scraping, però en aquest cas la interacció amb el sistema la fan persones usuàries que són contractades per a fer proves reals del sistema. Això vol dir, però, que el procés té lloc abans de llançar l’algoritme. Pot ser una bona estratègia per a garantir el compliment de les obligacions legals o normatives. La participació en aquest cas no és totalment externa en el sentit que les persones usuàries contractades han de seguir unes instruccions, per la qual cosa no necessàriament inclou agents afectats per l’algoritme.
- Anàlisi estadística
En aquest cas s’analitzen les dades que resulten del sistema després de fer-lo servir. L’objectiu d’aquest mètode és identificar aspectes problemàtics concrets, però és més limitat que l’anàlisi del codi. Pot ser útil per a complementar altres mètodes.
- Checklists
També anomenats ‘llistes de verificació’, aquests processos parteixen de definir una sèrie d’indicadors prèviament a l’avaluació. S’inclouen preguntes sobre qüestions específiques, per la qual cosa pot ser útil contractar o col·laborar amb una consultoria externa que proposi temàtiques.
- Enquestes a persones usuàries
Les també anomenades ‘auditories no invasives’ serveixen per a conèixer aspectes sobre algoritmes ja implementats. Ve a ser el mateix que les auditories col·laboratives, però en aquest cas ja no es tracta d’un ús simulat del sistema, sinó que es parteix de casos i experiències reals. Al centre d’aquesta avaluació estan les persones usuàries, de les quals es recullen les percepcions per a obtenir informació sobre el funcionament real del sistema. Pot fer molt servei com a complement a altres procediments més tècnics, i el seu ús és molt recomanat quan no és possible dur a terme cap altre procediment.
- Workshops
El procediment d’avaluació del ‘workshop’ o grup focal implica incorporar persones usuàries al procés d’avaluació algorítmica, un procediment que serveix de complement a la metodologia anterior. Es tracta d’organitzar trobades amb persones que hagin pogut ser afectades pel funcionament de l’algoritme, de manera que no només ajudaran a millorar el sistema, sinó que també tindran un espai on ser escoltades. Aquesta iniciativa aportarà un enfocament més holístic a l’avaluació, i permetrà explorar qüestions que potser no s’havien tingut en compte.
- Estudis de cas i històries de desenvolupament
Aquesta metodologia és similar al que es coneix com a ‘etnografia digital’, i ofereix un acostament molt més profund a la dimensió més social del sistema. Els estudis de cas, concretament, impliquen l’observació directa, l’entrevista i altres mètodes qualitatius per a captar les dimensions sociotècniques dels algoritmes. Les històries de desenvolupament, per altra banda, consisteixen en traçar tot el procés de desenvolupament d’un algoritme per a identificar problemàtiques. Depenent de l’enfocament, es pot acudir a les comunitats afectades o dur-lo a terme únicament amb el personal de l’organització.
Ecosistema d’avaluació d’algoritmes
Per a que una avaluació d’algoritmes sigui eficaç, és primordial que es desenvolupi en un ecosistema divers d’organitzacions d’àmbits i sectors diferents (públic, privat i social; salut, educació, energia...). La interacció entre els diferents agents i l’entorn en què s’usa la IA és essencial per a fer una auditoria amb un impacte real sobre el desenvolupament dels algoritmes, en tant que aquests, al seu torn, també afecten diverses capes de la societat.
L’informe estableix tres nivells de governança en els quals analitzar aquests ecosistemes: macro, mezzo i micro.
- Nivell micro: públic, privat i social
En el marc més ampli d’interacció, l’avaluació de l’algoritme ha d’incloure la interacció entre els sectors públic, privat i social. Així, no és només necessària la interacció entre el mercat que genera i marca les dinàmiques de la tecnologia i l’administració que les utilitza, i que n’hauria de liderar l’avaluació, sinó que el sector social, com a representant de la societat civil, ha de tenir un rol protagonista per a garantir la transparència en els processos i que la veu de les persones afectades és escoltada.
A més, les entitats poden contribuir a determinar com s’equilibra la relació entre administració i mercats, així com a establir valors que determinin la col·laboració.
- Nivell mezzo: sectors d’activitat
Qualsevol sector d’activitat pot beneficiar-se de sistemes d’IA per a millores com l’automatització d’algunes tasques. Per això, és necessari establir mecanismes de rendició de comptes per als algoritmes individualitzats per a cada sector, ja que les situacions problemàtiques que es poden produir poden variar. A més, i tot i aquesta individualització, també cal tenir en compte les interrelacions entre sectors.
Així, si bé és imperatiu parar especial atenció als sectors que tenen més impacte i influència en la vida de les persones (com l’ordre públic, la justícia, les finances, la gestió de fronteres, els serveis bàsics...), tots els sectors que utilitzen els algoritmes en els seus sistemes (que són cada vegada més) haurien de ser auditats.
- Nivell micro: actors amb un paper
Un últim nivell de governança en els processos d’avaluació d’algoritmes són els actors que tenen un paper directe o indirecte en el seu desenvolupament. La seva interrelació és necessària per a una avaluació profunda dels sistemes algorítmics.
Pel que fa als agents amb un paper directe, l’informe identifica tres tipus d’actors: personal de les organitzacions que utilitzen els algoritmes, consultores o organitzacions especialitzades i organismes avaluadors. D’altra banda, els actors amb un paper indirecte que és aconsellable que participin de l’avaluació d’algoritmes són les persones usuàries, el personal de les organitzacions que implementen els algoritmes, les entitats de regulació o supervisió, les empreses que desenvolupen els algoritmes i les organitzacions de la societat civil.