A che servono gli algoritmi nei tribunali statunitensi

Nel febbraio del 2013 Eric Loomis è stato fermato mentre guidava un’automobile usata durante una sparatoria nel Wisconsin, Stati Uniti. Loomis è stato arrestato con l’accusa di non essersi fermato al controllo della polizia. Il giudice che ha stabilito la pena non si è basato solo sulla fedina penale, ma anche sul punteggio assegnato all’imputato da un software chiamato Compas.

Sviluppato da un’azienda privata chiamata Equivant (in precedenza Northpointe) Compas è l’acronimo di Correctional offender management profiling for alternative sanctions, ed è stato presentato come capace di prevedere il rischio che un imputato commetta nuovamente un reato. Funziona attraverso un algoritmo, coperto da brevetto, che prende in considerazione alcune risposte date a un questionario di 137 domande.

Compas è uno dei tanti algoritmi di valutazione del rischio usati negli Stati Uniti per prevedere dove si concentreranno i reati, decidere che tipo di supervisione usare con un detenuto o, come nel caso di Loomis, fornire informazioni che potrebbero essere utili in tribunale. Compas ha classificato Loomis come una persona ad alta propensione a ripetere lo stesso reato, e l’uomo è stato condannato a sei anni di prigione.

Loomis ha presentato appello in base al fatto che il giudice, prendendo in esame i risultati di un algoritmo il cui funzionamento è segreto e non può essere esaminato, non gli ha garantito un processo equo. L’appello è giunto fino alla corte suprema del Wisconsin, che si è pronunciata a sfavore dell’uomo, sostenendo che il verdetto sarebbe stato lo stesso anche senza l’uso di Compas. Nella loro sentenza, tuttavia, hanno invitato alla cautela e a esercitare il dubbio nell’uso dell’algoritmo.

Secondo un’inchiesta pubblicata nel 2016 da ProPublica, l’algoritmo discrimina gli afroamericani

La cautela è d’obbligo anche per Julia Dressel e Hany Farid, due ricercatori del Dartmouth college, nello stato del New Hampshire. In uno studio recente pubblicato su Science Advances hanno dimostrato che, nel valutare la potenziale recidività di un individuo, Compas non è più affidabile di un gruppo di volontari scelti a caso su internet.

“Immaginate di essere un giudice e che il vostro tribunale usi questo software. Le persone che l’hanno realizzato sostengono di avere accesso a una grande quantità di dati e algoritmi, e il loro software afferma che l’imputato è ad alto rischio”, dice Farid. “Ora immaginate che io vi abbia raccontato di aver chiesto a venti persone scelte a caso in rete se questa persona correva il rischio di commettere nuovamente un reato, e che loro abbiano detto di sì. Che peso dareste a queste due informazioni? Sono sicuro che gli dareste due pesi diversi. Ma quello che abbiamo scoperto dovrebbe far riflettere i tribunali” (una portavoce di Equivant ha rifiutato di rilasciare un’intervista).

Compas è già stato al centro di polemiche in passato. Nel 2016 la giornalista specializzata in tecnologia Julia Angwin, insieme ai suoi colleghi di ProPublica, ha analizzato le valutazioni di Compas su oltre settemila persone arrestate nella contea di Broward, in Florida, e ha pubblicato un’inchiesta in cui sostiene che l’algoritmo ha dei pregiudizi nei confronti degli afroamericani. I problemi sono causati dagli errori dell’algoritmo.

“I neri hanno quasi il doppio delle possibilità dei bianchi di essere etichettati come ‘ad alto rischio’ pur non incorrendo poi in recidiva”, ha scritto il gruppo di ricerca. E Compas “commette l’errore opposto tra i bianchi: hanno molte più possibilità dei neri di essere etichettati come ‘a basso rischio’, ma poi commettono altri reati”.

Northpointe ha messo in dubbio l’analisi di ProPublica, come anche vari accademici, facendo notare, tra le altre cose, che il programma ha previsto correttamente i casi di recidiva sia dei bianchi sia dei neri. Per qualsiasi punteggio dato sulla scala da uno a dieci di Compas, un bianco e un nero hanno la stessa probabilità di commettere nuovamente un crimine. Altri hanno affermato che questo dibattito si fonda su una definizione soggettiva di equità, e che è matematicamente impossibile soddisfare gli standard stabiliti sia da Northpointe sia da ProPublica, come spiega chiaramente un articolo del Washington Post.

Poche semplici regole
Secondo Dressel questo dibattito nasconde un altro problema. “Le discussioni partivano dal presupposto che gli algoritmi riescano a fare previsioni meglio degli esseri umani”, sostiene, “ma non c’è nessuna ricerca che lo dimostri”. Di conseguenza Farid e Dressel hanno deciso di condurne una per loro conto.

Hanno reclutato quattrocento volontari attraverso un sito di crowdsourcing. Ogni volontario ha letto una breve descrizione degli imputati presi in esame dall’indagine di ProPublica, che metteva in evidenza sette informazioni. Su questa base dovevano giudicare se l’imputato avrebbe commesso un altro reato nell’arco di due anni.

In media hanno risposto correttamente nel 63 per cento dei casi. La precisione del gruppo è salita al 67 per cento quando le loro risposte erano raggruppate. Compas, invece, è stato preciso al 65 per cento: un po’ meglio delle previsioni individuali e un po’ peggio di quelle collettive. “I volontari erano persone non esperte e avevano a disposizione meno informazioni dell’algoritmo”, spiega Farid. “Quindi, esattamente, a che serve un software come Compas?”.

Pre-crime, un documentario sull’uso dei dati per prevenire i crimini

Per visualizzare questo contenuto, accetta i cookie di tipo marketing.

Solo Equivant può dirlo, ma l’azienda non vuole rivelare i segreti dell’algoritmo. I due ricercatori hanno quindi sviluppato un loro algoritmo molto semplice: “Quel genere di cose che s’insegnano agli studenti ai primi anni d’università in un corso sull’apprendimento automatico”, spiega Farid. I due hanno scoperto che i risultati di questo semplice algoritmo erano uguali a quelli di Compas – con una precisione del 67 per cento – anche usando solo due dati: l’età dell’imputato e il numero delle condanne precedenti. “Se sei giovane e hai molte condanne alle spalle, sei ad alto rischio di recidiva”, dice Farid. “È ovvio”.

Altri gruppi di ricerca hanno ottenuto risultati simili. L’anno scorso alcuni ricercatori guidati da Cynthia Rudin dell’università di Duke hanno dimostrato che una serie elementare di regole fondate su età, sesso e condanne precedenti di una persona (in pratica un algoritmo talmente semplice da poter essere scritto su un bigliettino da visita) poteva prevedere la recidività di un imputato con la stessa precisione di Compas.

Il problema non è che Compas non è abbastanza sofisticato, dice Farid, ma che ha raggiunto il livello massimo di complessità. Quando lui e Dressel hanno studiato algoritmi più complessi, non erano mai più precisi della versione più essenziale, quella cioè che prende in considerazione solo età e condanne precedenti.

Forse Compas non può migliorare più di così. Forse tutta l’idea di prevedere la recidiva finirà per produrre previsioni non più precise di quelle ottenute lanciando in aria una moneta.

Sharad Goel, dell’università di Stanford, ha un altro punto di vista. Fa notare che i giudici, nel mondo reale, hanno accesso a molte più informazioni rispetto ai volontari dello studio di Dressel e Farid, comprese le deposizioni dei testimoni e le dichiarazioni degli avvocati. Paradossalmente, questo eccesso d’informazioni può portare a risultati peggiori, perché lascia spazio ai pregiudizi degli esseri umani. Una serie di regole semplici può migliorare la valutazione del rischio, come ha scoperto Goel nelle sue ricerche. Questo spiegherebbe la precisione dei volontari di Dressel e Farid, fondata su appena sette informazioni.

“Queste scoperte non dovrebbero portarci alla conclusione che gli strumenti di valutazione del rischio non hanno alcun valore aggiunto”, dice Goel. Piuttosto il messaggio è: “Quando chiedete alle persone di concentrarsi sulle cose giuste, anche chi non è esperto di un particolare argomento può competere con un algoritmo fondato sull’apprendimento automatico”.

Equivant fa notare una cosa simile nella sua risposta allo studio di Dressel e Farid, pubblicata il 17 gennaio. “La scoperta di una ‘correttezza delle previsioni sostanzialmente equivalente’ di questo studio”, si dice nella dichiarazione, “non è una critica alle valutazioni di Compas, ma si aggiunge al numero crescente di studi indipendenti che confermano i buoni risultati ottenuti dall’algoritmo”.

Molti studi hanno dimostrato che gli algoritmi possono far ottenere buoni risultati nel sistema di giustizia penale. “Non stiamo dicendo che non dovremmo usarli”, dice Farid. “Diciamo solo che dovremmo capirli meglio. Non dovrebbe esserci bisogno di persone come noi che dicono: ‘Questa cosa non funziona’. Bisognerebbe essere certi che una cosa funziona prima di usarla per prendere decisioni che riguardano la vita di una persona”.

“Prima ancora di parlare di equità, dobbiamo assicurarci che questi strumenti siano accurati”, aggiunge Dressel. “Altrimenti non saranno equi nei confronti di nessuno”.

(Traduzione di Federico Ferrone)