Rendere visibile la struttura politica dei dati
Applicando il "datasheets for datasets" ai dati che ci interessano
In questo numero: cercando esempi virtuosi di pubblicazione di dati pubblici ho trovato una proposta del “datasheets for datasets” di Timnit Gebru applicata ai dati dei femminicidi. Ma a cosa serve avere dati pubblicati bene? E come essere più incisivi nel mostrare lacune e bias?
Dove ci vediamo in giro:
11 maggio, Roma: alla prima edizione del festival Semi di Reti presso Villetta Social LAB, nel quartiere Garbatella, un incontro su lavoro, gender gap e discriminazioni. Alle 17.
19 maggio, Roma: Data feminism e violenza di genere, di quali dati abbiamo bisogno? Sarò alla Sapienza per parlarne, quando il dipartimento di statistica chiama, difficilmente si può dire di no.
20 maggio, Reggio Emilia: alle Officine Credem saremo in dialogo sui temi del mio libro “Quando i dati discriminano”.
🗞️ [angolo SkyTg24] Nel 2021 l’Unione europea ha lanciato il programma Digital Decade, con una serie di obiettivi chiari da raggiungere entro il 2030: più competenze digitali per i cittadini, più tecnologie avanzate nelle imprese, infrastrutture migliori e servizi pubblici digitalizzati.
Ci sono degli obiettivi precisi, e dicono che l'80% della popolazione europea dovrebbe avere competenze digitali di base entro il 2030. L'Italia resta sotto la media europea, con solo il 45,8% di cittadini e cittadine che sanno muoversi online e usare gli strumenti digitali. Vuol dire che la maggior parte degli italiani non sa nemmeno inviare un'email o cercare informazioni online.
Molto bella la pagina interattiva di Eurostat con i dati completi.
Sei tra le 11709 persone che leggono la newsletter. Nell’ultima puntata abbiamo parlato di copyright femminista e intelligenza artificiale. C’è un bel dibattito in corso, vieni anche tu.
Vuoi contribuire alla realizzazione di questa newsletter con un abbonamento a pagamento? Il tuo sostegno copre i costi dei contributi esterni che rendono sempre più ricchi questi spazi!
Intanto ti ricordo che se vuoi coinvolgermi in un evento puoi scrivere a contact-columbro@elastica.eu.
Per promuovere il prodotto della tua azienda, un evento o un corso in questi spazi scrivi a newsletter@tispiegoildato.it, rispondo io oppure Roberta.
Oggi forse più che mai avvertiamo la tensione da sempre inscritta nella filosofia tra sapere e fare: tra sapere tutto e non poter fare niente per cambiare il corso delle cose o, all’inverso, continuare a fare tutto come lo si è sempre fatto, sapendo che nulla più ha senso.
Paul B. Preciado, “Dysphoria mundi” (Fandango 2021)
Datasheets for datasets, un approccio politico al formato dei dati
E quindi, Donata, come li vuoi questi dati?
Ma che dobbiamo fare per farvi contenti?
O ancora:
I dati vanno bene così, non pensiamo di dover cambiare niente.
I dati ci sono, ecco il link al pdf, alla banca dati che non è una vera banca dati, a una mappa interattiva con i dati che cambiano ogni giorno ma da cui non puoi ricavare una serie storica.
Oppure.
I dati non ci sono, siamo un sistema troppo frammentato. Cercali dentro le determine pubbliche. Regione per regione. Comune per comune. Consiglio comunale per consiglio comunale.
Ma non sono confrontabili!
Guarda, se vuoi c’è questo comunicato stampa, aprilo, lì abbiamo citato qualche dato.
Chiedere che i dati pubblici siano funzionanti, a prova di esseri umani, utili, aggiornati e facilmente rintracciabili in una ricerca online mi sembra così scontato da risultare inutile. C’è davvero qualcuno che li preferisce confusi, obsoleti e nascosti?
Facendo ricerche per il libro che sto scrivendo mi sono imbattuta in un paper che usa l’approccio del Datasheets for datasets per analizzare come vengono contati i femminicidi in Messico. Cos’è? Una proposta di Timnit Gebru e altre ricercatrici, tra cui Kate Crawford (autrice di Né intelligente né artificiale), per migliorare la trasparenza, l'affidabilità e la responsabilità nella creazione e nell'uso dei dataset per l’intelligenza artificiale e il machine learning. Andare oltre i metadati, cioè la descrizione dei dataset che permette di capire di cosa parlano quei dati, chi li ha raccolti e come, e avere invece un vero e proprio approccio strutturato per garantire la qualità e la provenienza dei dati.
Se i dati sono parziali, sbilanciati o poco documentati, il modello di apprendimento automatico può ereditare e amplificare questi problemi.
scrivono.
L’ispirazione viene dai datasheet dell’industria elettronica: ogni componente elettronico ha un documento che ne descrive le caratteristiche tecniche. L’idea è che lo stesso principio debba valere per i dataset.
Il paper è del 2021 ed è probabile che chi lavora con i dati nel campo dell’intelligenza artificiale l’abbia già intercettato. Ma qui è l’applicazione ai dati pubblici che ci interessa: la sociologa Saide Mobayed Vega e la statistica Maria Gargiulo fanno un’analisi di tutto quello che non funziona nella pubblicazione dei dati sui femminicidi in Messico, anche se esiste una legge che lo riconosce come reato, e applicando il framework dei datasheets rendono visibile la struttura politica e tecnica dei dati, dove possiamo notare tutte le mancanze sistemiche.
Sottodenuncia, dati mancanti, definizioni disomogenee e assenza di contesto.
L’obiettivo delle autrici è mostrare che non è sufficiente avere “dati aperti” se non sono documentati con cura, trasparenti, coerenti e orientati alla giustizia sociale. In questo senso, applicare il datasheet significa politicizzare l'infrastruttura del dato, interrogando le sue intenzioni, i suoi limiti e i suoi silenzi.
Il framework, applicato, funziona con una serie di domande che possiamo farci per analizzare i dati che abbiamo di fronte (o che non ci vogliono fornire):
Motivazione: perché è stato creato il dataset, per quale scopo e con quale finanziamento?
Composizione: cosa contiene, quante osservazioni/istanze ci sono, che tipo di dati sono stati raccolti, se sono presenti eventuali bias o dati sensibili?
Processo di raccolta: come sono stati raccolti i dati, da chi e in quale periodo?
Pre-processing: che tipo di pulizia o etichettatura è stata effettuata?
Usi previsti e sconsigliati: per cosa può essere usato e per cosa no?
Distribuzione: come viene condiviso e con quali licenze?
Manutenzione: chi lo aggiorna, come vengono gestite le versioni e gli errori?
Prendiamo un dataset ISTAT sulla disabilità nelle scuole. Un datasheet creato attraverso queste domande potrebbe chiarire che esistono dei bias perché si basa solo sugli alunni con certificazione di disabilità (escludendo chi ha bisogni educativi speciali non certificati), che non è presente una disaggregazione di genere (gap), che non raccoglie informazioni sul numero di assenze degli alunni con disabilità o sul loro successo scolastico, e che i dati sono aggregati a livello regionale, non permettendo un’analisi territoriale basata per esempio sulle differenze tra territori urbani o rurali.
Confesso che avevo pensato di usare proprio questo framework per il mio intervento in un incontro online organizzato dall’associazione Fight The Stroke (che si può recuperare su YT) per mettere a confronto le istituzioni, (Istat), il giornalismo (io), l’attivismo (Simone Riflesso) e le associazioni del terzo settore (Francesca Fedeli di FTS) sul tema dei dati relativi alle persone con alla disabilità. Non l’ho fatto, perché volevo studiare meglio l’approccio e soprattutto integrare la mia parte con quella delle altre persone presenti.
Ho preso molti appunti durante l’intervento di
, che chi legge questa newsletter da molto tempo lo conosce per la mappatura dei pride in Italia e per il suo progetto di raccolta dati personale sulla sua indipendenza.Simone ha messo bene in evidenza il limite di un’analisi che si ferma a guardare il formato del dato:
sul tema della disabilità mancano le informazioni di base per esercitare una cittadinanza attiva.
Cioè siamo all’abc. Manca l’intenzione di produrre il dato, ma no, ancora prima, manca l’intenzione di usare i dati per valutare l’impatto di quello che viene fatto: c’è una cultura della “rendicontazione”, ma cosa serve sapere che i soldi sono stati spesi se poi non viene capito a cosa sono serviti?
Il framework allora può essere usato anche in assenza di dataset, come un elenco di desiderata: perché dovrebbe essere prodotto, con quali finanziamenti e obiettivi, chi dovrebbe occuparsene, ecc.
Il datasheets per i dataset dei dati pubblici potrebbe diventare la base di ogni manifesto politico per cui si denuncia l’assenza o l’incuria dei dati come danno o strumento di esclusione di una parte della popolazione. Se i dati sono confusi, opachi o incompleti, forse non è un caso.
Mi viene in mente la metafora del luminol, la lampada blu che si vede nelle indagini di polizia, dove la compilazione del datasheet for datasets può mostrare così le tracce lasciate dalle scelte (o dalle omissioni) di chi li ha raccolti, trattati, pubblicati.
I data-link della settimana
Keep reading with a 7-day free trial
Subscribe to Ti spiego il dato - ogni settimana to keep reading this post and get 7 days of free access to the full post archives.