Ciao a tutte e tutti,
è molto bello finire l’anno inviando questa letterina a 2600 persone. Quando ho cominciato a gennaio avevo bisogno di un luogo dove lasciare riflessioni che non trovavano spazio altrove e la cadenza mensile della mia prima newsletter, che aveva mille iscrittə, mi andava troppo stretta. È andata bene, ho seguito l’istinto, che è anche il modo migliore per non annoiarsi, e il materiale che ho pubblicato è sempre fonte di dibattito, quando mi scrivete in privato o commentate sui social. Non sono molto brava a rispondere subito, e in fondo all’email c’è un grafico che vi spiega perché :)
Buona lettura di fine anno!
Un anno di dati in cinque concetti
1 - Dati aperti. È andata meglio rispetto al 2021?
Nell’intervista che ho fatto presentando Dentro l’Algoritmo per Attiviamo energie positive, la serie webinar di Produzioni dal Basso e Banca Etica, mi è stato chiesto “cosa fosse cambiato” tra il primo e il secondo libro nel mondo dei dati e io ho risposto “niente”. Molto convinta e anche molto scoraggiata. II motivo è che avevo appena finito di scrivere un pezzo abbastanza deprimente sul PNRR e la situazione dei dati pubblici che ci permettono di monitorare come spenderemo i 191,5 miliardi di euro che abbiamo ottenuto dall’Europa nell’ambito del Recovery Fund. Vi riporto alcuni passaggi da L’Essenziale:
Il luogo dove andare a cercare i dati disponibili è un portale chiamato Italia domani, andato online il 3 agosto 2021 […]. Oggi, alla soglia della richiesta dell’Italia di una terza tranche di investimenti, sul sito sono presenti solo circa 5mila dei 73mila progetti presentati […]. Non esiste quindi un luogo accessibile in cui reperire e consultare le schede di questi progetti, anche per verificare l’impatto sull’ambiente e il rispetto delle “priorità trasversali” previste dal piano per “ridurre i divari territoriali, generazionali e di genere presenti nel paese”, come scritto sul sito del piano.
Quello che è cambiato in meglio è l’attenzione dell’opinione pubblica e dell’attivismo, (penso alla campagna Dati Bene Comune che raccoglie sempre più adesioni anche su temi diversi, come la legge 194 con l’inchiesta MaiDati, il progetto DisabledData, l’ora di religione, ecc.) mentre mi sembra che il giornalismo generalista, o quello che raccoglie dichiarazioni dai politici, di dati aperti ancora non si interessi. Altrimenti a ogni commento sul PNRR dovrebbe controbattere con “sì ma dove sono i dati che dimostrano quello che sta dicendo?” e invece questo non succede. Nel 2023 chiediamolo noi, senza tregua.
2 - I dati non sono neutri. Nemmeno le loro rappresentazioni.
Ci sono le 12 lezioni che Giorgia Lupi e Paolo Ciuccarelli hanno scritto a quattro mani per ricordarci quanto abbiamo imparato in pandemia rispetto alla comunicazione dei dati, ma non solo. Anche quando usiamo i dati per rappresentare problemi sociali corriamo il rischio di perpetuare stereotipi razzisti, come hanno dimostrato Eli Holder e Cindy Xiong in un paper discusso alla conferenza internazionale IEEE Visualization Conference.
Di solito, dicono le autrici, pensiamo all’efficacia di una data viz basandoci su tre domande:
la maggior parte delle persone la legge correttamente?
il tempo a disposizione del pubblico è sufficiente per comprendere le informazioni che vogliamo trasmettere?
è bella da guardare, fa emozionare?
Il problema è che in molte delle rappresentazioni classiche, come i grafici a barre, si perde la diversità dei gruppi rappresentati nei “blocchi”. Quindi, servirebbe una quarta domanda: i lettori e le lettrici leggono i grafici correttamente, ma il concetto che gli arriva è incorretto o riproduce credenze e stereotipi dannosi per la società?
Se non vuoi leggere il paper c’è anche il riassunto fatto per il magazine della Data Visualization Society.
3 - Ri-organizzare la conoscenza. E quanto conta il ruolo dell’intelligenza artificiale.
Mentre scrivevo Dentro l’algoritmo è esploso il “caso Instagram” e tutti parlavano della tik-tok-izzazione dei social network. Viviamo in un’epoca di predizioni e decisioni algoritmiche e questo destino sembra ineluttabile, fuori dal nostro controllo. Bene, se ce ne siamo accorti grazie ai video bruttini di 15 secondi che tutti abbiamo iniziato a fare per non essere penalizzati dall’algoritmo, è già un passo avanti. Ma, come ho scritto per tutta l’estate nelle pagine che poi sono diventate il mio libro, c’è molto altro.
In un’intervento all’università dell’Aquila per l’evento Gender Equality AI, la filosofa Teresa Numerico, autrice di Big Data e Algoritmi (Carocci 2021), l’ha spiegato molto bene:
La tecnologia non può essere confusa con la scienza. La scienza si propone di capire come stanno le cose nel mondo. La tecnologia è un processo di regolazione delle cose del mondo e infatti confligge tecnicamente con il diritto. È su questa prospettiva che bisogna discutere.
La tecnologia informatica - o il machine learning, come stiamo chiamando oggi l’intelligenza artificiale - propone una regolazione e un’organizzazione del mondo e della conoscenza su cui dobbiamo dire se siamo o non siamo d’accordo. Oggi ci troviamo a un punto in cui dobbiamo capire e decidere se la razionalità resta in mano alla collettività umana oppure al gruppetto di esseri umani che controlla i sistemi tecnici che ci dicono come decidere nelle situazioni di rischio e nei contesti incerti.
Tutto parte dai dati e da quale significato diamo loro. Ricordate la mia definizione? Qualcosa che qualcuno ha deciso di osservare, contare e classificare. Per classificare devo saper riconoscere e mettere dentro insiemi diversi gli oggetti o le persone in base alle loro caratteristiche.
Ma che cos’è il riconoscere? Il pattern recognition negli esseri umani funziona molto bene, anche senza il concetto di discriminazione (“questo è un gatto, questo non è un gatto”), nelle macchine no. Per insegnare il riconoscimento alle macchine devo insegnar loro a discriminare in base a una variabile, escludendo le altre. Collettivamente ci possiamo mettere d’accordo sul fatto alcune “cose” siano simili e appartengono alla stessa categoria, ma questo agire può essere profondamente discriminatorio.
E se l’esclusione che avviene nel mondo fosse un problema di tabelle?, provo a immaginare in questo vecchio numero della newsletter. Sono normale? Se non rientro dentro nessuna etichetta, forse non lo sono?, si chiede la giornalista Mona Chalabi in una serie di video per TED di cui abbiamo parlato qui.
Domande che non possiamo tralasciare nel 2023, quando da quelle tabelle saranno creati contenuti a partire dagli input nei prompt di software come ChatGPT. (E certo che questi sistemi sono razzisti).
4 - Dati Disaggregati. Quelli che ci dicono cosa c’è all’interno di una popolazione considerata in una certa statistica.
I dati che riguardano le donne, oppure le donne incinte (come nel caso dei vaccini in pandemia), le donne disabili, le persone straniere, le persone single, le persone trans, ecc: quanto più si può osservare in modo dettagliato il gruppo di riferimento di un sondaggio o un censimento, tanto più possiamo intraprendere azioni per migliorare le loro condizioni. Sempre chiedendoci se la raccolta dati possa discriminarle o avvantaggiarle. Da un pezzo scritto per il progetto Ingrid del Centro per la Cooperazione internazionale di Trento e pubblicato su La Stampa:
Quando si parla di diritto alla casa o diritto all’abitazione si fa riferimento a diritti che sono garantiti non solo dalla nostra Costituzione - che lo richiama all'art. 47 e in ripetute sentenze della Corte costituzionale, affermando che "è doveroso da parte della collettività intera impedire che delle persone possano rimanere prive di abitazione" - ma anche in numerosi trattati internazionali come diritto di base senza il quale gli esseri umani non potrebbero godere degli altri, come per esempio il diritto alla salute e a una vita dignitosa.
C’è un filo che lega però questi richiami e lo studio di politiche per migliorare l’accesso alla casa da parte delle fasce di popolazione più fragile: la mancanza o l’incompletezza di dati che riguardano il diritto alla casa per quanto riguarda le donne. La maggior parte dei report e delle indagini, anche quelle nazionali, prendono infatti in considerazione i dati sui nuclei familiari, senza specificare da chi sono composti o senza fornire il dato disaggregato sul sesso.
Come stiamo imparando durante la lettura di Data Feminism, al Data Book Club, raccogliere dati disaggregati può essere questione di vita e di morte. Prima che Serena Williams rischiasse la vita partorendo la figlia, il dato dell’alto tasso della mortalità materna nella popolazione nera negli Stati Uniti veniva raccolto soltanto dalle organizzazioni della società civile. Ora lo considerano anche i Centers for disease and Control (CDC), il corrispettivo del nostro Istituto superiore della sanità.
5 - I dati sono solo un modo per leggere la realtà.
Servono a misurare fenomeni. Ma, ancora una volta, ricordiamoci che i dati non valgono più di altri metodi per capire una situazione che stiamo studiando. A volte possono essere fuorvianti, oppure ci spingono all’efficienza quando non sempre dovrebbe essere l’obiettivo da perseguire. La scienziata politica Deborah Stone, autrice di Counting. How We Use Numbers to Decide What Matters, fa l’esempio di una situazione paradossale in cui in nome dell’efficienza si fa perdere tempo a molte persone: l’attesa per una visita nello suo studio medico, dove i pazienti sono programmati per entrare ogni 15 minuti, secondo il piano organizzativo del medico, ma che ovviamente sforano quando la situazione che devono risolvere è più complessa di quel breve tempo a disposizione. L’efficienza per il dottore è perdita di tempo per molti pazienti.
Pensiamo a quando un numero che indica “l’efficienza” e l’efficacia di un’azione politica significa invece dolore e distruzione: il conteggio delle vittime di una guerra. Per chi crede che sia giusto combatterla quel dato è un segnale che si è svolto un ottimo lavoro.
Ma i numeri prendono il significato dalle storie che le persone raccontano su di loro. Il generale McNamara, parlando del “successo degli Stati Uniti” nella guerra del Vietnam, usava i dati per raccontare che stavamo vincendo. Invece stava succedendo il contrario.
(Stone, intervistata da un ex militare statunitense per il suo podcast)
I dati hanno sempre un autore (o un’autrice), come per i libri, dice Stone. Infatti, i dati grezzi non esistono.
Cosa vorrei che ci portassimo nel 2023
Più consapevolezza su come vengono calcolati certi numeri e decise alcune misurazioni. Cosa contiene un dato, una statistica? Come ha fatto ad arrivare a noi in questa forma? Se a raccoglierlo fosse stato un ente non profit / un ente privato / un ente nazionale pubblico, come sarebbe cambiato il racconto di un certo fenomeno? Cosa ci stiamo perdendo a guardare la storia solo dal punto di vista di questi dati, in particolare?
La data viz dell’anno
Non la migliore, ma quella che rappresenta secondo me il valore del raccontare una storia con i dati, a livello globale, e cioè i cambiamenti climatici.
Questa sintesi di Le Monde non è “spettacolare” come certe interattive del New York Times (per esempio questa sulla percentuale di habitat perso dal 2001 a oggi) ma è molto pratica. “Da tenere nel portafoglio”, o più semplicemente come screenshot nel telefono. Ogni grafico è navigabile nel dettaglio ma il colpo d’occhio è già immediatamente comprensibile.
Da sinistra, in alto: le temperature (in salita), la concentrazione di co2 (in crescita), il livello dei mari (che si innalza), il calore degli oceani (in aumento), la superficie della banchisa dell’Artico e dell’Antartide (diminuisce nel lungo periodo, rispetto alla media del 1981-2010) e, infine, la massa dei ghiacciai, che si riduce inesorabilmente.
Bene, siamo alla fine. Nel 2023 questa newsletter resterà settimanale, ma l’ultimo numero di ogni mese ospiterà la testimonianza di una persona che lavora con i dati, e avrà una sezione curata di link utili e risorse.
Ci leggiamo l’11 gennaio!
Fai girare questa newsletter, scrivimi se vuoi attivare una sponsorizzazione (ho già delle prenotazioni per l’anno nuovo) e metti un cuore!
Ah, ed ecco spiegata la mia assenza dalla sezione commenti di post e newsletter:
Io sono un grande fan dei jitter e ne faccio un uso assolutamente esagerato sotto tutti i punti di vista. Non solo solo fanno vedere la varianza all'inerno di un gruppo, ma sono belli da morire