Possiamo fidarci dei dati, quindi?
Un protocollo per dati "affidabili" e chi lo rispetta. In più: le data viz di una lettrice della newsletter 💛
In questo numero: c’è un modo per capire quando fidarsi dei dati?
Prima però diamo click e amore allo sponsor della settimana, cioè la mia banca. A te fanno i complimenti per il bancomat quando paghi? A me sì, perché è quello arcobaleno di Banca Etica. Qui c’è il loro nuovo bilancio sociale.
Occupo però ancora un piccolo spazio di questo numero perché siamo quasi alla fine del tour e devo dire un grazie emozionato alle persone che vengono a sentirmi agli eventi e poi si fermano a dirmi che mi leggono, che si confrontano in pausa pranzo dopo ogni newsletter, che si interessano ai dati e hanno cambiato approccio tramite il mio lavoro. Grazie doppio, anzi, perché immagino la timidezza, la sensazione di dire “ma cosa vado a dirle io a questa”, perché la provo anche io, quindi grazie per vincerla questa timidezza e venirmi a raccontare cose, anche intime, di voi. Senza questi momenti, che ci sembrano imbarazzanti ma sono solo umani, la fatica e la solitudine che provo in certe settimane davanti al computer sarebbero molto più difficili da affrontare. Grazie, l'ho scritto tre volte, lo riscrivo, fanno quattro, grazie.
E ora, cominciamo.
I data-link della settimana
Un dataset: tutti gli attacchi alle strutture sanitarie nei conflitti.
Una data-notizia: alla fine gli esseri umani sono utili per migliorare la descrizione dei contenuti online. YouTube chiederà a un gruppo selezionato di utenti di annotare i video che stanno guardando, perché da sola l’AI mica ce la fa.
Dove sono le donne scienziate? La maggior quota di ricercatrici dal 2018 al 2022 si è registrata nei paesi con background ispanico e latino: Portogallo, Spagna, Argentina e Brasile. Lo dice Axios, con grafichetti.
Per capire come sono fatti i dati basta pensare che quando si definiscono nuove misurazioni delle attività sociali servono giorni e giorni di conferenze tra persone esperte. Ce ne sarà una a breve sull’occupazione.
Sono stata felice di parlare di giornalismo dei dati con Giammarco Sicuro e Veronica Fernandes, ora la nostra conversazione è una puntata del podcast Mappamondi su Raiplay Sound.
Comunicare, prima di tutto, è costruire un percorso.
“Architettura Della Comunicazione” - Federico Badaloni
Possiamo ancora fidarci dei dati?
Incerti, soggettivi, discriminanti, situati, pieni di limiti e bias: ha ancora senso usare i dati per capire la realtà e prendere decisioni?
Intanto, ho chiesto su Instagram in che modo possiamo fare affidamento sui dati, e queste sono le risposte che mi sono arrivate (con un click le aprite integralmente):
La maggior parte di noi guarda alle origini dei dati, chi li produce e li pubblica, ed effettivamente imparare a riconoscere delle fonti come affidabili è un buon inizio.
Ma, come dicevo qualche newsletter fa, le fonti istituzionali, così come il prestigio di una rivista scientifica, non ci mettono al riparo da dati che discriminano o non rappresentano le minoranze:
In effetti, la persona che mi ha risposto in modo secco di non fidarsi mai dei dati, ha aggiunto, in privato:
Il mio problema principale con molte raccolte di dati è che manca la revisione. Quando c'è, non è robusta. Ho imparato durante il mio dottorato a non fidarmi, purtroppo: troppi errori, troppi misunderstanding, troppa frode. Troppo di tutto.
E quindi, che si fa?
Alla fine di ogni mia presentazione del libro arriva sempre la domanda di chi, giustamente, mi chiede se a questo punto sia ancora possibile usare dati e statistiche per prendere decisioni o studiare il comportamento umano, come è successo a Bologna sabato scorso, dove però il mio interlocutore proponeva anche una soluzione:
Ad ascoltare te mi viene da pensare che l’unico modo per usare i dati, fidarmi come cittadino, sia chiedere che vengano pubblicati con una serie di istruzioni che spieghino come sono stati raccolti, quando, con quale metodologia! Esiste un protocollo che indica alle istituzioni come fare?
Mi sarei alzata in piedi ad applaudire se non fossi stata già sul palco con un microfono in mano. Le istruzioni, cioè i metadati, sono proprio quelle informazioni che rendono una raccolta dati più affidabile di un’altra, ed è un bene che anche i progetti di counter-data (contro-dati) abbiano una sezione dedicata.
E probabilmente non tutti sanno che in effetti esiste anche un “protocollo”, o meglio delle linee guida da seguire per avere e produrre dati di qualità e utilizzabili dal maggior numero di persone possibili. Si chiamano “principi fair”, un acronimo che sta per Findable, Accessible, Interoperable, Reusable e che sono inclusi anche nel contesto normativo della pubblicazione dei dati aperti da parte della pubblica amministrazione in Italia1.
I principi FAIR tradotti in sintesi dalla squadra di Dati Bene Comune (ciao
) dicono questo:
i dati devono essere facilmente rintracciabili dagli esseri umani e dalle macchine. Questa proprietà è garantita dall’uso di identificatori e dai metadati descrittivi, che devono essere registrati in "cataloghi" o in repository indicizzabili anche dalle macchine.
i dati devono essere sempre accessibili, persistenti nel tempo, e rintracciabili in rete, attraverso protocolli standard. Qualora non fosse possibile rendere i dati “open”, sistemi di autenticazione possono essere usati, a patto che almeno i metadati siano sempre disponibili.
i dati (e i metadati) devono essere interoperabili, cioè essere combinati con altri dati e strumenti. Questo vuol dire che il loro formato deve essere aperto (un CSV lo è, un XLS no) e che i metadati di contenuto e descrittivi devono essere rappresentati in un linguaggio standardizzato (usare ontologie e vocabolari controllati, dove possibile).
i dati devono essere riutilizzabili, per cui deve essere chiaro in che modalità sia dati che metadati possono essere replicati, usati in contesti diversi, con scopo diverso, ecc. Questo significa anche accompagnare i dati con una o più licenze aperte, chiare, accessibili e possibilmente riconosciute a livello internazionale.
Nei documenti dell’Agenzia per l’Italia digitale si trovano moltissimi consigli su come pubblicare dati rispettando una conformità che è stata approvata anche a livello europeo, e c’è una sezione specifica anche sui (miei adorati) metadati2
Quanto sono rispettate queste linee guida?
Ce lo dice ancora una volta Dati Bene Comune:
Il Global Open Data Index pubblicato da Open Knowledge Foundation posiziona l’Italia al 32esimo posto della sua classifica globale, assegnandole una valutazione del 47% rispetto alla quantità e qualità di open data pubblicati. L’indicatore peggiore per l’Italia è proprio quello relativo al "Government Spending” cioè ai dati in grado di mostrare se il denaro pubblico viene utilizzato in modo efficiente ed efficace.
C’è ancora molto da fare. Seguite
e e unitevi alla lotta.Questa newsletter è sostenuta da: Banca Etica
Banca Etica da venticinque anni garantisce alle persone socie e clienti che il loro denaro non verrà investito nelle fonti fossili, nelle armi, negli allevamenti intensivi e in altre attività dannose per l’ambiente e le persone.
La trasparenza guida le scelte strategiche, politiche e l’operatività di tutti coloro che cooperano per realizzare una Banca che dal 1999 si impegna a rendicontare i risultati in modo integrato, cioè sotto il profilo economico, sociale e ambientale.
A proposito … dai un’occhiata all’ultima edizione del Bilancio Sociale di Banca Etica.
La dataviz della settimana
Quando dicevo che agli eventi si incontrano persone che mi rendono grata di fare questo lavoro pensavo anche a Francesca Sanna, che non solo si è fermata a salutarmi, ma mi ha mostrato i grafici illustrati che ha realizzato per raccontare la multiculturalità del quartiere del parco Trotter a Milano, utilizzando dati pubblici del Sistema Integrato Statistico del comune, concentrandosi sui bambini e bambine di età tra 0-14 anni. Le ho chiesto se potevo pubblicarli in newsletter e ha accettato. Su Linkedin racconta il processo creativo che ha portato alla realizzazione di queste visualizzazioni (ispirate al lavoro di Federica Fragapane) tra python, chatgpt e disegno manuale. Seguitela anche su Instagram, è @cantoparlante.
Ah, i disegni sono in mostra fino a fine giugno al Parco Trotter di Milano.
Ancora in giro :)
Roma, 22 giugno: alle 19:30 sono al Festival del benessere finanziario di Rame in un talk dal titolo Quanto costa essere una donna (e un uomo), in quel posto super family friendly che è il Monk. Io ci porto i bambini, vieni?
Ravenna, 25 giugno: alle 18:30 presento il mio libro “Quando i dati discriminano” nella rassegna Flaming Talks organizzata da Happy Minds.
Roma, 26 giugno: nella rassegna ReSprint al Teatro Elettra parlo con Giovanni Prattichizzo (Istat) di divulgazione e comunicazione statistica ai tempi della sfiducia.
Gavoi, 7 luglio: sono in dialogo con Stefano Bartezzaghi al festival letterario L’Isola delle Storie, discuteremo di creatività e intelligenza artificiale.
Roma, 11 luglio: alla rassegna “Umano, urbano, immaginario” a largo Bartolomeo Perestrello (Pigneto) dalle 19 con Oriana Persico e Agnese Trocchi sul tema “Internet, nuove tecnologie e democrazia. istruzioni per un uso consapevole”.
Questa newsletter è stata mandata a 7772 persone, cresce grazie al passaparola e può pagare i contributi esterni grazie agli abbonamenti. Vuoi anche tu l’accesso a tutto l’archivio e sentirti parte della comunità? Pensa a un upgrade della tua iscrizione.
Io ti ringrazio per avermi letta, se vuoi portarmi nella tua azienda, libreria, biblioteca, scuola o circolo scrivimi a progetti@donatacolumbro.it. A mercoledì prossimo!
Il contesto normativo della pubblicazione dei dati aperti su dati.gov.it
Come pubblicare metadati “a cinque stelle”.
Oggi ti ho ascoltata, che bello sentirti anche con la voce! E bella anche la intro su ritrosie e confidenze alla fine degli incontri ☺️.