Descrivere bene i dati è importante quanto renderli pubblici
Un documento della polizia del 2006 che ho letto come un romanzo. E poi: le piattaforme tech e il nuovo ordine mondiale, un dataset utile e una data viz attualissima.
In questo numero: scrivere la metodologia di raccolta dati, descrivere le voci in tabella, curare i metadati è utile e importante quanto pubblicare un csv. Anzi, forse DI PIÙ. Bonus: cosa dice un’analisi di Agid su 730mila pdf e più di 4 milioni di pagine web relative alla pubblica amministrazione.
Nella sezione a pagamento:
il dataprogetto del mese, una rete territoriale di supporto per il diritto all’interruzione volontaria di gravidanza.
la dataviz - che sfida il nostro modo di percepire le notizie.
alcune datanotizie sul nuovo ordine mondiale con Trump insieme ai padroni tech, e un dataset in tema. Ah, scopriremo che il cattivo non è solo Meta.
Dove ci vediamo in giro
Torino, 5 febbraio: alle 20:45 parlo del mio libro Quando i dati discriminano nella rassegna Apertamente dell’Istituto superiore Agnelli di Torino.
Camerino, 13 febbraio: tengo un talk all’università di Camerino nell’ambito del programma “Le competenze trasversali nella scienza”. Tema, l’etica dei dati.
Lucca, 6 marzo: presentazione del libro a Lucca, nella rassegna “Voci di Biblioteca”, dettagli in arrivo.
Cosa può succedere su Facebook e Instagram con la fine del programma di fact-checking indipendente? Ho scritto di come funzionava il sistema e dei limiti del nuovo modello di controllo “tra pari” basato sulle note e ispirato a X in questo pezzo per SKYTG24.
Sei tra le 9950 persone che leggono la newsletter. Nell’ultima puntata abbiamo parlato del problema dei dati sanitari italiani.
Fino a fine febbraio puoi abbonarti con lo sconto, pensaci!
Intanto ti ricordo che se vuoi portarmi nella tua azienda, libreria, biblioteca, scuola o circolo scrivimi a contact-columbro@elastica.eu. Per sponsorizzare la newsletter scrivi a newsletter@tispiegoildato.it, rispondo io oppure Roberta. Qui tutte le condizioni.
«Non bastano i dati leggibili solo dai computer, i cosiddetti “machine to machine”, sarebbe ora di pubblicare anche dati machine to human».
intervistato da Andrea Carcuro sull’ultimo numero della rivista Scomodo.Un documento della polizia del 2006 che ho letto come un romanzo
Le virgole al posto giusto, le frasi di senso compiuto, il desiderio di andare avanti per saperne di più. Nel secondo schermo, mentre scrivo la newsletter, vedo questo documento prodotto dalla polizia di stato nel 2006, dal titolo “Rapporto sulla criminalità in Italia. Analisi, Prevenzione, Contrasto”1. Sono 549 pagine, a me interessano quelle che riguardano gli omicidi e la violenza di genere, infatti l’ho trovato proprio usando quelle parole chiave e provando a cliccare ogni link istituzionale messo in elenco dal motore di ricerca (sì, faccio ancora tutto “a mano”).
È un documento vecchio stile dal punto di vista della formattazione, ma elegante, probabilmente pensato per essere stampato, l’indice non è cliccabile e devo andare a cercare da sola quello che mi serve. Non ci sono colori che confondono, lo stile dei grafici è pulito e preciso, nessun ammiccamento all’idea di sperimentare con le data viz senza avere nessuna idea di quello che si sta facendo2.



Ma a pagina 11 c’è già un titolo che mi attrae: “Il cambiamento delle fonti statistiche per lo studio della criminalità in Italia”.
Nel documento di sintesi (solo 36 pagine) si spiega subito che nel 2004 cambia tutto nella raccolta dati sulle denunce, arriva “un nuovo sistema di rilevazione, molto diverso e assai più efficiente e ricco di informazioni”.
Visto che il documento è del 2006 e io ho bisogno di dati a partire dal 2001, vado a vedere che problemi potrei incontrare nel confronto tra dati.
Leggo e resto incollata, appunto.
Il testo scorre, capisco perfettamente ogni cosa, comincio a salvare alcune citazioni.
Mi sembra tutto perfettamente chiaro, comprensibile, e quindi trasparente:
Il vecchio sistema di trasmissione all’Istat dei dati relativi alle denunce sul modello 165 è stato sostituito, nel 2004, con un nuovo sistema di rilevazione, molto diverso e assai più efficiente e ricco di informazioni. Si tratta del cosiddetto SDI, acronimo di Sistema di Indagine. Questo cambiamento, però, fa sì che, negli anni di transizione (quando il sistema non era ancora a regime), cioè il 2004 e il 2005, i dati siano molto spesso difficilmente confrontabili con il resto della serie.
[…]
In Italia, fino a pochi anni fa, erano due le fonti a cui gli studiosi si rivolgevano per analizzare la criminalità. In due snodi diversi del sistema penale, le Forze di polizia (Polizia di Stato, Carabinieri e Guardia di Finanza) e la Magistratura raccoglievano dati sui reati denunciati. I primi sui reati dei quali erano venuti a conoscenza per denunce fatte da cittadini o per indagini proprie. Le seconde sui reati per i quali era stata avviata, dalla stessa Magistratura, l’azione penale.
Tutto chiaro, no?
Non mi viene voglia di caricarlo su ChatGpt per avere una sintesi ragionata di tutte le 549 pagine, voglio leggerlo io, è davvero troppo interessante.
Le virgole sono al posto giusto, i termini usati non sono così tecnici.
[…] È nella prima di queste due fonti, quella delle Forze di polizia, che a partire dal 2004 sono state introdotte innovazioni di grande importanza che mutano del tutto modi, tempi e contenuti del processo di raccolta dei dati. Si tratta del cosiddetto SDI, acronimo di Sistema di indagine. SDI è una banca dati che raccoglie informazioni e comunicazioni di cui le Forze di polizia sono venute a conoscenza. Il contenuto dello SDI può essere ricondotto a due grandi categorie fondamentali.
1) FATTI, cioè avvenimenti d'interesse per le Forze di polizia, che a loro volta si distinguono in reati ed eventi non sanzionati penalmente;
2) PROVVEDIMENTI, cioè atti formali emessi dalle autorità competenti nei confronti di soggetti od oggetti coinvolti in uno specifico reato o evento.
Per una persona che cerca dati storici sulla criminalità questi sono passaggi chiave. Ed è la prima volta che capisco chiaramente cosa troviamo dentro lo SDI, una banca dati non accessibile al pubblico, ma che viene citata come fonte dall’Istat o dal Ministero dell’Interno.
Non so se a questo punto della newsletter stiate pensando che trovare appassionante un report della polizia sia un segnale per farvi abbandonare la nave, ma vi prego, seguitemi. Se invece per lavoro frequentate siti istituzionali, scaricate report e dati pubblici so che capite esattamente il mio stupore e quello di cui sto parlando.

Le parole che accompagnano i dati contano, moltissimo.
Se ne parla tanto nell’ambito di chi insegna data visualization, perché descrivere i grafici è il modo migliore per renderli accessibili a chiunque.
Oltre a organizzare il dataset in modo coerente e comprensibile - mi sono ritrovata a trasporre righe e colonne anche dentro l’excel di famiglia che abbiamo usato per organizzare 3 cene da 26 persone a Natale - è necessario usare termini chiari per nominare cosa si sta contando e come, e aggiungere i metadati - le informazioni sui dati - in modo che chiunque apra quel file possa lavorarci senza dover parlare direttamente con chi l’ha creato. È la lezione numero 2 al mio corso in Iulm.
Ma questa regola vale anche per i report e le note metodologiche.
Difficilmente si trovano testi comprensibili online nei siti istituzionali ed è quasi impossibile fare analisi senza parlare con i ricercatori e le ricercatrici che li hanno curati.
Quindi dal 2006 a oggi c’è stato un netto peggioramento della lingua usata in sede istituzionale?
L’ho chiesto a
, che per lavoro si occupa di parole e UX e ha lavorato per Designers Italia nella creazione di linee guida per le PA. Letizia giustamente mi dice che non possiamo trarre queste conclusioni: tutto dipende dalle singole persone, dalle loro competenze e sensibilità. È vero anche nel caso della pubblicazione dei dati aperti, esistono le leggi, ma il modo in cui si mettono in pratica cambia a seconda di chi coordina il lavoro.730mila PDF e 4 milioni di pagine web
Un documento ben scritto, ben formattato e ben curato, dovrebbe essere anche accessibile: Letizia mi ha segnalato tramite il profilo Instagram di Caratteri Cubitali, Osservatorio sull'accessibilità dei contenuti culturali e della comunicazione, che nel 2024 l’Agid (Agenzia per l’Italia digitale) ha esaminato 730mila PDF e più di 4 milioni di pagine web relativi alla PA e ha scoperto che:
Quasi tutti i PDF presentano almeno un criterio di accessibilità non soddisfatto.
Solo l’1% dei PDF potrebbe essere strutturato correttamente.

Agid offre risorse gratuite per adeguare siti e servizi, anche sull’accessibilità, e in passato ho usato alcune guide per corsi di formazione tenuti al terzo settore.
Di questo tema specifico, l’accessibilità, parla l’ultima newsletter di
, che si chiama , dove racconta di un progetto interattivo del governo britannico per aiutare le persone a comprendere cosa significa navigare i siti web mettendosi nei panni di persone che hanno disabilità o disturbi dell’apprendimento. Da provare.Come scrivono le autrici di Data Feminism, parlare di missing data, cioè di dati mancanti, non vuol dire solo riferirsi a dati che mancano, che non sono mai stati raccolti. Sono anche i dati nascosti, trasmessi male, indecifrabili, pieni di problemi, che impediscono qualsiasi analisi o indagine giornalistica. Ci serve più data curation, meno data e basta.