Listone di fonti

Poco da leggere, tanto da salvare

Apr 05, 2023

In questo numero: una lista di fonti di ispirazione sui dati, sempre aggiornata, nonché di banche dati vere e proprie in cui cercare dataset per produrre contenuti.

Ho tolto il paywall perché questo link è anche nelle mie slide universitarie, ma se vuoi sostenere il lavoro che faccio condividi la newsletter e, se puoi, considera l’abbonamento a pagamento.

Per eccellere in ogni campo, secondo Jurij, bisogna essere in grado di reggere una tremenda dose di noia*.

Maria Sharapova, Inarrestabile

* Forse i progetti di data journalism e data storytelling sono al 90% noia (trova i dati, pulisci, analizza) e 10% creatività. Ma senza quel 90% non ci può essere il resto. 

(Ah Jurij è il padre-allenatore della tennista Maria Sharapova e la citazione è tratta dalla sua biografia. Io resto #teamSerena sempre, ovviamente)

Fonti di dati (quelle non tradizionali)

Non vi metto Eurostat, Banca Mondiale, ecc (ovviamente dovete conoscerli) ma metto Istat perché vi consiglio soprattutto la newsletter e il calendario con l’uscita dei report.
Data Is Plural - la newsletter di Jeremy Singer-Vine (non è un errore, Singer-Vine pubblica settimanalmente dataset nuovi disponibili ovunque nel mondo).
Report di ONG come Save The Children, Action Aid, WeWorld, Greenpeace, Recommon, A buon diritto, Amnesty e mille altre, ma ho capito tenendo lezioni a studenti e stutendesse di vario grado che bisogna saper cercare. Se ti servono dei dati e hai la sensazione che qualcuno potrebbe averli pubblicati cercali prima in italiano, se non li trovi prova con l’inglese, cambia motore di ricerca, usa related: ecc e magari prova il motore di ricerca Google dedicato.
Our world in data, non è una fonte primaria ma i ricercatori di OWID rielaborano dati riguardo ai “problemi del mondo” e li rimettono a disposizione della comunità.
Il Pew Research Center fornisce dati su US ma esplorando il sito si possono trovare spunti sulle domande (sempre loro) da fare ai dati che ti interessano di più.
Kaggle, un sito dove si trovano dataset utili per fare esercitazioni nei corsi, ma a volte ci sono anche dataset che stai cercando… già puliti da qualcun altro :)
Books Ngram Viewer di Google, occorrenza delle parole nei libri presenti in Google Books.
La sezione strumenti dello European Journalism Network (ci sono dataset originali).
I dataset di ProPublica, testata statunitense che fa inchieste anche raccogliendo dati in crowdsourcing da lettori e lettrici.
Gli osservatori dal basso come Non una di meno, Obiezione respinta, Cittadini per l’Aria…
Una listona di fonti di dati dentro una listona di progetti interessanti di OSINT (open-source intelligence).
Natural Earth, un sito di dati geolocalizzati per creare mappe vettoriali su scala 1:10m, 1:50m, e 1:110m.
La IUCN Red List è considerata il riferimento più completo per monitorare lo stato di salute delle specie a livello mondiale: qui puoi scaricare la classifica e personalizzarla (selezionando specie, status, Paese e altre variabili) mentre qui trovi altre mappe e dati spaziali utili.
Il GC Wealth Project raccoglie e diffonde dati e ricerche ad accesso libero su ricchezza, disuguaglianze patrimoniali e politiche fiscali.
Il Climate Mobility Case Database raccoglie e sintetizza le decisioni giudiziarie su tutte le forme di migrazioni legate al cambiamento climatico (sia all’interno dello stesso paese che tra paesi diversi).
Per analizzare i risultati delle elezioni negli Stati Uniti, dai un’occhiata al MIT Election Data Science Lab.

Blog e siti di progetti interessanti

Text as data & data in the text di Giorgio Comai, ricercatore dell’Osservatorio Balcani e Caucaso.
Dati bene comune, progetto portato avanti da onData, Transparency International e Action Aid per chiedere dati pubblici quando non ci sono.
Missing numbers, dati pubblici poco conosciuti in UK e dati mancanti.
Design for migration, raccolta di progetti di design che riguardano le migrazioni.
I progetti di data journalism candidati e premiati ai Sigma Awards.
Dataset cercati ma inesistenti (ok, poco utile ma stimolante, forse).
Disabled Data, di cui ho parlato diverse volte, porta l’attenzione sulla scarsità dei dati che riguardano le persone disabili in Italia e mette in ordine quelli che ci sono già.
Un portale di sorveglianza epidemiologica curata da Francesco Branda per seguire gli "hot health topics" degli ultimi anni sia a livello europeo che italiano.
Aiaaic.org, una risorse pubblica che contiene dataset di incidenti causati o collegati all’uso di algoritmi e intelligenze artificiali.
DASSI, un prezioso archivio di dataset open prodotti dalla ricerca su temi sociali.
La newsletter American Inequality , dati e grafici sulle disuguaglianze negli Stati Uniti.
Ma anche Abortion, Every Day , anche qui tanti dati sulla salute riproduttiva delle donne.
Su Platform Governance Archive trovi un archivio aggiornato di quante e quali policy legali e sulla moderazione dei contenuti hanno introdotto, modificato o cancellato i social network dal 2005 in poi.
TrainStats Italia fornisce statistiche sui treni italiani, compresi quelli riprogrammati, cancellati e in ritardo, da esportare in .csv.
Information is beautiful è un collettivo indipendente di designer, developer e ricercatorɜ che si occupa di creare dataviz belle, utili e precise. Questa sezione del sito contiene tutti i loro migliori dataset.
Il Deportation Data Project raccoglie dati pubblici e anonimizzati relativi all’applicazione della legge sull’immigrazione del governo degli Stati Uniti.
Real Time Crime Index è un database creato dal data analyst Jeff Asher per monitorare in tempo reale l’andamento della criminalità negli Stati Uniti.
Come stanno lɜ adolescentɜ di tutto il mondo? All’interno di Adolescent Atlas for Action trovi dataset, analisi e risorse che possono aiutarti a capirlo.
Il Trump Action Tracker è un database che raccoglie le decisioni di stampo autoritario prese dal presidente statunitense Donald Trump dall’inizio del suo secondo mandato.
Gaza OSM Buildings Baseline è un dataset realizzato dal team Humanitarian OpenStreetMap che contiene le immagini satellitari di tutti gli edifici presenti nella Striscia di Gaza prima del 7 ottobre 2023.
Questo database di Epoch AI ti permette di confrontare le prestazioni dei principali modelli AI nello svolgere compiti complessi.
Carbon Bombs ti permette di esplorare i principali progetti di estrazione di combustibili fossili al mondo e i loro legami commerciali con banche e aziende.
Scuola in Dati è un archivio ricomposto di dati pubblici sulle scuole italiane ottenuti attraverso scraping periodici e “lenti” su Scuola in Chiaro e sui Rapporti di Autovalutazione (ovvero con pause abbondanti tra le richieste, per non “disturbare” i server del Ministero dell’Istruzione e del Merito).
GenDip è un dataset realizzato dall’Università di Göteborg, in Svezia, che mappa il genere delle persone che hanno lavorato nel settore diplomatico tra il 1968 e il 2024. (Per dati specifici sull’Unione europea, esiste anche EU-GenDip).
Mass Shooting Tracker è un database dal basso sulle stragi da armi da fuoco negli Stati Uniti.
Tennis Abstract è la bibbia di chi ama il tennis (e di chi ha bisogno di dati per scriverne o parlarne).

Due bonus track su Telegram: il Data Book Club che abbiamo lanciato io e Elena Canovi e la DataViz + BujoChallenge di Alenka Gucek e Martina Zunica.

La dataviz della settimana

Calmare i nervi quando i bambini si assentano troppo da scuola causa malattie… raccogliendo dati. Un progetto di Zach Rottman raccontato su Nightingale, il magazine della Data Visualization Society. Ci ha fatto anche un sito chiamato “il mio ragazzino è malato”, che aggiorna quotidianamente.

Bene, questo numero speciale finisce qui. Ti è piaciuto? Consiglia la newsletter a qualcuno che conosci, falla girare e lasciami un cuore e un commento.

Refer a friend

Discussion about this post

Ready for more?