"I dati sono un desiderio e un'illusione di oggettività"
3 domande alla data guest star di oggi, 3 risorse da provare, 3 letture consigliate e due libri
Oggi è di nuovo l’ultimo mercoledì del mese e torna la rubrica con la Data Guest Star.
Questa newsletter è sostenuta da Clearbox AI, azienda che ha sviluppato una tecnologia che automatizza la creazione di dati sintetici e che può essere applicata a qualsiasi settore.
E adesso conosciamo la star, che per l’ospite di oggi non è un eufemismo, dato il seguitissimo lavoro che porta avanti su Instagram sui temi della ricerca scientifica e delle neurodivergenze.
Tra i post che tiene “fissati” sul suo profilo ce n’è uno che fa capire subito perché la stimo moltissimo e ho voluto che fosse un’ospite di questo spazio: dichiara infatti che “la scienza è politica”, anche se nelle scuole e attraverso i media si diffonde spesso un’immagine della scienza come neutra, oggettiva, apolitica. Sì, perché se i dati non sono neutri, come ripeto spesso, è pure importante
sottolineare gli aspetti politici che permeano la ricerca: chi può accedervi, chi la paga, chi la fa, su chi o che cosa la fa, su chi o che cosa ha conseguenze.
Sto parlando di Eleonora Marocchini, psicolinguista, ricercatrice, formatrice e comunicatrice della scienza sotto il nome di @narraction e per il Centro di Eccellenza per gli Studi Transdisciplinari (@cest_ita). È dottoressa di ricerca in scienze cognitive con un background in linguistica, ha costruito la sua formazione a cavallo tra le scienze umane e biomediche. Si occupa di pragmatica, spettro autistico, scienza aperta e linguaggio ampio, cercando di conciliare obiettivi e metodi della ricerca scientifica e istanze e riflessioni delle comunità.
Mi ha scritto dicendo che avrei potuto tagliare a piacere le sue risposte, ma non lo farò, perché oltre a essere competente e preparata nella sua materia, Marocchini scrive anche molto bene. Le sue parole sono oro, su questi temi.
3 domande sui dati a... Eleonora Marocchini
1. Mi racconti cosa sono i dati per te?
I dati per me sono stati il tentativo di abbracciare una realtà più ampia di quella che potevo osservare aneddoticamente; sono stati e sono ancora insieme un desiderio e (oggi lo vedo molto chiaramente) un'illusione di oggettività. Da persona passata dalle scienze umane alle scienze cognitive l'idea di raccogliere e "lasciar parlare i dati" mi affascinava molto. Dopo 4 anni nel quantitativo sono d’accordo con la battuta da statistici che “we should only let data speak for themselves when they have learned to clean themselves” [trad. di Donata: dovremmo lasciar parlare i dati da soli quando avranno anche imparato a pulirsi da soli]. I dati non parlano e soprattutto non sono fatti: esistono perché delle persone li hanno raccolti e codificati secondo la loro visione del fenomeno che loro credono che quei dati, così raccolti, descrivano; e sono comunque, spesso, interpretabili in più modi a seconda dei punti di vista.
2. Qual è una criticità del tuo ambito di lavoro dove l’uso, la citazione o la cattiva interpretazione dei dati e delle statistiche può fare dei danni?
La psicologia tutta è caduta da tempo nella cosiddetta "crisi della riproducibilità". Del resto, "se si torturano i dati abbastanza a lungo, confesseranno qualsiasi cosa" (semicit). Non credo però che pubblicare risultati non riproducibili sia di per sé un danno irreparabile - trovo molto più dannoso porre la scienza su un piedistallo così alto e distante dalla fallibilità umana (che pure permea ogni fase della ricerca scientifica) da non saper prendere ogni risultato con le pinze (perché no, che sia pubblicato su Nature non rende necessariamente il risultato più attendibile - è pieno di frodi e di bias anche lì, come @cest_ita divulga).
Per quanto mi riguarda, trovo più gravi i potenziali danni dell'uso strumentale (o anche solo interpretazioni assolutiste) dei dati sulle persone e in particolare su quelle che non rientrano nella norma neurologica o psicologica. Penso all'uso normativo che si fa dei risultati dei test del quoziente intellettivo, che storicamente è stato alla base di infiniti orrori, dal razzismo scientifico all'eugenetica, e ancora oggi è utilizzato spesso erroneamente per decidere se persone neurodivergenti abbiano o meno bisogno di supporto. O allo stigma che porta su alcuni popolazioni psichiatriche l'interpretazione essenzialista dei test di empatia, per cui le persone vengono considerate un po' "meno umane" se hanno risultati inferiori alla media neurotipica. Il problema fondamentale sottostante a ogni esempio che mi venga in mente, però, è l'interpretazione normativa di quello che dovrebbe essere uno strumento descrittivo: la statistica tutta, di fatto.
3. C’è un “dato” o un modo di usare i dati che può essere rivelatorio secondo te negli ambiti di cui ti occupi? Puoi citare lavori di altri, buone pratiche, magari un a-ha moment che hai avuto guardando un dato o un grafico...
Trovo abbastanza significativo che nello studio di specifiche popolazioni ci sia sempre un confronto con un gruppo di controllo, in modi che, anche a livello di modelli statistici impiegati, appiattiscono la variabilità individuale in favore di un confronto "tra gruppi", appunto. E che i materiali costruiti per raccogliere i dati nascano sempre dal brainstorming e conseguente "norming study" (per cui i materiali sperimentali si dicono poi, appunto, "normati") di e su persone che appartengono al gruppo di controllo. Per me è stato sconvolgente leggere i pochi studi disponibili sulla teoria della doppia empatia quello che era sempre stato concettualizzato come un deficit di empatia cognitiva, e conseguentemente anche nella comunicazione, nell'autismo: se per una volta si smette di testare solo (come sempre) quanto le persone autistiche capiscano le persone neurotipiche, e si prova a testare (o chiedere loro!) quanto le persone autistiche si capiscano fra loro, o le persone neurotipiche capiscano le persone autistiche (l'ha fatto Gemma Williams nel 2021 e l'ho fatto io di recente, stay tuned), si scoprirà (almeno, al momento sembra così) che - se dovessimo applicare la stessa logica "normativa" a questo caso di - per così dire - ribaltamento di prospettiva, dovremmo ammettere che le persone neurotipiche hanno un deficit nell'empatia cognitiva autistica, che naturalmente non è mai stata concettualizzata, appunto perché i dati da soli non parlano, e dati che potessero dirci questo non li avevamo mai raccolti, perché la scienza è politica e non è esente, com'è evidente, da squilibri di potere tra chi studia e chi è "oggetto", e mai "soggetto", di studio.
[Applausi. Miei, ma secondo me anche vostri a questo punto]
Questa newsletter è sostenuta da: Clearbox AI
Preservare la privacy dei dati mantenendo l'utilità: ora si può!
Molto di quanto ci circonda ruota intorno ai dati. Ad esempio, le aziende impiegano queste informazioni per effettuare analisi, predizioni, migliorare l’offerta verso i propri clienti e supportare l’open innovation. Quando i dati sono sensibili, però, devono essere trattati con particolare attenzione a livello di privacy.
C’è una soluzione che permette di cogliere al meglio tutte le opportunità della condivisione dei dati senza compromettere la preservazione della privacy: la generazione di dati sintetici.
I dati sintetici di Clearbox AI aiutano a proteggere i dati sensibili conservando la loro utilità iniziale:
Sono dati generati da algoritmi di AI sulla base dei dati reali.
Essendo simili ma non uguali ai dati originali, riducono il rischio di re-identificazione delle informazioni personali.
Possono essere condivisi rispettando i principi del GDPR.
Vuoi saperne di più?
La dataviz della settimana
L’Economist ha provato a misurare le emissioni di gas serra nella produzione di diversi cibi anche rispetto al loro apporto di proteine e calorie nella nostra dieta. Ecco a voi il Banana Index (immagine interattiva alla pagina originale)
La lista delle risorse del mese
📒 Da leggere
Come la redazione del New York Times ha imparato a usare i dati per fare giornalismo.
Il mito dei dati oggettivi: un brano del libro “Everyday Adventures With Unruly Data“ di Melanie Feinberg pubblicato su MIT Press.
Le vie del tracciamento dei dati sono infinite. Google lo fa (anche) attraverso Google Fonts.
🧰 Da provare
Fare scraping di dati senza saper programmare, semplicemente usando Google Fogli. Il tutorial di Samantha Sunne.
Papers with code è un archivio aggiornato di paper scientifici in cui c’è un riferimento all’avanzamento del machine learning. Mai più senza, mi dicono le amiche data scientist.
Un tool per animare i disegni dei bambini, se lo provate vi prego mandatemi i risultati, sono molto curiosa.
Un libro, anzi due
Sto leggendo “Sono normale?” di Sarah Cheney (Bollati Boringhieri), libro che è perfettamente in linea con l’intervista di oggi. Da dove arriva il presunto concetto di normalità, che definisce ogni aspetto della nostra vita, dal corpo allo stato sociale? Ha solo 200 anni di vita. Prima la parola normale era applicata solo alla matematica. Oggi invece ci mettiamo a confronto continuamente con un modello di persona “media” che… non esiste! E soprattutto è misurata solo in base alle caratteristiche di una piccola popolazione, quella cosiddetta weird, western, educated, industrialized, rich, democratic, e anche male e white, aggiunge l’autrice. Vorrei scriverne in modo più ampio, ma intanto lo consiglio perché lo trovo adatto anche a un pubblico di persone non addette ai lavori (cioè va bene anche se non sai niente di matematica, statistica o scienze sociali). Am I normal, cioè sono normale, è anche il nome della serie di video educational di Mona Chalabi sul sito del TED, da non perdere (e da qui la mia scelta di mettere uno screenshot su normalità e outliers come immagine per la condivisione di questa newsletter).
Il libro del mese del Data Book Club è “Discriminating data” di Wendy Hui Kyong Chun e le persone iscritte si dividono tra chi non vuole nemmeno aprirlo, chi ha cominciato e l’ha chiuso subito, e chi sta procedendo a fatica. Ne stiamo discutendo con trasporto sul gruppo Telegram, e il 29 maggio lo faremo online. Puoi venire anche se fai parte del primo team e non lo leggerai mai :)
Bene, anche questo mercoledì è andato. Ci sentiamo la prossima settimana!