Il modo in cui nominiamo le cose che contiamo e misuriamo “conta”
Tassonomia, rappresentazione e disuguaglianze. Le solite cose. In più, un video sui dati sintetici
In questo numero: la parte più difficile e affascinante della raccolta dati è il momento in cui devi decidere cosa includere e cosa escludere nella tua misurazione. Ed è anche quando possono nascere possibili future discriminazioni.
E poi: cosa sono i dati sintetici? No, non sono dati che fanno una sintesi della mole di dati che ci sono in giro. E lo specifico perché in questi giorni mi trovo insieme a un gruppo che segue un workshop sulla curation dei dati in ambito museale e quando ho raccontato che mi sarei allontanata un’oretta per fare la diretta con Clearbox AI in tema “dati sintetici” ho visto molti occhi sgranati.
Anche le persone interessate ai dati spesso non sanno di cosa si tratta e non ne hanno mai sentito parlare. Eppure sono uno strumento che può aiutare a mitigare non solo la discriminazione algoritmica intesa come prodotto e risultato dell’apprendimento da dataset pieni di bias ma anche discriminazione tra enti, aziende e paese che hanno in questo momento le risorse per produrre set di dati reali per allenare i propri sistemi di machine learning. Nel box più sotto trovate una sintesi della diretta con Shalini Kurapati, ceo, co-founder di di Clearbox AI e bravissima divulgatrice sul tema che mi ha detto “sono diventata imprenditrice per cambiare il mondo”. Da ascoltare.
E ora, entriamo nel vivo.
Così gli esseri umani rimangono senza parole e impotenti di fronte a un’ingiustizia che non può essere tradotta col linguaggio in modo che un numero sufficiente di persone la intenda come un’ingiustizia. E di conseguenza la loro realtà rimane invisibile agli altri.
Kübra Gümüsay, Lingua e essere (Fandango Libri)
Nelle prime pagine di “Rumore visivo” (Mimesis Edizioni) Valeria Burgio racconta di quando si trovò a raccogliere dati per un progetto di comunicazione con l’obiettivo di mettere in relazione turismo e migrazione a Venezia. Bene. Quali dati cercare? I pernottamenti in hotel, gli arrivi delle navi da crociera, la nazionalità degli stranieri residenti, per esempio. Tutti dataset reperibili abbastanza facilmente. Ma sono sufficienti per fotografare la situazione? Come faccio a contare i turisti che arrivano a Venezia senza dormirci, per esempio? O gli stranieri irregolari che ci transitano solo per lavorare in giornata? Burgio capì che alcuni di questi dati doveva procurarseli da sola, letteralmente appostandosi nei parcheggi dalle 5 di mattina per contare i lavoratori a giornata in fila di fronte ai cancelli chiusi a Marghera.
Sperimentammo in modo diretto allora come i dati non siano sempre “dati”, ma faticose costruzioni che comportano una possibilità di errore piuttosto alta.
Ma spesso il problema non riguarda solo il fatto di procurarsi i dati. Ancora più importante è decidere cosa rientra in una categoria e cosa ne resta escluso, e quali sono le conseguenze di queste scelte.
Nell’architettura delle informazioni, cioè nella disciplina che si occupa di come costruire relazioni tra contenuti e fra i diversi ambienti in cui comunichiamo, si usano i concetti di ontologia, tassonomia e coreografia. Anche per i dati ontologia e tassonomia sono importanti ma sono termini che vengono citati poco nell’ambito della data literacy, perché possono sembrare troppo tecnici.
Vi metto un’illustrazione che Federico Badaloni, architetto delle informazioni per il gruppo GEDI, uno dei maggiori esperti di IA in Italia e mio collega a IULM nel nostro corso di Architettura dell’informazione e Data Visualization, ha mostrato il primo giorno di lezione:
(fonte)
Secondo me, per capire come sono misurati i fenomeni e fare qualsiasi commento a numeri e percentuali (e grafici e mappe), dobbiamo davvero sapere COSA è stato contato, quale significato è stato dato a una certa categoria (una colonna su un foglio di calcolo) e quale informazioni possiamo ricavarne: approfondendo il tema di solito si scopre che il pezzo di realtà che sto osservando non è mai davvero completo, perché rappresentare la realtà con i dati (e poi i grafici) vuol dire fare delle scelte.
Per dimostrare che in ogni misurazione c’è una dose di incertezza, che deriva anche dalla scelta di nominare quello che osserviamo prima di quantificarlo, Michael Blastland, produttore del programma radiofonico di data literacy della BBC More or Less, usa questa fotografia:
Quante pecore ci sono sul prato? Due, ci viene da dire. Immaginiamo però che una delle pecore sia in realtà un agnello, e che l’altra sia incinta, vicina al parto: anzi, il travaglio è già iniziato, potrebbe partorire da un momento all’altro. Quante pecore contiamo ora?
Se avete mai provato a prenotare un ristorante per una famiglia in cui sono presenti dei bambini di diversa età vi siete scontrati con un problema simile: per quanti vuole il tavolo signora? Ehm, dunque, siamo 4 adulti, un bambino di quattro anni, uno di un anno e mezzo e un altro di sei mesi. In ogni caso due seggioloni per favore.
Quanti coperti avrà contato il ristoratore? Di sicuro nei viaggi in treno questo gruppo di persone paga per 5 ma occupa posti per 7.
Insomma, contare non è così facile come sembra.
In un contesto aziendale lo scenario può ripetersi a più livelli: misurare per esempio la produttività dei lavoratori o l’engagement degli utenti presuppone il definire cosa osservare, quali sono gli elementi utili che possono rientrare nella mia quantificazione e quali escludere. Cos’è un’interazione, per esempio? Un commento, una telefonata al call center, una condivisione di un acquisto? E come fa un’azione a essere “produttiva”? Definire l’ontologia, prima della tassonomia, è ancora una volta fondamentale. Se una persona che lavora da casa aggiunge due ore tra le 6 e le 8 di mattina per portare a termine un progetto, è stato produttivo? Se misuro solo “la consegna” del progetto sì. Se misuro il suo livello di stanchezza e quanta lucidità avrà per lavorare anche il giorno dopo, forse no. Insomma, dipende da quanto desiderio e lungimiranza ho nel voler valutare una situazione nel suo insieme, nel modo più inclusivo possibile.
Anche cercando di capire se mi sto perdendo dei pezzi di realtà, se qualcosa resta fuori dalla mia osservazione.
Racconta ancora Valeria Burgio della sua esperienza a Venezia:
(…) ci scontravamo con elementi inclassificabili: una studentessa, ad esempio, per intoppi burocratici legati alla nazionalità dei genitori e una vita, diciamo così, non radicata in un luogo fisso, era stata definita per legge apolide, senza nazionalità. Questa sua appartenenza a una categoria residuale – sospesa tra i diversi paesi in cui aveva vissuto – la bloccava adesso all’interno dei confini italiani, senza possibilità di uscire, perché priva di un’identità compatibile con il sistema degli stati-nazione. Era lei stessa un caso studio, che metteva in evidenza come l’appartenenza categoriale a una classe piuttosto che a un’altra, o peggio ancora la non appartenenza ad alcuna classe qualificabile e quantificabile, avesse conseguenze sulla vita personale.
Dare un nome alle cose le fa esistere
Contare ed essere contati ha una diretta rilevanza sulla propria vita. Mona Chalabi lo racconta nella sua serie Am I normal per TED in cui affronta la questione della mancata rappresentanza di moltissime categorie di persone di origine straniera nel censimento degli Stati Uniti, che si trovano costrette a scegliere tra il definirsi “bianche”, “asiatiche” o “nere” senza altre opzioni. È un problema quando non vengono presentati i dati disaggregati, ma ancora di più quando ancora non sappiamo nominare quello che vogliamo contare. C’è un intero saggio di Deborah Stone sul tema (Counting: How We Use Numbers to Decide What Matters"), lo racconta Catherine D’Ignazio nella storia del termine “Femminicidio” e lo definisce perfettamente in tutte le sue pagine la linguista Kübra Gümüsay in Lingua e Essere:
La studiosa Miranda Flicker ha dimostrato con l’esempio delle molestie sessuali quali conseguenze possono esserci quando non è possibile dare un nome agli abusi. Negli anni Sessanta il concetto di “molestia sessuale” non era ancora molto diffuso negli Stati Uniti, non c’era nessun accordo sociale su cosa descrivesse. Per esempio, una molestia sul posto di lavoro poteva essere interpretata come flirt o addirittura come un complimento: il capo che molestava non era consapevole della propria colpa e traeva profitto da una mancanza di comprensione, mentre l’impiegata molestata non poteva né dare un nome a quanto avvenuto né prendere provvedimenti per difendersi in futuro. La sua esperienza non esisteva. Solo con il diffondersi del concetto e di una consapevolezza condivisa sulla molestia sessuale è stato possibile problematizzare l’abuso a livello sociale.
Riflettere sull’ontologia e poi la tassonomia degli “oggetti” che vogliamo osservare e misurare è un approccio femminista ai dati. Perché significa non dare per scontato che la misurazione che faremo ci rivelerà l’unica e sola possibile verità su quel fenomeno, che può evolvere, cambiare e includere sempre più persone mano a mano che troveremo il modo di nominare loro e le loro esperienze.
Questa newsletter è sostenuta da: Clearbox AI
In diretta con Shalini Kurapati abbiamo cercato di dare una definizione di dati sintetici e capire quali sono gli ambiti di applicazione. Questi i punti principali che mi porto a casa:
I dati sintetici stanno diventando un argomento caldissimo grazie alla democratizzazione delle AI generative, perché ci stiamo chiedendo da quali dati sono allenate e se questi sono trattati in modo etico.
I dati sintetici sono dati generati sinteticamente, “fittizi”, ma sembrano veri: sono fatti da un algoritmo generativo che si basa su dati veri. Un esempio pratico è quello che riguarda i dati sulle frodi delle carte di credito: non ce ne sono abbastanza per allenare gli algoritmi a riconoscerle (per fortuna!), quindi ne produciamo di sintetici per aiutare le AI a capire cosa è frode e cosa non lo è.
Spesso le aziende non hanno abbastanza dati per lavorare, per problemi molto concreti: la privacy, il costo di estrazione e produzione dati, ma anche le tempistiche per spostare dati da un continente all’altro (pensiamo alle multinazionali che operano in più paesi). I dati sintetici sono ottimi per testare modelli e prodotti prima di metterli in produzione, a un costo minore.
I dati sintetici ripetono i bias che esistono dei dataset di partenza? Sono state fatte tante domande su questo tema e Kurapati ha spiegato che in realtà i dati sintetici correggono i bias presenti sui dataset di partenza. Per esempio quando manca la rappresentazione di un comportamento o di una popolazione, li “aggiunge”.
La resistenza più grande all’uso di dati sintetici è la scarsa conoscenza sul tema.
Ma su questo, forse, abbiamo fatto almeno un passetto in più con la diretta con Clearbox AI.
La dataviz della settimana
Un lavoro illustrato e interattivo di Reuters mostra perché secondo la scienza dormire è più importante di quanto si pensi. Questo è lo screenshot della parte più banale di tutto lo scroll, andate a vedere il resto:
Il tour (ricomincia)
Il 6-7 maggio mi trovi a Bologna per Reclaim the tech, un evento in cui metteremo in pratica quanto ho raccontato in questa newsletter. Con un workshop insieme a Period ThinkTank, la sottoscritta e la ricercatrice e giornalista Josephine Condemi.
Il 18 maggio sono a Milano sul palco di Stand up for Girls!, evento annuale dell’ong Terre des Hommes.
Il 21 maggio al Salone del Libro di Torino presento il libro “Ciclo” pubblicato da Quinto Quarto editore con l’autrice Natalie Byrne e con l’attivista e attrice Chiara Becchimanzi.
Il 22 maggio al Salone c’è un laboratorio per le scuole sul libro “Dentro l’algoritmo”, ma bisogna prenotarsi.
Il 27 maggio sono a Trieste per il festival di Parole Ostili.
Grazie di aver letto fino a qui, mercoledì prossimo torna l’appuntamento con la data guest star del mese e un elenco di tool, risorse e letture a tema dati e tecnologia. A marzo avevo dialogato con Serena Canu, che lavora come data scientist umanista per il sistema bibliotecario pubblico della Danimarca.
Per il resto della settimana mi trovi anche su Notes, il Twitter di chi scrive su Substack.
Condividi questo numero con il comodo bottoncino giallo: