"I dati sono immondizia, nel senso di scarti che ci lasciamo dietro"
3 domande alla data guest star di oggi per un viaggio nel mondo delle AI in ambito medico e ginecologico
Oggi è l’ultimo mercoledì del mese e le persone iscritte da tempo si ricorderanno (forse) che è il giorno in cui c’è una Data Guest Star a rispondere alle mie domande sui dati. L’ospite di oggi non ha filtri: lo pubblico senza editing e dopo aver letto le sue risposte sono certa lo andrete a cercare in altri canali.
Ho pensato di intervistarlo un anno fa, dopo aver letto dei tweet in cui raccontava come stava procedendo il suo lavoro con una start up di intelligenza artificiale nell’ambito ginecologico e finalmente ci sono riuscita.
Questa newsletter oggi ha 4708 persone abbonate e vuole crescere, soprattutto in contenuti e collaborazioni. Ecco perché oltre alla possibilità di sponsorizzarla, potete sostenerla con un contributo mensile o annuale (e grazie a chi l’ha già attivato 💛)
Prima di lasciarvi alla presentazione e all’intervista vi ricordo che oggi alle 19:30 da Sparwasser presento il nuovo libro di Laura Tripaldi, “Gender tech” (edito da Laterza).
Parla di come la scienza abbia sempre tentato di controllare il corpo delle donne, anche e soprattutto presentandosi come “neutra”. L’intervista di oggi cade a proposito.
3 (+1) domande sui dati a... Roberto Pasini
Conosco Roberto Kalamun Pasini tramite la rete del Freelancecamp (santa, santissima, in questi anni di partita iva) da diversi anni, prima “solo” come designer, poi esperto di data viz, ora dipendente di una start up tecnologica. Il modo in cui scrive di sé e del suo lavoro sui social non è mai scontato e vi verrà voglia di seguirlo in ogni dove. Qui c’è il suo sito e il suo Linkedin.
Che altro dire di te, Roberto?
Nella vita ho fatto il grafico pubblicitario, il programmatore, ho disegnato animazioni e insegnato data visualization, ho lavorato per la Nato e sono scampato di un soffio a un attentato - che non era comunque rivolto a me. Sono anche apparso alla BBC con la mia ricetta dello spritz.
Molti anni fa mi sono trasferito a Parigi e un po' per caso tra i miei clienti - ero freelance - è capitata una startup di AI in ambito cardiologico, ora acquistata da Philips.
Forte di quell’esperienza durata alcuni anni, sono entrato a far parte di un progetto bellissimo chiamato Sonio, che punta a migliorare la patient journey delle donne incinte grazie alla AI.
Abbiamo sviluppato alcuni software basati su intelligenze artificiali e algoritmi statistici per aiutare i medici e gli operatori di tutto il mondo a condurre migliori esami di screening, senza dimenticare niente e senza commettere errori, e per supportare specialisti e genetisti a identificare anomalie e sindromi, anche molto rare e poco conosciute, a partire da fattori di rischio e anomalie osservate nei feti. Questo permette alle donne di poter affrontare la propria gravidanza con più serenità o almeno con più consapevolezza, e di poter prendere delle scelte in linea con i propri valori.
Io mi sono occupato principalmente dello sviluppo di interfaccia e dei test utente.
1. Mi racconti cosa sono i dati per te?
Sono immondizia, nel senso di scarti che ci lasciamo dietro.
Se dai un'occhiata all'immondizia di un palazzo, senza conoscerne gli abitanti, puoi capire tantissime cose. Tipo dove vanno a fare la spesa, con che frequenza, se sono single o hanno figli, quante volte scopano, quanta corrente consumano o se hanno problemi di salute. Con un po' di fatica puoi anche provare a mettere insieme molte di queste informazioni e dedurre dei profili personali, addirittura delle correlazioni tra informazioni («ovvio che prende farmaci per il colesterolo, con tutti quegli hamburger surgelati che mangia!»).
In alcuni casi puoi anche azzardare delle previsioni, basate sulla tua esperienza («hanno smesso di bere alcolici, tra poco mi sa che nasce un pargolo»).
Ma devi sempre ricordare che forse stai sparando cazzate, e l'unico modo per essere sicuri è entrare nel palazzo, bussare alle porte e guardare in faccia le persone.
2. Quali sono stati i passaggi più importanti per lo sviluppo di Sonio? Quelli che oggi, a riguardare indietro il percorso di sviluppo (durato due anni se non sbaglio), hanno fatto proprio la differenza?
In questo momento siamo nel terzo anno di sviluppo di Sonio, che non è ancora un prodotto finito anche se è sufficientemente maturo da poter essere utilizzato. La più grande difficoltà è stata quella di dare valore clinico ai nostri algoritmi e alle nostre interfacce, cioè dimostrare che il nostro software funziona davvero e dà un reale vantaggio ai medici senza introdurre potenziali rischi. È una procedura richiesta per ottenere le certificazioni (FDA e CE nel nostro caso) senza le quali il software non può essere utilizzato in ambito clinico, ma solo in ambito di ricerca. Ma ancor prima è un modo per sbattere la faccia violentemente contro l'evidenza scientifica. Non hai idea - sì, tu ce l'hai - di quanti bias ci creiamo per convincerci che le cose funzionano.
La scienza se ne sbatte delle nostre convinzioni, vuole evidenze.
E ha ragione: questo percorso, durato un anno, ha tirato fuori moltissimi errori che stavamo facendo, o leggerezze da parte nostra.
Non solo gli algoritmi sono stati messi alla prova, ma anche la chiarezza delle interfacce e i processi messi in opera per far evolvere il prodotto senza introdurre nuovi errori.
Concretamente abbiamo fatto decine di test utente, sia usando dei simulatori costruiti ad hoc, sia in presenza durante vere ecografie. Li abbiamo fatti qui in Francia e negli USA, e tra questi due paesi ho potuto vedere una grande differenza sia nella pratica medica, sia nella popolazione delle pazienti.
Non voglio dilungarmi troppo, ma per esempio negli USA sono molto più presenti alcuni fattori di rischio, come l'obesità, mentre in Europa l'età della madre è più elevata, e anche questo è un fattore di rischio. Abbiamo anche sistemi sanitari diversi, con regole specifiche da seguire e una diversa possibilità di accesso alla diagnosi perché in Europa tutto è coperto dai sistemi sanitari, mentre negli USA devi essere assicurato e questo influenza anche il rischio che un medico è disposto a prendere nel fare una diagnosi. Per non parlare delle leggi sul diritto all'aborto.
È interessante sapere anche che in Cina e India è vietato comunicare il sesso del feto ai genitori, per ridurre gli aborti illegali nel caso il feto sia femmina, e quindi abbiamo dovuto prendere in considerazione anche queste eccezioni per accedere ai loro mercati.
Insomma, più esplori il mondo della medicina più scopri che la complessità è ovunque, e va gestita.
Un'altra sfida è stata comunicare l'incertezza che necessariamente si ha in ambito medico.
Quando leggiamo dati abbiamo l'impressione che descrivano la realtà assoluta, ci sembra di leggere la verità. Ma non è quasi mai così e noi, per non indurre in errore i medici e gli ostetrici, abbiamo dovuto comunicare al meglio il grado di incertezza dei nostri risultati. L'abbiamo fatto con delle note, fornendo intervalli invece che valori precisi, e escludendo colori che fossero facilmente riconducibili a scale di giudizio, come rosso, giallo e verde.
Per dimostrare l'efficacia dei nostri software abbiamo anche condotto degli esami in retrospettiva, cioè abbiamo acquistato centinaia di esami già fatti e li abbiamo riprocessati coi nostri algoritmi per vedere se il risultato coincideva con quello atteso e se addirittura lo migliorasse. Per accedere a questi esami abbiamo dovuto anonimizzarli, che è un processo davvero interessante perché non basta togliere il nome della paziente, ma anche rimuovere tutte le informazioni e i metadati che potrebbero essere combinati per risalire a lei, ad esempio il nome dell'ospedale e la data dell'esame, e tutte le informazioni cliniche che non sono necessarie ai test.
Al tempo stesso abbiamo dovuto dimostrare che il nostro campione era sufficientemente vario in termini di ceti sociali, gruppi etnici, geografia, fattori di rischio, ma non avevamo queste informazioni essendo state rimosse dagli esami, quindi è stato necessario spiegare le modalità di raccolta dei dati per poter dimostrare di avere una popolazione sufficientemente varia e rappresentativa della realtà.
Una parte più piccola di questi esami è anche stata oggetto di un confronto tra analisi umana e AI: abbiamo chiesto a diversi medici di evidenziare le strutture biologiche di alcune decine di immagini, e le abbiamo confrontate con quelle che noi rilevavamo. Noi facevamo degli errori ogni tanto, ma non ti dico quanti ne fanno i medici, spesso per distrazione o stanchezza e non per incompetenza.
Spesso dimentichiamo che il vantaggio delle AI non è tanto - o non solo - la competenza, ma l'instancabilità.
In ultimo abbiamo messo in piedi dei protocolli di documentazione e validazione di tutte le modifiche, anche le più piccole, con test automatici e manuali da eseguire prima di ogni release. E questo è un inferno di burocrazia necessario per ogni minima modifica. Anche se vuoi solo cambiare il bordo a un pulsante, devi passare per i protocolli di verifica. Pensa che tutto il software viene descritto nei minimi dettagli e i tecnici dell'FDA, che sono davvero bravissimi, non vedono mai il software, ma se lo immaginano dalle descrizioni che fornisci. Questo li aiuta a non avere bias cognitivi e a capire se la documentazione è sufficiente. E proprio partendo dalla documentazione hanno rilevato dei problemi, sia di algoritmo sia di interfaccia, che erano reali e di cui noi non ci eravamo accorti.
Ecco, tutta questa fase molto complessa ha fatto davvero la differenza. È stata molto faticosa ma ci ha permesso di passare dall'essere dei «wanna be innovativi», ad avere consapevolezza e confidenza nelle nostre capacità. Specifico che ad oggi siamo circa 40 persone che lavorano attorno a questo progetto, la maggior parte da dipendenti e alcuni da collaboratori.
3. Nel momento in cui le parole "intelligenza artificiale" sono sulla bocca di tutti e ci si divide in chi la osanna e in chi la teme, cosa succede in ambito medico, secondo la tua esperienza?
C'è grande entusiasmo e, di conseguenza, ci sono grandi investimenti. A fronte, ci tengo a dirlo, di spese altissime per lo sviluppo di queste tecnologie. Però a differenza delle AI che fanno clamore oggi, in ambito medico ci sono regolamentazioni davvero severe.
La tecnologia esiste, funziona abbastanza bene, ma arriva sul mercato anni dopo il primo prototipo. E ora che ho vissuto personalmente il percorso di validazione, mi sono convinto che sia giusto così. È una questione di affidabilità clinica.
Ma c'è un rischio: in assenza di alternative, le persone chiedono pareri medici a ChatGPT, esattamente come prima facevano su Google. E ChatGPT non solo non è un bravo medico, ma non possiede nemmeno la loro cartella clinica.
Credo che culturalmente sottovalutiamo la complessità della medicina. In genere sottovalutiamo la complessità di qualsiasi cosa, ed è per quello che riteniamo soddisfacente ogni cagata che esce da ChatGPT.
Comunque: in medicina le AI non vogliono rimpiazzare i medici, ma aiutarli. Mi sono chiesto se un medico o un tecnico possano sentirsi minacciati dalle AI, come lo sono i copy, i grafici, i musicisti, i segretari e quasi ogni altra categoria del terziario.
In alcuni test utente che abbiamo fatto, solo in alcuni, ho assistito a due cose:
alcuni medici denigrano ed escludono le AI, con pretesti vaghi, invece di usarle per migliorare la propria pratica;
alcuni medici si sentono giudicati da un sistema che mette in evidenza le loro dimenticanze o la qualità non sufficiente delle loro ecografie. Visto che i loro responsabili hanno accesso a quelle informazioni, li mette in difficoltà. Preferiscono poter insabbiare gli errori.
Queste resistenze vanno sicuramente affrontate, i medici e i tecnici vanno rassicurati e capiti, occorre spiegargli bene che le AI sono un supporto e non un agente di controllo.
Non credo comunque ci siano alternative all’utilizzo di AI nel futuro della medicina.
3+1. Tu insegni anche data visualization e io ti ho conosciuto come (graphic) designer. Hai suggerimenti per chi vuole fare un percorso professionale simile al tuo?
Ho fatto molte cose molto diverse nella vita e non consiglio a nessuno di seguire un percorso come il mio.
Io sono la scimmia che ha sbattuto la clava a caso su centinaia di tastiere fino a quando una ha scritto la ricetta per lo spritz.
Non sono incline a dar consigli, ma credo che andare all'estero, e non dico qualche mese per l'Erasmus ma veramente prendere e partire, sia una delle cose migliori che io abbia fatto per diventare un professionista migliore, e soprattutto una persona migliore.
Non perché in Italia si stia male, ma perché è necessario togliersi di dosso tutte le abitudini, le convinzioni, le sovrastrutture e le comodità che ogni luogo d'origine impone a chi ci è nato.
E non bisogna farsi spaventare dalle lingue, dai prezzi, dal cibo: tutto si risolve facendolo.
La dataviz della settimana
Cercavo una visualizzazione sullo spritz in onore di Roberto, ma ne ho trovata una sulla birra del Washington Post. Poi mi son detta, perché non pubblicare l’annuale raccolta dati di quantified self che realizza ogni anno Roberto sulle bottiglie bevute negli ultimi 12 mesi? Eccola.
La lista delle risorse del mese
📒 Da leggere
Parole visive, vive e politiche. Una riflessione di Federica Fragapane sul linguaggio usato mentre si disegnano e presentano dati.
Vecchio ma da salvare nei preferiti: nell’era della disiformazione (e delle AI generative, aggiungo) chi categorizza i contenuti detiene il potere di stabilire cos’è la verità.
Nel 2022, i maggiori successi musicali (Billboard hot 100) sono stati scritti in media da 6 autori, di questi 5 erano uomini e soltanto 1 donna. Su The Pudding. Via Marco Cortella.
🧰 Da provare
Usare ChatGpt per creare storie per bambini. (via Giuseppe Sollazzo)
Un tool per visualizzare la struttura degli algoritmi.
Quale browser protegge meglio la tua privacy? Confronta qui.
Notizie dal DataBookClub
Abbiamo aggiunto una data agli appuntamenti che di solito teniamo ogni due mesi per leggere non uno, ma ben due volumetti: sono “La tecnologia è religione” e “La Matematica è politica” di Chiara Valerio (entrambi Einaudi). Dopo vari saggi e testi sull’intelligenza artificiale e sui nostri bias nell’interpretazione dei dati, abbiamo scelto questi due pamphlet per discutere insieme di un punto di vista “schierato” ed esposto in modo chiaro e diretto sulla matematica e sulla tecnologia. Ci vediamo il 25 ottobre online!
Bene, anche questo mercoledì è andato. Ci sentiamo la prossima settimana!
(Gli eventi a cui partecipo li ho aggiunti a questa pagina, spero sia comodo consultarli così)
Super intervista, e metafora davvero calzante. 😅