"A volte i dati con cui lavoro sono vittima di decisioni del passato" - il machine learning... in biblioteca
3 domande alla data guest star di oggi
Oggi è l’ultimo mercoledì del mese e torna la rubrica con la Data Guest Star.
E anche questa newsletter è sostenuta da Banca Etica, l’unica banca di cui non devi vergognarti di essere correntista, soprattutto se porti avanti certe battaglie.
Ma ora, un benvenuto in piedi con le mani alzate che applaudono sugli spalti di uno stadio pieno di persone all’ospite di oggi. [Scusate, troppe ore a digitare prompt su Midjourney ieri sera]
Si definisce una “novellina dei dati”, ma il suo ambito di lavoro è estremamente affascinante perché unisce competenze umanistiche e legate al mondo della cultura (dei libri) e competenze altamente tecniche, come la conoscenza di linguaggi di programmazione.
Lei è Serena Canu, vive in Danimarca e mi dice, ha avuto un percorso “abbastanza variegato, partendo da studi e lavori legati alla comunicazione, per poi passare alla gestione di una piccola attività ricettiva e arrivare, ormai quasi 3 anni fa, a una laurea in Information science and cultural communication presso la facoltà umanistica dell’Università di Copenhagen”.
Un giorno farò un numero dedicato al concetto di outlier, anomalia dei dati, e della presunta curva della normalità, e tra i puntini anomali ci troverete sicuramente il profilo di Serena e anche il mio, per questo era fondamentale che apparisse in una delle mie newsletter.
Mi racconta Serena che è proprio durante il suo ultimo percorso di studi che ha cominciato a riflettere sia sull’etica dell’informazione che sulle modalità di raccolta e uso dei dati per la valutazione dei sistemi informativi e delle ricerche sugli utenti.
Molto interessante che all’università abbiano discusso “dei benefici e delle problematicità dell’uso dei dati nell’ottica di categorizzazione di tipologie di persone, che si trattasse dell’uso di algoritmi a supporto delle pubbliche amministrazioni, di identità digitale, di come le piattaforme social gestiscono i dati degli utenti per indicare o bloccare metodi di utilizzo o di come sarebbe opportuno svolgere analisi di dati sugli utenti per poter generalizzare (o meno) risultati in maniera responsabile (e metodologicamente corretta)”.
Oggi Serena lavora per un’azienda che offre servizi informatici e si occupa sia di creazione e catalogazione di metadati che dello sviluppo e gestione dell’infrastruttura IT delle biblioteche pubbliche danesi.
Il suo lavoro consiste principalmente nella creazione di una test collection, cioè di uno strumento che aiuta nella valutazione offline del motore di ricerca. Nella pratica, si tratta della riproduzione di bisogni informativi degli utenti delle biblioteche e in una serie di valutazioni dei risultati offerti dal motore di ricerca.
Ha cominciato da poco a fare analisi di dati e si interessa molto al modo in cui le persone cercano, quali tipologie di chiavi di ricerca usano, con quale frequenza, ecc.
Se volete saperne di più, la potete trovare su Linkedin.
3 domande sui dati a... Serena Canu
1. Mi racconti cosa sono i dati per te?
I dati per me sono un supporto per la comprensione.
Sono pezzetti di informazioni delicate, che richiedono attenzione costante nelle modalità in cui vengono raccolte, gestite, archiviate, analizzate e diffuse. Se tutte le parti del processo si svolgono al meglio alla fine avremo uno strumento sufficientemente affidabile per capire un po’ di più la realtà che ci circonda.
I dati sembrano oggetti semplici, ma hanno una complessità intrinseca che rischia spesso di essere sottovalutata nella foga della rincorsa all’oggettività presunta.
Al contrario, invece, i dati da soli non raccontano niente e, nel peggiore dei casi, se osservati in un vacuum possono essere addirittura dannosi. Questo è uno dei motivi per cui non sono una grande sostenitrice del concetto di data driven. I dati servono a informare, ossia a fornire informazioni utili per prendere decisioni.
Possono ispirare, ma sempre con la consapevolezza che non possono raccontare tutto e che, con ogni probabilità, conterranno una serie di bias. Bias umani, ma anche strutturali.
Mi vengono in mente i pensieri che mi hanno attraversato la testa l’estate scorsa mentre partecipavo, un po’ stranita, a una conferenza molto famosa dedicata alla data science: tanti progetti, tutti molto interessanti, innovativi, importanti e indubbiamente di grande ispirazione, ma la sensazione costante che ci fosse fin troppo entusiasmo sulle soluzioni tecniche e meno attenzione sulle – a mio avviso necessarie - riflessioni “laterali”.
2. Cosa ti hanno insegnato i dati nel tuo lavoro?
I dati nel mio lavoro mi hanno insegnato proprio ad essere consapevole dei loro limiti. Lavorando a stretto contatto con persone che raccolgono, producono, categorizzano, analizzano e utilizzano dati anche per la creazione di modelli di machine learning, mi sono accorta che non c’è mai una soluzione perfetta. Il risultato è sempre frutto di compromessi: a volte è possibile lavorare sulla varietà, in altri casi è necessaria una semplificazione. Quello che non può mancare, però, è la consapevolezza della complessità sottostante.
L’esempio che mi viene in mente riguarda proprio il mio lavoro, dove uno degli obiettivi è provare a capire i comportamenti di ricerca per poter valutare il livello di soddisfazione e supportare il tuning del motore di ricerca. I log con cui lavoriamo, però, sono vittime di decisioni prese in un passato che non prevedeva certi utilizzi. Non solo, la raccolta di dati demografici è stata finora inesistente per vari motivi spesso non dipendenti dalla compagnia.
I dati che abbiamo a disposizione ci offrono quindi una visione limitata ed è necessario capirne il motivo per sapere dove e quando si può generalizzare un risultato e dove, invece, una generalizzazione sarebbe non solo formalmente scorretta, ma pure dannosa. Oltretutto, capire è fondamentale per apportare cambiamenti, migliorare ed essere consapevoli di quando c’è bisogno di sopperire in altri modi, ad esempio con ricerche ad hoc, per osservare meglio determinate categorie (o l’assenza di certe categorie) e comprenderne i bisogni.
queste parole di Serena mi hanno fatto venire in mente l'installazione The Library of Missing Datasets, in cui l'artista visiva Mimi Ọnụọha esplora le categorie mancanti nella raccolta dati negli Stati Uniti creando un archivio bibliotecario di volumi introvabili perché inesistenti.
3. Nel mondo dei dati e dell'AI in evoluzione, c'è qualcosa che stai seguendo particolarmente e che ti piacerebbe studiare/imparare?
Le cose che devo ancora imparare non si contano! Di sicuro vorrei provare a migliorare la mia conoscenza tecnica per poter essere ancora più consapevole del processo dietro la creazione di set di dati. Mi incuriosiscono molto le motivazioni che portano a preferire certe soluzioni: capirle mi aiuterebbe anche a interagire meglio con le persone con cui lavoro e a individuare problematiche e proporre soluzioni che possano essere valide.
A proposito di incontro di competenze, proprio in questi giorni sto sperimentando il playground di OpenAI per capirne le potenzialità. In particolare, sto testando modalità di supporto nella categorizzazione di ricerche svolte dalle persone sul portale di ricerca inter bibliotecaria. Si tratta di un lavoro che, ancora tirocinante, avevo provato a fare a mano: giorni di lavoro per poter annotare migliaia di chiavi di ricerca e dividere fra tipologie di ricerche. Ho voluto capire se ChatGPT potesse farci guadagnare tempo senza perdere in accuratezza. Avere la competenza tecnica, capire e intervenire sul processo ed essere in grado di valutare il risultato con l’occhio dell’umanista mi sembra una conquista enorme sia per il mio percorso che per il contributo che posso dare al team con cui lavoro.
Questa newsletter è sostenuta da: Banca Etica
Banca Etica è davvero unica perché dal 1999 non investe nelle fonti fossili, nelle armi, negli allevamenti intensivi e in altre attività controverse. Con il risparmio dei suoi soci e clienti finanzia esclusivamente progetti ad impatto sociale e ambientale positivo.
Puoi verificarlo perché pubblica tutti i finanziamenti e li misura!
La dataviz della settimana
A proposito di dati e patrimonio culturale, se il lavoro di analisi di Serena è al servizio delle biblioteche, quello dell’ingegnere francese Emmanuel Durand vuole salvare i siti storici e archeologici in pericolo, anche a causa delle guerre.
Il data team di ABC, media australiano, ha prodotto una lunga interattiva premiata ai Sigma Journalism Award per mostrare il suo lavoro di 3d scanning e digitalizzazione di palazzi, ponti e altre infrastrutture in Ucraina.
La lista delle risorse del mese
📒 Da leggere
Serve un approccio femminista e non occidentale alla critica sulle intelligenze artificiali (lungo, da salvare).
Un caso di data journalism da mettere nelle slide: Emily Ocasio, una studentessa di 18 anni, ha scoperto un bias nella copertura delle notizie sugli omicidi negli Stati Uniti. Analizzando 5042 articoli apparsi sul Boston Globe tra il 1976 e il 1984 ha notato che le vittime nere hanno meno probabilità di essere “umanizzate” rispetto alle persone bianche.
Le generosissime slide di Maurizio Napolitano, coordinatore del laboratorio Digital Commons Lab (DCL) di FBK - Fondazione Bruno Kessler, prodotte per un corso dell’Ordine dei giornalisti, sul tema “Giornalismo e intelligenza artificiale: subire o costruire?”
🧰 Da provare
Uno schemino degli stili da applicare ai tuoi contenuti visuali su Midjourney.
Potresti essere considerata come "a rischio" di commettere un crimine? Partecipa al questionario di FairTrails e scoprilo.
Uno strumento per analizzare testi, trovato sul blog di Sabina Moscatelli, che si occupa di tecnologie per la didattica: si chiama Voyant Tools e funziona bene anche con l’italiano.
💆🏻♀️ Cose che hai perso
La diretta con Simone Natale, storico dei media, autore del libro “Macchine Ingannevoli”, in cui parliamo di come l'essere umano si rapporta con i computer da quando esistono e perché siamo così ben disposte a farci ingannare dalle macchine.
Se vuoi, puoi recuperare il mio intervento a Biennale Democrazia in cui mi chiedo, dati alla mano, se L’Italia è un paese per donne.
I 30 minuti in cui io e la giornalista di Internazionale Annalisa Camilli discutiamo di giornalismo e scuole di giornalismo, su Instagram.
Uno spicchio di Mele, il podcast di Torcha, dove Anita Fallani mi chiede di parlare di bolle social.
Bene, anche questo mercoledì è andato. Ci sentiamo la prossima settimana!