In questo numero: il futuro dell'intelligenza artificiale dipende dalla qualità dei dati su cui viene addestrata. E la qualità dei dati dipende, a sua volta, dal lavoro silenzioso ma essenziale dei e delle data worker - sottopagate e non tutelate.
AVVISO:
a gennaio parte una nuova edizione del Master IULM in Architettura dell'informazione e user experience design e ci sono ancora dei posti disponibili.
Quest’anno trovate anche me tra ə docenti, insegno Etica dei dati e della loro rappresentazione.
Qui tutte le info.
E ora, cominciamo.
I data-link della settimana
Una datanotizia sull’AI: un’inchiesta della giornalista Ko Narin ha rivelato che in Corea del Sud esistono dozzine di gruppi segreti su Telegram che si dedicano a creare video o immagini pornografici falsi di studentesse universitarie, ma anche delle scuole secondarie, utilizzando software di intelligenza artificiale che producono deepfake.
[dataset] È online Fotonica, la banca immagini senza stereotipi creata dall’agenzia di comunicazione Comunicattive: al momento sono disponibili all’acquisto più di 400 immagini tra foto, illustrazioni e icone, pensate e realizzate da professionistə della fotografia, dell’illustrazione e del design. Il database verrà aggiornate costantemente con nuove immagini libere da stereotipi discriminatori.
[mio] Quali conseguenze avrà il ritorno di Trump alla Casa Bianca per i diritti riproduttivi delle donne e delle persone con utero negli Stati Uniti? Da quando il Texas ha approvato il divieto di aborto, la mortalità materna è aumentata del 56%, una tendenza che potrebbe essere replicata in altri stati anti-aborto man mano che emergeranno più dati. L’ultimo caso, quello della 18enne Nevaeh Crain, morta al sesto mese di gravidanza dopo tre visite al pronto soccorso e 20 ore di attesa senza che la sua infezione venisse trattata. Ne ho scritto per SKYTG24.
“È facile dire che le calcolatrici erano in grado di svolgere il loro lavoro senza annoiarsi: non avevano nessuna alternativa, non c’era un altro posto per loro nel mondo accademico, e i calcoli infiniti sulle lastre stellari erano quel che le separava da un futuro già scritto di mogli, madri, cameriere senza alcun accesso alla scienza. Lamentarsi non era una possibilità, non esisteva per loro una prospettiva migliore: bisognava tacere e ringraziare”.
Loreta Minutilli, Le tessitrici: Mitologia dell'informatica (effequ 2023)
Il sistema dell’IA senza noi umani non si regge
Visto che parliamo di umanizzare i dati, perché non si parla anche delle migliaia di lavoratori sottopagati che etichettano e preparano i dataset per l’addestramento degli algoritmi?
La domanda mi è arrivata dal preparatissimo pubblico del Festival Biblico, dove ho parlato sabato scorso a Vicenza insieme a Carola Frediani, intervistate da Massimo Cerofolini e da un avatar IA.
Nel trattare il tema della cosiddetta
intelligenza artificiale generativa
- parole che usiamo per convenzione riferendoci a strumenti come Chatpgt, Dall-e, Perplexity, Claude… - e di tutte quelle applicazioni che permettono la totale automazione delle azioni umane, ricordarsi che esistono persone che lavorano per mantenerle in funzione non è scontato.
Il ruolo dei data workers è sottostimato1 quando si pensa alla forza lavoro del mondo tech, ma da anni permette che l’addestramento dei grandi modelli linguistici, dei sistemi di apprendimento automatico e la moderazione dei flussi di contenuti sui social avvengano in modo efficace.
Hanno contratti precari, spesso legati a piattaforme dove possono accettare task ripetitivi, senza protezioni sindacali o tutele per la loro salute mentale2, con paghe inferiori al salario minimo locale. Per questo li troviamo soprattutto nel cosiddetto sud globale - ma in paesi dove la connessione internet è stabile - come il Venezuela, che ospita la più grande community di data worker al mondo, dopo gli Stati Uniti. Tra loro, molti hanno più di 55 anni: una stima di Rest of the world indica che il 6% della forza lavoro online in America Latina appartiene a questa fascia d’età.
Scriveva Kate Crawford nel suo Né intelligente né artificiale già nel 2021:
Uno dei fatti meno noti dell’intelligenza artificiale è il numero di lavoratori sottopagati necessari per contribuire a costruire, mantenere e testare i sistemi stessi di intelligenza artificiale, crowdworkers o microlavoratori che svolgono i compiti digitali alla base dei sistemi di intelligenza artificiale, come l’etichettatura di migliaia di ore di dati di training e la revisione di contenuti sospetti o dannosi. I lavoratori svolgono le attività ripetitive che sostengono le magie conclamate dell’IA, ma raramente gli viene riconosciuto il merito di aver consentito il funzionamento dei sistemi.
Non a caso nella sua rappresentazione dell’Anatomia di Intelligenza Artificiale, che descrive efficacemente tutto quello che succede prima che esca la voce dalla scatola nera dell’assistente vocale di Amazon, era riuscita a mostrare quanto lavoro umano3, risorse materiali e infrastrutture siano nascoste dietro l’apparente magia di strumenti come Alexa.
Mary Gray e Sid Suri si riferiscono a questo lavoro invisibile con l’espressione «lavoro fantasma» mentre Lilly Irani lo chiama «automazione a combustibile umano» - scrive ancora Crawford.
Siamo di fronte a un inganno, dice la ricercatrice statunitense, perché la potenza di calcolo a livello planetario dipende dallo sfruttamento del lavoro umano, lungo tutta la catena di approvvigionamento.
Quindi la soluzione è eliminare del tutto il lavoro umano dalle IA?
Uno studio pubblicato su Nature ha mostrato come i modelli di IA, quando addestrati su dati generati da altri modelli, senza la presenza di dati umani, tendano a perdere progressivamente la capacità di rappresentare correttamente la realtà.
Se sentite parlare di model collapse è esattamente quello di cui stiamo parlando.
Questo fenomeno rischia di compromettere la qualità delle generazioni future di modelli, portandoli a sovrastimare eventi probabili e sottostimare quelli rari, non riuscendo più a rappresentare perfettamente la distribuzione originale.
Il problema nasce dall'uso massiccio di dati generati automaticamente (altra parola chiave, i dati sintetici), magari proprio per colmare gap e bias, e che finiscono per sostituire i contenuti autentici creati dagli esseri umani. Quando un modello inizia a perdere informazioni sulle distribuzioni originali, nel tempo si arriverà a una convergenza verso risposte sempre più semplicistiche e poco aderenti alla realtà.
È una buona e una cattiva notizia: i dati prodotti da noi, etichettati da noi, corretti, puliti, riconosciuti, segmentati, trascritti e annotati, sono fondamentali oggi perché le IA funzionino in modo affidabile. E la piena automazione è una promessa che difficilmente si realizzerà.
È una fauxtomation secondo la scrittrice Astra Taylor, e se lo riconoscessimo forse daremmo il giusto valore, anche economico, ai lavoratori e alle lavoratrici che stanno dietro le IA.
La dataviz della settimana
a cura di Roberta Cavaglià
“La ruota della disuguaglianza” è un progetto di data journalism realizzato dalla redazione del giornale spagnolo elDiario.es che ricostruisce, attraverso dati e testimonianze, gli ingranaggi che limitano le opportunità di chi nasce e cresce nei quartieri più poveri del paese, generazione dopo generazione.
Tutto inizia dalla scuola, dove lə studentə che vivono in quartieri poveri e vengono da famiglie poco istruite tendono ad avere risultati peggiori. Poiché hanno voti più bassi, spesso non completano gli studi o abbandonano prima di altrə. Di conseguenza, ottengono lavori meno qualificati e con salari più bassi.
Avendo meno risorse, sono costrettə a loro volta a vivere in quartieri poveri, dove è probabile che anche lə loro figlə seguano lo stesso percorso.
Qui sotto trovi una delle visualizzazioni incluse nel progetto che riguarda nello specifico il modo in cui il livello di studi di una famiglia influisce su quello della prole: in viola scuro gli studi universitari, in lilla il diploma, in giallo le scuole medie, in arancione nessun diploma.
Per goderti la versione interattiva del grafico e approfondire, puoi leggere l’articolo completo qui.
Il tour continua!
Rimini, 15 novembre: sono al Convegno Didattiche organizzato da Erickson, se insegni a scuola è molto probabile che ci vediamo lì. Parlo dalle 16.45 alle 18.15 con Marilena Umuhoza Delli, autrice del libro Lettera di una madre afrodiscendente alla scuola italiana. Il titolo del nostro panel è “Oltre le discriminazioni: decolonizzare i dati e l’insegnamento”.
Roma, 22 novembre: alle 17.30, Sala Grigia, Teatro Costanzi, la presentazione dell’ultimo numero di Calibano, la rivista di attualità culturale dell’Opera di Roma ed @_effequ_ , che parte da “Simon Boccanegra” per esplorare da molteplici prospettive il tema del potere.
Firenze, 23 novembre: intervengo all’Eredità delle Donne, in Manifattura Tabacchi (via delle Cascine, 35). Gli eventi sono gratuiti ma bisogna prenotarsi su Eventbrite. Salgo sul palco con Linda Laura Sabbadini - e se mi leggete sapete benissimo quanto sarò emozionata!
Roma, 25 novembre: alle 18 alla libreria Feltrinelli di largo Torre Argentina modero la presentazione del libro “Non solo parole. Guida a una cultura condivisa” pubblicato da ValoreD.
Bologna, 26 novembre: presento Quando i dati discriminano alla Fondazione Barberini alle 18:30.
Questa newsletter è stata mandata a 9083 persone, cresce grazie al passaparola e può pagare i contributi esterni grazie agli abbonamenti. Una settimana fa abbiamo parlato di come non siano stati i deep fake a condizionare le elezioni USA, ma un nuovo linguaggio e la manipolazione dati portata avanti dai repubblicani (e l’ho scritta prima dei risultati!)
Vuoi anche tu l’accesso a tutto l’archivio e sentirti parte della comunità? Pensa a un upgrade della tua iscrizione, ma prima, provala gratis:
Io ti ringrazio per avermi letta, se vuoi portarmi nella tua azienda, libreria, biblioteca, scuola o circolo scrivimi a contact-columbro@elastica.eu. Per sponsorizzare la newsletter scrivi a newsletter@tispiegoildato.it, rispondo io oppure Roberta.
Ne avevo voluto anche parlare in un pezzo scritto per Guerre di rete.
Altamente consigliati su questo aspetto anche La rete non ci salverà, di Lilia Giugni e Schiavi del clic di Antonio Casilli.
Ho chiesto a ChatGPT di spiegare esattamente com’è il lavoro di una persona che fa il/la data worker.
sarei molto curioso di valutare le subscription di un chatgpt slave-free, a 40 euro mese. ma forse non lo voglio sapere