banner
Centro notizie
Azienda completa

Scoppia la rivolta dei dati contro l’intelligenza artificiale

Jun 03, 2023

Annuncio

Sostenuto da

Stufi delle società di intelligenza artificiale che consumano contenuti online senza consenso, gli scrittori di fan fiction, gli attori, le società di social media e le testate giornalistiche sono tra coloro che si ribellano.

Di Sheera Frenkel e Stuart A. Thompson

Sheera Frenkel e Stuart Thompson riferiscono sulla disinformazione online e sui dati digitali.

Per più di 20 anni, Kit Loffstadt ha scritto fan fiction esplorando universi alternativi per gli eroi di “Star Wars” e i cattivi di “Buffy l’ammazzavampiri”, condividendo le sue storie gratuitamente online.

Ma a maggio, la signora Loffstadt ha smesso di pubblicare le sue creazioni dopo aver appreso che una società di dati aveva copiato le sue storie e le aveva inserite nella tecnologia di intelligenza artificiale alla base di ChatGPT, il chatbot virale. Sconcertata, ha nascosto i suoi scritti dietro un account bloccato.

Il mese scorso la signora Loffstadt ha anche contribuito a organizzare un atto di ribellione contro i sistemi di intelligenza artificiale. Insieme a dozzine di altri scrittori di fan fiction, ha pubblicato online un’ondata di storie irriverenti per sopraffare e confondere i servizi di raccolta dati che alimentano il lavoro degli scrittori nella tecnologia dell’intelligenza artificiale.

"Ognuno di noi deve fare tutto il possibile per mostrare loro che il risultato della nostra creatività non può essere lasciato alle macchine per raccoglierlo come preferiscono", ha detto la signora Loffstadt, una doppiatrice di 42 anni del South Yorkshire in Gran Bretagna.

Gli scrittori di fan fiction sono solo un gruppo che ora organizza rivolte contro i sistemi di intelligenza artificiale mentre la febbre per la tecnologia ha attanagliato la Silicon Valley e il mondo. Negli ultimi mesi, società di social media come Reddit e Twitter, testate giornalistiche come The New York Times e NBC News, autori come Paul Tremblay e l’attrice Sarah Silverman hanno tutti preso posizione contro l’intelligenza artificiale che assorbe i loro dati senza permesso.

Le loro proteste hanno assunto forme diverse. Scrittori e artisti stanno bloccando i propri file per proteggere il proprio lavoro o boicottando alcuni siti Web che pubblicano contenuti generati dall’intelligenza artificiale, mentre aziende come Reddit vogliono far pagare l’accesso ai propri dati. Quest'anno sono state intentate almeno 10 cause legali contro le società di intelligenza artificiale, accusandole di addestrare i loro sistemi sul lavoro creativo degli artisti senza consenso. La scorsa settimana, la signora Silverman e gli autori Christopher Golden e Richard Kadrey hanno citato in giudizio OpenAI, il creatore di ChatGPT, e altri per l'uso del loro lavoro da parte dell'intelligenza artificiale.

Al centro delle ribellioni c’è una ritrovata consapevolezza che le informazioni online – storie, opere d’arte, articoli di notizie, messaggi su bacheche e foto – possono avere un significativo valore non sfruttato.

La nuova ondata di intelligenza artificiale – nota come “intelligenza artificiale generativa” per il testo, le immagini e altri contenuti che genera – è costruita su sistemi complessi come modelli linguistici di grandi dimensioni, in grado di produrre una prosa umana. Questi modelli vengono addestrati su quantità di dati di ogni tipo in modo che possano rispondere alle domande delle persone, imitare stili di scrittura o sfornare commedie e poesie.

Ciò ha innescato una caccia da parte delle aziende tecnologiche per ancora più dati per alimentare i loro sistemi di intelligenza artificiale. Google, Meta e OpenAI hanno essenzialmente utilizzato informazioni provenienti da tutta Internet, inclusi grandi database di fan fiction, raccolte di articoli di notizie e raccolte di libri, molti dei quali erano disponibili gratuitamente online. Nel gergo dell’industria tecnologica, questo era noto come “scraping” di Internet.

GPT-3 di OpenAI, un sistema di intelligenza artificiale rilasciato nel 2020, comprende 500 miliardi di "token", ciascuno dei quali rappresenta parti di parole trovate principalmente online. Alcuni modelli di intelligenza artificiale coprono più di un trilione di token.

La pratica dello scraping di Internet è di lunga data ed è stata ampiamente divulgata dalle aziende e dalle organizzazioni no-profit che lo hanno fatto. Ma ciò non è stato ben compreso o considerato particolarmente problematico dalle aziende proprietarie dei dati. Ciò è cambiato dopo il debutto di ChatGPT a novembre e il pubblico ha imparato di più sui modelli di intelligenza artificiale sottostanti che alimentano i chatbot.

“Ciò che sta accadendo qui è un riallineamento fondamentale del valore dei dati”, ha affermato Brandon Duderstadt, fondatore e amministratore delegato di Nomic, una società di intelligenza artificiale. “In precedenza, l’idea era che si ottenesse valore dai dati rendendoli accessibili a tutti e pubblicando annunci. Ora, l’idea è di mettere sotto chiave i tuoi dati, perché puoi estrarre molto più valore quando li usi come input per la tua intelligenza artificiale”