Le cosiddette “content farm”, fattorie di contenuti, utilizzano l’intelligenza artificiale per riscrivere migliaia di articoli provenienti da importanti testate senza citare mai la fonte. Lo scopo è fare profitti raccogliendo “pubblicità programmatica”, quella posizionata dagli algoritmi in base ai gusti degli utenti. Lo riporta il sito professionereporter.eu pubblicando un’indagine di NewsGuard che riportiamo integralmente.
NewsGuard è l’organizzazione che monitora l’attendibilità dei siti d’informazione nel mondo. Nell’agosto 2023 ha identificato 37 siti che sembrerebbero aver utilizzato chatbot per riscrivere articoli apparsi su testate giornalistiche quali CNN, New York Times e Reuters. Nonostante gli articoli sembrassero essere tratti e riscritti da altre fonti, i siti non le menzionavano mai. Alcuni di questi siti sembrerebbero essere completamente automatizzati e parrebbero operare senza supervisione umana.
Alcune di queste “content farm” presentano pubblicità programmatiche di grosse aziende, il che significa che importanti brand stanno inconsapevolmente contribuendo a finanziare la pratica di utilizzare l’intelligenza artificiale per riprodurre in modo ingannevole i contenuti delle fonti tradizionali. Le “content farm” sono siti che pubblicano grandi quantità di contenuti, spesso di bassa qualità, allo scopo di ottenere una posizione migliore nelle classifiche di Google in modo da ricevere annunci pubblicitari.
POTENZIALE PLAGIO
Ha dichiarato a NewsGuard Amir Tayrani, socio dello studio legale Gibson Dunn, specializzato in diritto costituzionale e regolamentare: “Ci troviamo in un mondo in cui è sempre più difficile distinguere tra contenuti prodotti da umani e contenuti generati dall’IA, ed è sempre più complesso identificare questo tipo di potenziale plagio”. Mai prima d’ora i siti hanno avuto la possibilità di riscrivere articoli creati da altri praticamente in tempo reale, e in un modo che spesso può essere difficile da riconoscere.
Le politiche di utilizzo di due dei chatbot più importanti, Bard di Google e ChatGPT di OpenAI, chiariscono che non possono essere utilizzati per plagiare contenuti. Le linee guida di Google affermano che gli utenti non possono fornire una “rappresentazione ingannevole della provenienza dei contenuti generati affermando che questi ultimi sono stati creati da un essere umano o rappresentare i contenuti generati come opere originali, al fine di ingannare”. Altri importanti modelli di IA, come Claude di Anthropic e la chat di Bing di Microsoft, hanno politiche simili.
DIFFICILE IDENTIFICAZIONE
NewsGuard ha inviato due email a Google e due email a OpenAI, chiedendo informazioni sui risultati della sua indagine, ma non ha ricevuto alcuna risposta.
Siti come Grammarly offrono strumenti di rilevamento del plagio che analizzano il testo e lo confrontano con i contenuti disponibili su internet. Tuttavia, NewsGuard ha rilevato che la funzione antiplagio di Grammarly fatica a identificare gli articoli che sono stati riscritti da altre fonti utilizzando l’intelligenza artificiale. Ciò è probabilmente dovuto al fatto che l’IA riesce a riformulare i contenuti originali al punto da renderne difficile l’identificazione da parte del software di rilevamento del plagio.
Sarebbe stato probabilmente impossibile capire che le “content farm” identificate da NewsGuard utilizzano l’IA per riscrivere gli articoli, se non per un indizio eloquente: tutti i siti hanno pubblicato almeno un pezzo contenente messaggi di errore che si trovano comunemente nei testi generati dall’IA, come i seguenti: “Come modello linguistico di intelligenza artificiale non posso riscrivere questo titolo…” o “Spiacente, come modello linguistico di intelligenza artificiale non posso individuare il contenuto che deve essere riscritto senza alcun contesto o informazione…”.
MESSAGGI DI ERRORE
Ci sono probabilmente centinaia, se non migliaia, di siti che utilizzano l’IA per riscrivere contenuti da fonti esterne che NewsGuard non è riuscito a identificare, perché quei siti non hanno lasciato inavvertitamente nei loro articoli un messaggio di errore prodotto dall’IA.
Ad esempio, NewsGuard ha scoperto che il sito pakistano GlobalVillageSpace.com sembra aver utilizzato l’IA per riscrivere articoli tratti da fonti mainstream senza alcuna attribuzione alla fonte originaria.
Ciò è risultato evidente perché NewsGuard ha trovato sul sito 17 articoli contenenti messaggi di errore generati dall’IA pubblicati negli ultimi sei mesi. Uno degli articoli di GlobalVillageSpace.com che conteneva un messaggio di errore era un pezzo del maggio 2023 sul giocatore di football americano Darren Walker, che sembrava una parziale riscrittura effettuata tramite IA di un articolo del 7 maggio 2023 pubblicato sul New York Times. “Come modello linguistico di intelligenza artificiale… ho fatto del mio meglio per riscrivere l’articolo in modo da renderlo adatto a Google”, recitava una frase in calce all’articolo di GlobalVillageSpace.com.
In particolare, l’incipit dell’articolo del Times sembrava essere stato manipolato dall’intelligenza artificiale. “Darren Waller, tight end Pro Bowl dei New York Giants, ha una passione per la musica, che è diventata più di una semplice fuga dal campo di football”, si legge all’inizio dell’articolo. Espressioni come “passione per la musica” e “fuga dal campo di football” compaiono nell’articolo originale del New York Times.
“FELICE DI ASSISTERVI”
Dopo che NewsGuard ha contattato GlobalVillageSpace.com per un commento, il sito ha rimosso l’articolo, ma non ha risposto alle domande. I messaggi di errore presenti su altri siti sono ancora più eloquenti. Roadan.com, sito che sostiene di essere “la vostra fonte definitiva per le ultime notizie e gli aggiornamenti sulla politica nel Regno Unito e non solo”, ha pubblicato un articolo nel giugno 2023 che palesava l’utilizzo dell’IA per riproporre un pezzo comparso sul Financial Times il 28 giugno con questo messaggio di errore: “Si prega di notare che il contenuto fornito è ancora materiale protetto da copyright del Financial Times”.
“Come modello linguistico di intelligenza artificiale, non posso riscrivere o riprodurre contenuti protetti da copyright. Se avete altri testi non protetti da copyright o domande specifiche, non esitate a chiedere e sarò felice di assistervi”. Nonostante questo messaggio di errore, il chatbot ha comunque soddisfatto la richiesta di produrre l’articolo, dato che il resto del pezzo sembrava essere una versione riscritta e riorganizzata dell’articolo del Financial Times, con frasi simili e le stesse fonti citate. Dopo che NewsGuard ha contattato Roadan.com per un commento, il sito ha rimosso l’articolo, ma non ha risposto alle domande di NewsGuard.
“SIETE TUTTI PAZZI”
NewsGuard ha contattato tutte le testate i cui contenuti parrebbero essere stati riscritti utilizzando l’IA. Jason Easley, proprietario e direttore del sito di notizie politiche statunitensi di orientamento liberale PoliticusUSA, ha dichiarato che DailyHeadliner.com, uno dei 37 siti copia-incolla individuati da NewsGuard, “non ha e non ha mai avuto da noi il permesso di riscrivere i nostri articoli”.
Gli altri 36 siti identificati non hanno risposto. In un’email non firmata, un rappresentante di TopStories.com.ng, sito che si descrive come “leader nel campo delle notizie native digitali con un focus primario sulla Nigeria”, ha dichiarato semplicemente: “Siete tutti pazzi”. Secondo l’analisi di NewsGuard, il sito sembrerebbe aver usato l’intelligenza artificiale per riscrivere un articolo di Breitbart del 14 agosto 2023.
Come esercizio, NewsGuard ha chiesto a ChatGPT di riscrivere un articolo del New York Times. Il chatbot ha risposto rapidamente, producendo in pochi secondi una versione piuttosto raffinata dell’articolo. Un analista di NewsGuard ha fornito a ChatGPT il seguente input: “Riscrivi il seguente articolo per renderlo più efficace a livello di SEO e più accattivante”.
Quindi, ha incollato sotto la sua richiesta un articolo uscito sul Times il 16 agosto 2023 sull’imminente visita del presidente degli Stati Uniti Joe Biden alle Hawaii. ChatGPT ha risposto immediatamente con un articolo di circa 600 parole, riscrivendo il testo originale del Times. (SEO è l’acronimo di Search Engine Optimization, pratica che consiste nell’ottimizzare i contenuti in modo da renderli più visibili ai motori di ricerca).
STRATEGIA PER FARE SOLDI
La pubblicità programmatica rappresenta per questi siti una strategia semplice per fare soldi. Con il codice giusto e un chatbot, un sito di notizie può diventare un flusso costante di entrate passive. In effetti, NewsGuard ha trovato annunci programmatici di marchi importanti su 15 dei 37 siti copia-incolla identificati, tra cui, complessivamente, annunci di 55 grandi aziende. Tutte le pubblicità comparivano all’interno di articoli che presentavano testo riscritto dall’IA.
Poiché il meccanismo su cui si basa la pubblicità programmatica – che utilizza algoritmi per far visualizzare annunci pubblicitari altamente mirati agli utenti su Internet – è così opaco, i brand non sono probabilmente consapevoli del fatto che stanno favorendo e finanziando la proliferazione di questi siti. Per questo motivo, NewsGuard ha deciso di non citarli.
Ad esempio, all’interno di un articolo pubblicato da LiverPoolDigest.co.uk, che sembrava essere stato riscritto a partire da un pezzo del Guardian utilizzando l’IA, gli analisti di NewsGuard hanno visualizzato annunci programmatici di due importanti società di servizi finanziari, un’azienda di forniture per uffici, una compagnia aerea, un’azienda di software multimiliardaria, un rivenditore di elettrodomestici di alto livello, una catena alberghiera statunitense, una grande banca e un noto rivenditore di materassi.
“MIGLIORARE I PROTOCOLLI”
Allo stesso modo, NewsGuard ha trovato annunci programmatici di un’azienda di software di alto profilo, un popolare servizio di streaming, un rivenditore di elettrodomestici di alto livello, un noto rivenditore di materassi, un’importante società di noleggio auto e una nota società di servizi finanziari all’interno di un articolo pubblicato da WhatsNew2Day.com, che sembrava essere stato riscritto utilizzando l’IA da The Conversation, sito che pubblica contenuti accademici.
NewsGuard ha inviato un’email a 12 delle 55 grandi aziende le cui pubblicità comparivano su quei siti web, chiedendo se fossero consapevoli della cosa. Solo un’azienda ha risposto. Il portavoce di una società di servizi finanziari ha dichiarato a NewsGuard via email: “L’uso etico dell’IA nel mondo di oggi per i nostri consumatori, le operazioni interne e la reputazione del nostro marchio sono molto importanti per noi. Ci sono organizzazioni giornalistiche affidabili che utilizzano contenuti generati dall’IA in aree emergenti… Una volta che saranno stati definiti standard chiari per i contenuti generati dall’IA, continueremo a studiare strategie di protezione per migliorare i protocolli standard del settore”.
NewsGuard ha anche identificato un sito che utilizza l’intelligenza artificiale per parlare dei problemi dell’intelligenza artificiale. Il già citato WhatsNew2Day.com sembrerebbe aver usato l’IA per riscrivere un articolo di The Verge che illustrava un’indagine di NewsGuard del giugno 2023 sulla presenza di annunci pubblicitari di grandi marchi su siti spam generati dall’IA. L’intelligenza artificiale, tuttavia, non sembra aver notato il paradosso.
Questa indagine di NewsGuard è stata curata da Jack Brewster, Macrina Wang e Coalter Palmer. E’ stata pubblicata su professionereporter.eu