Reddit contro Perplexity: è guerra aperta per i contenuti degli utenti?

Reddit ha citato in giudizio Perplexity per scraping illegale di dati.
Perplexity nega l'addestramento dei suoi modelli AI sui contenuti di terzi.
Reddit ha oltre 100 milioni di utenti attivi giornalieri.
Oxylabs si dichiara "scioccata" dalle accuse di Reddit.
La qualità dei contenuti è fondamentale per la SEO nell'era dell'AI.

Questi contenuti, secondo Reddit, vengono utilizzati per addestrare i modelli di intelligenza artificiale (AI) di Perplexity e per fornire risposte agli utenti del suo motore di ricerca. La causa, depositata presso il tribunale federale del distretto meridionale di New York, mette in luce una crescente tensione tra le piattaforme UGC e le aziende che sfruttano i dati pubblici per scopi commerciali. Reddit aveva già precedentemente intrapreso un’azione legale simile contro Anthropic nel mese di giugno.

L’azione legale di Reddit non si limita a contestare le pratiche di Perplexity, ma punta anche il dito contro le società che forniscono servizi di scraping dei dati, considerate complici nell’appropriazione indebita di contenuti protetti da copyright. Secondo Reddit, queste società agiscono come “aspiranti rapinatori di banche” che, non potendo accedere direttamente alla “cassaforte” dei dati di Reddit, “irrompono nel camion blindato che trasporta il denaro”. Questa metafora, utilizzata nei documenti legali, evidenzia la gravità delle accuse e la determinazione di Reddit a proteggere i propri asset digitali. La piattaforma di social media afferma che Perplexity è cliente di “almeno una” di queste società di scraping, preferendo acquistare dati rubati piuttosto che stipulare un accordo di licenza con Reddit stesso, come hanno fatto alcuni dei suoi concorrenti.

Iscriviti alla newsletter e scopri i segreti della SEO

La genesi della disputa risale a maggio 2024, quando Reddit ha inviato una lettera di diffida a Perplexity, intimandola a cessare immediatamente lo scraping dei dati. Inizialmente, Perplexity aveva assicurato di non utilizzare i contenuti di Reddit per addestrare i propri modelli AI e di rispettare il file robots.txt della piattaforma. Tuttavia, secondo Reddit, il volume delle citazioni da Reddit sul motore di ricerca di Perplexity è aumentato in modo significativo dopo l’invio della lettera di diffida. Per corroborare le sue affermazioni, Reddit ha creato un contenuto originale, progettato per essere rilevabile solo dai crawler di Google. In poche ore, tale contenuto è apparso nei risultati di Perplexity, fornendo una prova concreta delle pratiche di scraping contestate. Reddit sostiene che l’unico modo in cui Perplexity avrebbe potuto ottenere e utilizzare quel contenuto era attraverso lo scraping dei risultati di ricerca di Google e la successiva integrazione dei dati nel suo motore di risposta.

La difesa di Perplexity si basa sul principio dell’accesso libero ed equo alla conoscenza pubblica. La società afferma di non aver ancora ricevuto la notifica formale della causa, ma si dichiara pronta a “combattere vigorosamente per i diritti degli utenti”. Perplexity sostiene di adottare un approccio “basato su principi e responsabile” nella fornitura di risposte accurate, basate sull’intelligenza artificiale, e di non tollerare “minacce contro l’apertura e l’interesse pubblico”. In una dichiarazione successiva, Perplexity ha precisato di non addestrare i propri modelli AI sui contenuti di terzi e, pertanto, di non necessitare di accordi di licenza con piattaforme come Reddit. La società ha affermato che Reddit aveva insistito per un pagamento, nonostante l’accesso lecito ai dati, e che “piegarsi a tattiche di forza non è il nostro modo di fare affari”.

Oxylabs, una delle società accusate di fornire servizi di scraping dei dati, si è dichiarata “scioccata e delusa” dalle accuse di Reddit. La società lituana afferma di non essere affiliata alle altre entità coinvolte nella causa e di non aver mai ricevuto comunicazioni dirette da Reddit riguardo a potenziali preoccupazioni. Oxylabs sostiene di essere un leader nel settore della raccolta dati pubblici e di operare nel rispetto della legge, fornendo infrastrutture per l’accesso conforme alle informazioni disponibili pubblicamente. La società afferma di richiedere a tutti i suoi clienti di utilizzare i suoi servizi in modo lecito e di credere che il suo modello di business contribuisca a rendere Internet un posto migliore, a beneficio di aziende, ricercatori e della società nel suo complesso.

AWMProxy, un’altra delle società citate nella causa, è stata descritta da Reddit come una “ex botnet russa”. Al momento, non sono disponibili dichiarazioni pubbliche da parte di AWMProxy riguardo alle accuse di Reddit. SerpApi, la terza società coinvolta, elenca Perplexity come cliente sul proprio sito web. Ryan Schafer, customer success director di SerpApi, ha dichiarato di “non essere assolutamente d’accordo con le accuse di Reddit” e di essere intenzionato a difendersi vigorosamente in tribunale. La società non ha fornito ulteriori dettagli sulla natura del suo rapporto commerciale con Perplexity o sulle sue pratiche di raccolta dati.

Indice dei contenuti

L’impatto sulla seo e le strategie di adattamento

La battaglia legale tra Reddit e Perplexity solleva interrogativi cruciali sull’impatto dei contenuti generati dagli utenti (UGC) sulla SEO e sulle strategie che i professionisti del settore devono adottare per adattarsi a un panorama in rapida evoluzione. I contenuti UGC, come post, commenti, recensioni e forum di discussione, rappresentano una fonte inesauribile di informazioni preziose per i motori di ricerca e per gli utenti. Tuttavia, l’utilizzo di questi contenuti per l’addestramento di modelli AI e per la generazione di risposte automatiche solleva questioni etiche e legali che potrebbero minare la sostenibilità delle piattaforme UGC e la qualità dei risultati di ricerca a lungo termine.

La crescente dipendenza dei motori di ricerca dai contenuti UGC per fornire risposte pertinenti e complete ha creato un’opportunità per le aziende che si specializzano nello scraping dei dati e nella fornitura di informazioni strutturate. Queste aziende, spesso definite “data launderers” (riciclatori di dati), aggirano le protezioni tecnologiche per estrarre dati da piattaforme come Reddit e li rivendono a clienti desiderosi di ottenere materiale per l’addestramento dei propri modelli AI. Questo fenomeno ha generato un’ “economia del data scraping” su larga scala, in cui i contenuti UGC vengono trasformati in una commodity e commercializzati senza il consenso dei creatori originali e delle piattaforme che li ospitano. Reddit, in particolare, è diventato un bersaglio privilegiato per i “data launderers” a causa della vastità e della dinamicità delle conversazioni ospitate sulla sua piattaforma. Con oltre 100 milioni di utenti attivi giornalieri, Reddit rappresenta una delle più grandi e diversificate raccolte di conversazioni umane mai create.

Visualizza un’immagine minimalista che raffigura tre entità principali coinvolte nella disputa: Reddit, Perplexity e un “data scraper”. Reddit è rappresentato da un’icona stilizzata del suo logo, un alieno sorridente. Perplexity è simboleggiata da un punto interrogativo all’interno di un cerchio, a indicare la sua funzione di motore di risposta basato sull’AI. Il “data scraper” è raffigurato come una pinza che afferra dati (rappresentati da piccole icone di documenti) da Reddit e li trasferisce a Perplexity. L’immagine è realizzata in stile minimalista, con colori neutri e linee semplici, senza testo.”

Di fronte a questa sfida, i professionisti SEO devono adottare strategie innovative per proteggere i propri contenuti e mantenere un vantaggio competitivo. La creazione di contenuti originali e di alta qualità, difficili da replicare automaticamente, diventa un imperativo. I contenuti che offrono un valore unico agli utenti, come analisi approfondite, ricerche originali, opinioni esperte e guide pratiche, sono meno suscettibili di essere “rubati” e riutilizzati dall’AI. Inoltre, è fondamentale costruire una forte presenza sui social media e favorire l’engagement della community. Una community attiva e coinvolta non solo contribuisce a diffondere i contenuti, ma funge anche da “scudo” contro le pratiche di scraping dei dati, segnalando eventuali utilizzi non autorizzati dei contenuti. La trasparenza e la comunicazione aperta con la community sono elementi chiave per costruire fiducia e fedeltà, creando un ecosistema in cui i contenuti vengono apprezzati e protetti.

Un’altra strategia importante è quella di monitorare attentamente l’utilizzo dei propri contenuti online e di adottare misure per prevenire lo scraping dei dati. Ciò può includere l’implementazione di tecniche di anti-scraping sul proprio sito web, come il blocco degli indirizzi IP sospetti, l’utilizzo di CAPTCHA e la modifica frequente della struttura del sito. Inoltre, è consigliabile monitorare i risultati di ricerca per individuare eventuali utilizzi non autorizzati dei propri contenuti e segnalare le violazioni del copyright ai motori di ricerca. La collaborazione con altre aziende e piattaforme per condividere informazioni sulle pratiche di scraping dei dati e per sviluppare standard comuni per la protezione dei contenuti può contribuire a creare un ambiente online più sicuro e trasparente.

Cosa ne pensi?

🚀 Finalmente qualcuno che mette un freno a questa deriva......
🤔 Perplexity si difende parlando di accesso libero, ma......
🤯 E se Reddit avesse sbagliato strategia fin dall'inizio...?...

Minacce alla sostenibilità delle piattaforme ugc

La controversia tra Reddit e Perplexity mette in evidenza una minaccia esistenziale per la sostenibilità delle piattaforme UGC. Se i contenuti generati dagli utenti vengono utilizzati liberamente per scopi commerciali, senza il consenso dei creatori originali e delle piattaforme che li ospitano, gli incentivi a contribuire e a partecipare alla community potrebbero diminuire drasticamente. Gli utenti potrebbero essere meno propensi a condividere le proprie conoscenze, opinioni ed esperienze se sanno che i loro contributi verranno sfruttati da aziende per generare profitti, senza alcun riconoscimento o compensazione. Questo potrebbe portare a una diminuzione della qualità e della quantità dei contenuti UGC, con conseguenze negative per la vitalità delle piattaforme online e per l’ecosistema digitale nel suo complesso.

Il modello di business delle piattaforme UGC si basa sulla creazione di valore attraverso la partecipazione attiva degli utenti. Gli utenti generano contenuti, interagiscono tra loro, moderano le discussioni e contribuiscono a creare un senso di community. Questo valore viene monetizzato attraverso la pubblicità, gli abbonamenti premium e altre forme di revenue. Se i contenuti UGC vengono “rubati” e riutilizzati da terzi senza autorizzazione, il modello di business delle piattaforme UGC viene compromesso. Le aziende che si specializzano nello scraping dei dati possono competere con le piattaforme UGC offrendo servizi simili, ma senza sostenere i costi associati alla creazione e alla manutenzione di una community attiva e coinvolta. Questo crea uno squilibrio nel mercato e mette a rischio la sopravvivenza delle piattaforme UGC.

La questione della proprietà dei dati e dei diritti d’autore sui contenuti UGC è complessa e controversa. In molti casi, i termini di servizio delle piattaforme UGC concedono alle piattaforme il diritto di utilizzare, distribuire e commercializzare i contenuti generati dagli utenti. Tuttavia, questi termini di servizio sono spesso ambigui e non chiariscono se le piattaforme possono concedere a terzi il diritto di utilizzare i contenuti UGC per l’addestramento di modelli AI o per altri scopi commerciali. Inoltre, i diritti d’autore sui contenuti UGC possono variare a seconda della giurisdizione e della natura dei contenuti. In alcuni casi, gli utenti potrebbero conservare i diritti d’autore sui propri contributi, mentre in altri casi i diritti d’autore potrebbero essere trasferiti alla piattaforma. La mancanza di chiarezza e di uniformità nelle leggi sul copyright e nei termini di servizio delle piattaforme UGC crea incertezza e rende difficile proteggere i contenuti UGC dallo scraping e dall’utilizzo non autorizzato.

La soluzione a questo problema richiede un approccio multilaterale che coinvolga le piattaforme UGC, le aziende che utilizzano i contenuti UGC, i legislatori e gli utenti. Le piattaforme UGC devono adottare misure più efficaci per proteggere i propri contenuti dallo scraping e dall’utilizzo non autorizzato, come l’implementazione di tecniche di anti-scraping avanzate, la revisione dei propri termini di servizio per chiarire i diritti e le responsabilità degli utenti e la collaborazione con altre piattaforme per condividere informazioni sulle pratiche di scraping dei dati. Le aziende che utilizzano i contenuti UGC devono agire in modo etico e responsabile, ottenendo il consenso delle piattaforme UGC e degli utenti prima di utilizzare i loro contenuti per scopi commerciali. I legislatori devono chiarire le leggi sul copyright e stabilire regole chiare per l’utilizzo dei contenuti UGC, bilanciando il diritto all’accesso all’informazione con la necessità di proteggere la proprietà intellettuale e la sostenibilità delle piattaforme UGC. Gli utenti devono essere consapevoli dei propri diritti e responsabilità e devono essere proattivi nella protezione dei propri contenuti, segnalando eventuali utilizzi non autorizzati e partecipando attivamente alla community.

Quale futuro per la seo nell’era dell’ai?

La controversia tra Reddit e Perplexity rappresenta un punto di svolta per il futuro della SEO. L’ascesa dell’AI e la crescente dipendenza dei motori di ricerca dai contenuti UGC richiedono una revisione delle strategie SEO tradizionali e un adattamento a un nuovo paradigma in cui la qualità, l’originalità e l’engagement della community diventano i fattori di successo fondamentali. I professionisti SEO devono abbandonare le tattiche di ottimizzazione basate sulla manipolazione delle parole chiave e sulla creazione di contenuti di bassa qualità e concentrarsi sulla creazione di valore per gli utenti attraverso contenuti originali, approfonditi e coinvolgenti. La costruzione di una forte presenza sui social media e la creazione di una community attiva e fedele diventano elementi essenziali per differenziarsi dalla concorrenza e proteggere il proprio brand dalla concorrenza dei contenuti generati dall’AI.

La capacità di comprendere le intenzioni di ricerca degli utenti e di creare contenuti che soddisfino le loro esigenze in modo efficace e innovativo diventa sempre più importante. I professionisti SEO devono utilizzare i dati e le analisi per identificare le lacune nei contenuti esistenti e per creare contenuti che offrano un valore unico agli utenti. Ciò può includere la creazione di guide pratiche, tutorial, recensioni approfondite, studi di caso e altre forme di contenuti che rispondano alle domande degli utenti in modo completo e autorevole. Inoltre, è fondamentale ottimizzare i contenuti per la leggibilità e l’accessibilità, utilizzando un linguaggio chiaro e semplice, formattando il testo in modo appropriato e includendo immagini, video e altri elementi multimediali per rendere i contenuti più coinvolgenti e facili da comprendere.

L’utilizzo di tecniche di SEO avanzate, come la SEO semantica e la SEO vocale, può contribuire a migliorare la visibilità dei contenuti e a raggiungere un pubblico più ampio. La SEO semantica si concentra sulla comprensione del significato dei contenuti e sulla loro relazione con altri concetti e argomenti. Ciò consente ai motori di ricerca di comprendere meglio il contesto dei contenuti e di fornirli agli utenti che cercano informazioni pertinenti. La SEO vocale si concentra sull’ottimizzazione dei contenuti per le ricerche vocali, che stanno diventando sempre più popolari con l’ascesa degli assistenti vocali come Siri, Alexa e Google Assistant. Ciò richiede l’utilizzo di un linguaggio naturale e conversazionale e la creazione di contenuti che rispondano alle domande degli utenti in modo diretto e conciso.

In definitiva, il futuro della SEO nell’era dell’AI dipenderà dalla capacità dei professionisti del settore di adattarsi ai cambiamenti del panorama digitale e di concentrarsi sulla creazione di valore per gli utenti. I contenuti di alta qualità, l’originalità, l’engagement della community e l’utilizzo di tecniche di SEO avanzate saranno i fattori di successo fondamentali per raggiungere il successo online e per costruire un brand forte e duraturo.

Ora, parlando in modo più informale, cosa possiamo imparare da questa situazione per la nostra SEO? Beh, una nozione base è che la qualità dei contenuti è fondamentale. Google premia i contenuti originali e ben fatti, che rispondono alle domande degli utenti in modo esaustivo. Una nozione avanzata è quella di sfruttare la SEO semantica per aiutare Google a comprendere il contesto dei nostri contenuti e a posizionarli meglio nelle ricerche. Riflettiamo: in un mondo invaso dall’AI, la nostra capacità di creare contenuti unici e di valore sarà ciò che ci distinguerà dalla massa.

Per approfondire:

Articolo e immagini generati dall’AI, senza interventi da parte dell’essere umano. Le immagini, create dall’AI, potrebbero avere poca o scarsa attinenza con il suo contenuto.(scopri di più)