Contenuto originale e duplicato secondo Google
Provate ad effettuare questa ricerca con Google. La chiave di ricerca è un estratto di un post scritto da Matt Cutts, il famoso ingegnere di Google.
L’aspetto curioso di questa ricerca è che il post originale dell’autore non compare, compaiono invece le pagine del DarkSEOTeam. L’articolo di Cutts appare solo se ripetiamo la query aggiungendo la stringa &filter=0 in modo da visualizzare anche il contenuto duplicato.
Questo esempio dimostra che Google non è sempre infallibile nel discriminare tra contenuto originale e duplicato, a volte il suo sistema penalizza i creatori originali del contenuto.
Tanto per restare in tema, notiamo che nella sezione Informazioni per webmaster sul sito di Google si legge:
Falso: Un concorrente può danneggiare la posizione di un sito o richiederne la rimozione dall’indice di Google.
Vero: Un concorrente non può fare pressoché nulla per danneggiare la vostra posizione o richiedere la rimozione del vostro sito dal nostro indice. La posizione e l’inserimento nell’indice dipendono da fattori controllabili dal webmaster, quali la scelta dei contenuti e la struttura del sito.
Ne siamo proprio sicuri?
Link: l’articolo su ThreadWatch.

Faccio notare che il passato quella frase sulle FAQ di Google recitava (almeno nella versione originale) “Un concorrente non può fare nulla per danneggiare la vostra posizione”.
Il “pressoché” è stato aggiunto solo successivamente proprio perché Google ha ammesso che esistono casi in cui la posizione di qualcuno è soggetta ad influenze esterne.
Tuttavia facendo la ricerca riportata, Tiziano, a me appare nei risultati la pagina del blog di Matt Cutts.
La pagina del blog va bene. Però nella ricerca “normale” non appare la pagina esatta del post http://www.mattcutts.com/blog/bacon-polenta/.
Questa appare applicando il filter=0
Sì, ma il fatto che non appaia la pagina esatta è una cosa diversa da quella discussa su Threadwatch.
Quando si tratta di pagine dello stesso sito, il fenomeno è sempre esistito: se cerchi “Le indiscrezioni filtrano da Business Week e sono raccolte da Steve Rubel” in questo momento appare la home page di Motoricerca.net, non la pagina del singolo post, semplicemente perché la popolarità della home page spinge Google a consigliarla in luogo della pagina specifica.
Threadwatch si riferisce invece a pagine di siti diversi, ed in questo caso l’apparizione di una pagina copiata invece di quella originale è un problema più reale.
Non mi pare poi molto diversa per il fatto che anche nello screenshot appare il link al blog di Matt Cutts.
Secondo me il punto è che viene riportata la pagina “esatta” del sito del DarkSEOTeam mentre il post originale sul sito di Matt viene penalizzato per dupe content.
Magari però sono io che ho capito male.
Da notare che la stessa ricerca fatta con Yahoo riporta il post originale di Matt Cutts.
Io penso che il punto sia che DarkSEOTeam appare (indipendentemente dalla pagina con cui lo fa) prima della home page del blog di Cutts.
Intendo: se non ci fosse DarkSEOTeam, la pagina specifica di Cutts non apparirebbe lo stesso per le ragioni che spiegavo prima: maggiore importanza della home del blog.
Visto che il filtro antiduplicazione di Google lavora a livello di query e non a monte, puoi sincerarti tu stesso della cosa includendo nella ricerca “-site:darkseoteam.com”.
Nonostante la pagina specifica di DarkSEOTeam non sia più presente nei risultati, Google continua a riportare pagine generiche di Cutts, non la pagina specifica di quel post.
In sintesi, il fatto che appaia prima DarkSEOTeam è un problema del filtro antiduplicazione, ma il fatto che la pagina specifica di Cutts non apparirebbe comunque è una conseguenza della minore importanza assegnata da Google alla pagina del post.
Ok,ho capito quello che intendi.
Nel frattempo però ho provato alcune variazioni sul tema.
La query bacon polenta matt riporta come primo risultato il post di Cutts, come secondo la home del suo blog e come terzo la pagina “incriminata” del DarkSEOTeam.
Se però viene applicato il filter=0 sparisce dai risultati la home page del blog di Matt Cutts.
Tu come spieghi questo?
Mi scuso, ma ne approfitto per segnalare un altro comportamento strano di Google: ho cercato “testo” e Google evidenzia, nella descrizione del sito, la parola “resto”. Stessa cosa con “giovani” e “giovanni”.
Si tratta di un meccanismo di correzione degli errori (tipo britny spears) che in italiano zoppica un po’? Grazie.
> Tu come spieghi questo?
Questo avviene per una ragione ancora diversa (sì, Google è una bestia complessa ;-).
Google deve decidere quante e quali pagini per sito mostrare sulla stessa pagina. Questa decisione si basa, tra le altre cose, su due fattori: la presenza di “filter=0″ nell’URL e il numero massimo di risultati per pagina che l’utente vuole visualizzare (”num=x”).
Quanto tu effettui quella ricerca -con- il filtro antiduplicazione, Google decide di mostrare due pagine di Matt e due pagine di DarkSEOTeam.
Quando cerchi spegnendo il filtro con “&filter=0″, Google stabilisce che il sito di DarkSEOTeam contiene più pagine inerenti quella ricerca e pertanto mostra più pagine di DarkSEOTeam e una sola pagina di Matt, spostando le altre pagine di Matt nella seconda pagina dei risultati.
Questo avviene perché lo spazio è poco e Google deve decidere quanti e quali risultati mostrare.
Però se accetti di fargli mostrare più risultati per pagina aggiungendo “&num=50″ nell’URL, noterai che le pagine di Matt tornano ad essere in cima ai risultati, in quanto non c’è più carenza di posizioni e Google non ha più esigenza di ottimizzare lo spazio.
Anche questo è un criterio che lavora a livello di SERP, e quindi non può fornire informazioni su ciò che Google decide a monte su quali risultati mostrare. Qui la duplicazione non c’entra.
Scusa per la domanda, ora che ho controllato meglio ho realizzato che avevo preso un abbaglio. Mi era sembrato che oltre alla prima pagina non ci fossero più risultati.
In risposta a Marco:
Ho provato a fare queste ricerche ma non ho trovato riscontro di quanto hai scritto. Magari però sono io che ho capito male.
Volete vedere un’altra SERP strana di Google?
Cercate sul .it e solo in italiano la query “add url”: il primo risultato è Eutelia http://www.eutelia.it/
http://www.google.it/search?hl=it&cr=countryIT&q=add+url&spell=1
In effetti non è molto “Relevant”
Questo è uno di quegli esempi di quanto influenzabili siano i motori di ricerca dai fattori esterni ad un sito.
Parlo al plurale perché anche Yahoo! mostra quel risultato al primo posto mentre MSN lo posiziona al sesto posto.
QUIZ: perché tutti e tre i motori considerano quel sito (erroneamente) rilevante per quella ricerca?
Avanti con le risposte!
Grazie per la risposta. Ho messo uno screenshot nel mio blog. Il link porta alla pagina con la ricerca che avevo fatto.
Adesso quel risultato strano viene fuori anche a me.
Potrebbe trattarsi di un bug nel sistema di espansione delle query.
Preciso: non è strano che evidenzi parole diverse (questo accade da tempo per molte ricerche), è strano che evidenzi una parola diversa che non c’entri nulla con quella cercata.
Low, per quanto riguarda l’errato posizionamento di Eutelia mi viene da pensare a fattori principalmente off page, ma non ne conosco il motivo preciso.
Esatto, è un fattore off page.
E’ successo che Eutelia ha acquisito il dominio add-url.com, che per anni è stato fortemente tematizzato sulle keyword “add url”, e che adesso fa un redirect automatico ad Eutelia.it
Tutti i fattori esterni accumulati nel corso degli anni da add-url.com (a cominciare dal testo dei backlink) sono dunque stati trasferiti su Eutelia.
Questo è uno di quei casi in cui i motori di ricerca possono fare ben poco. Google ha brevettato tecniche per minimizzare questi errori, ma gli effetti si vedono solo dopo molto tempo.
Sospettavo il testo “add url” dei backlink però non riuscivo a capire perché ne beneficiasse Eutelia. Ora che so la storia del dominio “add-url.com”, è tutto più chiaro.
Grazie.
Altissimo intervento quello di Low: ossimori a parte, mi ha tolto una gran curiosità!
Grazie.
[...] Una delle possibili penalizzazioni cui si potrebbe incorrere nel posizionamento di un sito su Google è quella di una penalizzazione per contenuto duplicato. Ovvero Google penalizza, chi ha lo stesso tipo di contenuto su diverse pagine. I dettagli della penalizzazione, come al solito è difficile da capire. E capita che Google sbagli al riguardo, come ha testimoniato un esperimento di Matt Cutts. Un utile tool, innanzitutto, per capire se qualcuno duplichi il vostro contenuto è quello offerto dal sito Copyscape che individua contenuti duplicati registrati nelle pagine di google. Questo utile tool permette di individuare i duplicati delle pagine. E’ importante sapere chi copia e come e perchè. Molti esempi di quello che potrebbero essere giudicato copia di contenuto sono molto utili per la veicolazione di contenuti. Come fanno moltssimi Blog aggregator online. [...]
[...] E’ quello che ha notato sia Steve Rubel che BlogSEO. Il fatto che Google penalizza i siti con contenuto duplicato mettendo il sito che reputa copi alla fine dei risultai della SERP. Ma come già detto, capita che Google sbagli al riguardo. Come fare allora? Purtroppo non vi sono molte soluzioni al di là di contattare i suddetti siti e intimargli di smettere di copiare. Ma ben si capisce che è una soluzione molto poco efficace. L’unica altra soluzione è quella di modificare i propri feed RSS. La copia dei contenuti avviene per la maggior parte dei casi in modo automatico appunto, tramite software. Offrire solo una parte del contenuto via Feed Rss potrebbe essere l’unica soluzione efficace per evitare la copia dell’intero articolo. [...]