Si vous écrivez régulièrement des articles pour votre blog personnel ou celui de votre entreprise, il est fort probable que vous soyez confronté un jour (si ce n’est pas déjà fait) à un cas de Duplicate Content.
Bien que d’un point de vue éthique, il est assez frustrant de voir quelqu’un outrageusement « voler » du contenu qui ne lui appartient pas, un problème, bien plus important, de référencement peut surgir à cause de cas avérés de contenus dupliqués.
La croisade de Google contre le Duplicate Content
En février 2011, Google a décidé de prendre très au sérieux les problèmes SEO engendrés par les contenus dupliqués. L’algorithme Panda lancé à cette époque avait (et a toujours) pour objectifs de combattre les sites à faible qualité tels que les fermes de contenus, qui copient-collent des articles de blog externes dans le seul but de générer des revenus par le biais de clics sur des bannières publicitaires. Afin de lutter contre ces techniques Black Hat, Google traque et pénalise les sites web malveillants en leur faisant perdre des rankings dans les SERP.
D’après Moz, les contenus dupliqués sont avant tout problématiques pour les moteurs de recherche qui ne savent pas trop comment les traiter, notamment :
- Ils ne savent pas quelle est la page source à ajouter à leur index ;
- Ils ne savent pas s’ils doivent attribuer les bénéfices SEO (trust, authority, link juice, etc.) à une page en particulier
- Ils ne savent pas quelle page proposer comme résultat dans les SERP.
Le contenu dupliqué représente un contenu qui apparaît sur le web à plus d’un endroit, c’est-à-dire lorsque deux pages (ou plus) partagent le même contenu.
Grosso modo, on peut diviser la problématique du contenu dupliqué en 2 catégories :
Les contenus dupliqués internes
Dans ce cas-ci, seule l’URL permet de différencier les 2 contenus au sein même de votre site web. Souvent, cette erreur n’est pas volontaire et résulte d’une mauvaise architecture de votre site. Ceci pose un problème pour Google qui peut penser que vous essayez de contourner son algorithme et pourra donc pénaliser les pages incriminées.
Comment réagir?
La bonne nouvelle avec le contenu dupliqué interne, c’est qu’il est assez facile de le corriger puisque vous avez le contrôle sur votre site web. Il existe plusieurs techniques pour nettoyer votre site web de tous types de doublons :
- Supprimer le contenu dupliqué grâce via une 404 (not found). C’est le moyen le plus facile et le plus radical si la page ne représente que peu d’intérêt en termes de trafic et de référencement ;
- Mettre en place une redirection 301 qui indiquera aux robots ainsi qu’aux internautes que le contenu de la page a été déplacé vers une autre adresse ;
- Laisser le contenu tel quel sur votre site, mais bloquer son accès pour les robots grâce à un fichier robot.txt ;
- Mettre en place une balise canonique (rel=canonical) sur la page dupliquée. Cette balise contiendra l’URL de la page d’origine et c’est celle-ci que les robots considèreront comme page source ;
- Supprimer directement l’URL dupliquée de l’index via votre Google Webmaster Tools
Les contenus dupliqués externes
il existe malheureusement sur le web des personnes appelées « Content scraper », qui sillonnent le web à la recherche de contenu facile à copier et à publier sur leur propre site web. Parfois, ces pirates du web prennent le temps de « maquiller » votre article en changeant de petits détails (le titre, l’ordre des mots, les images, etc .) afin de le faire passer pour original. D’autres fois, ils ne se donneront même pas cette peine et s’approprieront directement votre travail tel quel, sans vous donner le moindre crédit. Plus que du contenu dupliqué, on peut parler ici de véritable plagiat.
Comment réagir ?
Il n’est jamais facile ni plaisant de gérer ce genre de problème. Néanmoins, commencez toujours par laisser le bénéfice du doute au plagieur. S’il est de bonne foi, un simple email vous suffira pour le décider à réparer son erreur. Par contre, s’il ne veut pas vous faire entendre raison, il vous faudra peut-être aller jusqu’à faire constater le plagiat par un huissier de justice ou (en fonction de la gravité) à intenter une action en justice.
Sachez enfin qu’il existe sur le web de nombreux outils de rédaction permettant de détecter les contenus dupliqués, citons notamment :
- Copyscape
- Positeo
- Plagiarism Checker
S’assurer de ne pas être en prise avec un cas de contenu dupliqué est une tâche que tout professionnel du marketing est amené à entreprendre un jour ou l’autre. Surtout depuis l’instauration de Panda, les risques encourus sont bien trop grands pour ne pas prendre ce problème au sérieux.