Il est évident que Google analyse un nombre très vaste de critères et facteurs pour déterminer le positionnement des sites internet. Mais qu’est-ce que Google peut savoir concrètement sur nous en tant que webmaster ou administrateur de sites internet ? Comment utilise-t-il cette information et quel impact cela peut-il avoir pour le référencement naturel?
Sans aller jusqu’à Big Brother (quoique…), Big Google sait un tas de choses impressionnantes sur vos sites internet, sur vous en tant qu’internaute et donc sur vous en tant qu’administrateur de sites. Cela n’est pas forcément un problème mais quand on parle de référencement naturel on se doit de prendre des précautions dans certaines situations…
En effet, lorsque l’on possède plusieurs sites internet, il y a de nombreux éléments qui peuvent être communs (empreinte ou footprint dans le jargon) et qui seront donc des indicateurs d’une potentielle relation. Plus il y aura de points communs, et plus cela donnera un signal fort. Cela peut donc avoir un impact sur votre référencement naturel si par exemple vous faites des liens entre vos sites. Ces liens pourraient voir leur valeur diminuée si Google pense qu’il s’agit d’une même entité, et cela peut être encore plus délicat dans le cas de réseaux de sites importants, même légitimes.
Dans d’autres cas, cela peut avoir un effet positif pour votre référencement si jamais vous avez un site avec une bonne notoriété et que vous lancez par exemple une version dans une autre langue, auquel cas il est important que Google comprenne qu’il s’agit du même site et donc qu’il peut lui attribuer un niveau de confiance supérieur.
Si vous possédez donc plusieurs sites internet voici une liste non exhaustive d’éléments qui peuvent indiquer à Google qu’il s’agit de la même personne ou entreprise derrière.
1. WHOIS
Il s’agit des informations publiques concernant l’enregistrement des noms de domaine. Sachez qu’il est possible d’enregistrer des noms de domaine de façon anonyme, mais sinon s’il y a le même propriétaire pour 2 noms de domaine…pas besoin de chercher beaucoup plus loin. Google n’est pas registrar depuis des années (et vend maintenant des noms de domaine) pour rien 😉
2. Adresse IP
Les sites ayant la même adresse IP peuvent, dans une certaine mesure, être considérés comme appartenant à la même entreprise. Notamment s’il n’y a pas beaucoup de sites utilisant cette même adresse (jusqu’à quelques dizaines). En effet, dans le cas d’un hébergement mutualisé avec des centaines voire des milliers de sites sur la même adresse IP, on se doute qu’ils ne pourront pas tous appartenir au même propriétaire.
Voici une extension Firefox assez sympa: FlagFox, celle-ci affichera un petit drapeau dans la barre d’adresse en fonction du pays de l’IP mais elle vous permettra aussi de récupérer facilement l’adresse IP du site que vous visitez ainsi que diverses informations.
Adresse IP avec le même bloc C
Une adresse IP (en version 4 car la version 6 qui se propage petit à petit est différente) est composée de 4 nombres entre 1 et 255 et a le format suivant AAA.BBB.CCC.DDD
Deux adresses IP ayant le même bloc C signifie qu’elles partagent les même chiffres pour “AAA.BBB.CCC”. Donc l’adresse 173.194.41.152 a le même bloc C que l’adresse 173.194.41.153 (adresses de google).
Une adresse IP différente mais appartenant au même bloc C qu’une autre adresseIP peut aussi être considérée comme appartenant au même propriétaire car les adresses sont souvent vendues par bloc.
Une astuce pour chercher les sites utilisant la même adresse IP, utilisez la commande “IP:” dans Bing suivi de l’adresse IP que vous souhaitez inspecter.
3. Serveur DNS
Même idée que pour l’adresse IP, si plusieurs sites partagent le même serveur DNS et que celui-ci ne gère pas beaucoup de sites, alors il peut y avoir un lien entre ces sites. Pour ceux utilisant les hébergements classiques des registrars de non de domaine, aucun soucis à se faire car des millieurs de sites les utilisent.
4. Compte Google Analytics
Les sites utilisant le même compte ou sous-compte Google Analytics peuvent être reliés.
Voici un site permettant de chercher tous les sites utilisants le même code Google Analytics, serveur DNS ou adresse IP: http://spyonweb.com/
Outre Google Analytics, les autres outils de statistiques peuvent aussi vendre la mèche s’ils utilisent le même code, donc faire quand même attention si vous utilisez http://piwik.org/ par exemple.
5. Compte Google Webmaster tools
Avoir tous vos sites dans le même compte Google Webmaster tools n’est probablement pas une bonne idée… Par contre si vous avez plusieurs sites dans des thématiques complètement différentes et qu’il n’y a aucun lien entre les sites, cela ne pose à priori pas de problème.
6. Compte Google AdSense / publicité / affiliation
Si vous partagez le même compte Adsense ou le même code d’affilié à travers plusieurs sites, le message sera assez clair qu’ils vous appartiennent tous.
7. Code source des sites
Si vous utilisez la même “coquille” pour plusieurs de vos sites cela peut aussi être détecté. Il y a par exemple des développeurs qui laissent des commentaires uniques dans le code source et cela sera donc commun à vos sites. Là encore si vous utilisez un template wordpress déjà en place sur des centaines de sites, cela n’aura pas le même effet.
CSS/JS
Même idée avec des sites un peu différents, si vous partagez des fichiers CSS ou JS, cela peut être un indicateur
La plateforme
Cela est déjà plus difficile à prendre en compte mais disons que pour les filous qui développent des réseaux de sites, il serait une bonne idée de ne pas toujours utiliser le même CMS.
8. Contenu
Si vous utilisez du contenu identique sur plusieurs sites, cela peut aussi être une indication. Par exemple la page contact avec le même numéro de téléphone, la même adresse, ou encore les mêmes mentions légales ou CGV…
Duplication de texte
En plus d’être un frein au référencement, si en plus vous utilisez du contenu identique sur plusieurs de vos sites, comme des descriptions produits, cela peut être assez flagrant.
Voici 2 outils vous permettant de vérifier la duplication de contenus entre vos sites mais également avec n’importe quels autres sites sur internet:
Duplication d’image
Vous pouvez aussi vérifier si vous partagez des images entre vos sites ou avec d’autres sites sur internet, voici 2 outils très efficaces:
1. Google image avec l’option de “rechercher par image”
2. Le site tineye.com
9. Liens
Les liens entre vos sites sont une connexion apparente. Quelques liens sont généralement légitimes, mais souvent le problème est que les sites ont des liens dans le footer, ce qui implique que toutes les pages ont un lien vers les autres sites. Dans ce genre de situation, cela semble déjà beaucoup moins légitime, et avoir des centaines de liens entre vos sites est un signal assez fort.
Un autre exemple souvent rencontré est lorsque vous avez un blog sur un autre nom de domaine. Dans ce cas la majorité de vos articles auront un lien vers votre site et cela sera facilement détecté par Google. C’est pour cela que l’on recommande d’avoir le blog dans un dossier sur le nom de domaine du site principal. Un sous-nom de domaine serait en partie comme un autre site.
Profil de liens
Mais que dire si vous n’avez qu’un seul site ? Cela ne vous concerne pas ? Et bien en fait si… Car ce même principe de connexion entre sites s’applique à vous lorsque vous faites du netlinking. Vous rédigez un article de qualité, vous trouvez un site dans votre thématique pour le publier et votre article est accepté. Sauf que le site en question fait parti d’un réseau de sites…et il peut potentiellement être impacté par Google Penguin ou par sa future mise à jour. Il s’agit donc de quelque chose qui concerne potentiellement tout le monde.
10. hreflang
Le link rel=”alternate” hreflang permet d’informer Google des différentes versions de votre site en fonction de la langue et du pays ciblé. Cela est très utile et souvent oublié.
11. Social
Les signaux sociaux, comme vos +1 sur Google+ peuvent également donner de nombreuses indications. Si vous faites principalement des +1 de quelques sites il y a des chances que vous soyez en charge de ces sites.
Authorship
Techniquement le plus grand “link scheme” de la planète, l’authorship de Google relie votre site à votre compte Google+. Si vous utilisez le même authorship sur plusieurs sites, vous êtes clairement identifié comme étant l’auteur de ces sites. L’authorship peut aussi être utilisé que sur une page s’il s’agit d’un article que vous avez publié sur un blog par exemple, mais dans ce cas, est-ce que le lien qui pointe vers votre site aura autant de valeur si le tag n’était pas présent ?
12. Historique de navigation
Nous rentrons un peu plus en mode “parano”, mais si vous êtes connecté à votre compte Google (et même lorsque vous ne l’êtes pas), Google garde un historique de vos navigations. Si vous visitez souvent les mêmes sites, il y a peut-être un lien ? En lui-même cet indicateur n’est pas le plus fragrant, mais c’est souvent l’accumulation d’indicateurs qui fait la différence.
13. Mouchards
Google Toolbar
La barre d’outils de Google est considérée par beaucoup comme un gros mouchard de votre activité sur Internet. L’utiliser lorsque vous naviguez sur vos sites, ou mieux dans l’administration de vos sites, est encore une fois un fort indicateur de connexion entre les sites.
Google Chrome
Le navigateur de Google est aussi connu pour donner des informations de navigation et de recherche à Google.
Google DNS
Google fournit aussi un service de DNS. Si vous l’utilisez (car vous trouvez qu’il fonctionne mieux que ceux de votre FAI), vous donnez également des informations sur votre navigation.
Google Fonts
Google propose également un service de polices d’écriture que vous pouvez utiliser directement sur votre site internet. De nombreux webmasters ou créateurs de site/thèmes l’utilisent. Dans la plupart des cas, cela peut augmenter la rapidité de votre site et soulager le serveur faisant l’hébergement du site puisque cela requêtera directement les serveurs de Google. Mais si une Google font est utilisée dans l’administration de plusieurs de vos sites, Google peut se rendre compte que la même adresse IP télécharge la police d’écriture pour des administrations de sites différents.
Pensez-vous à d’autres éléments qui pourraient indiquer à Google que vous contrôler plusieurs sites ?
Moi je pense à Android et tous les services Google qui y tournent, qui doivent être de fantastiques mouchards.
C’est une bonne remarque, on peut effectivement se poser la question des données récupérées par Android. Lorsqu’il est question d’historique de navigation, il est vrai que l’on est en permanence connecté à son compte Google sous Android et ce dernier peut facilement agréger les données des utilisateurs en provenance de plusieurs appareils différents. Je n’ai pas trouvé d’information concernant l’utilisation des applications installées par Android mais cela ne serait pas difficile à imaginer.
C’est tout de même difficile de ne pas se faire repérer lorsque l’on a un réseau. Pour rester anonyme face à Google cela demande une très grosse organisation et du temps.
Vous ne parlez pas de Gmail, est-ce que à votre avis, Google analyse vos emails pour savoir si vous contrôlez un réseau de site ? (Oui on devient vite parano !)
Effectivement on peut vite devenir parano, mais je ne pense pas que Google analyse les emails Gmail pour cela. Imaginez le volume d’emails à analyser et le coût en ressources serveurs que cela représente… Par contre le fait qu’il y ait une association entre des enregistrements de comptes avec des emails rattachés entre eux, là pourquoi pas. Par exemple si vous avez des comptes Google Analytics distincts sur des adresses emails différentes mais que toutes ces adresses sont gérées dans le même compte Google Apps…on peut se poser la question.
La paranoïa n’est de mise que si vous cherchez à faire un réseau de sites de mauvaise qualité, c’est à dire qui se poussent entre eux sans chercher à avoir une quelconque légitimité individuelle. Si, au contraire, vous souhaitez faire du référencement de qualité, alors vous allez chercher à “pousser” chacun des sites de la linkwheel de façon à en faire une autorité autonome. Et dans ce cas, inutile de chercher à brouiller les traces puisque votre site présente un réel intérêt pour l’internaute.
Ola,
un article très complet, une preuve de plus qu’il est vraiment difficile de planquer son réseau.
Je rebondis sur le com’ de Akabia, puisque via un tweet ce matin, on a la preuve que Big G lit les mails, malgré la volumétrie : undernews.fr/reseau-securite/google-denonce-un-pedophile-utilisant-gmail.html.
#cqfd
Voilà un bel article comme on aimerait en trouver plus souvent. Personnellement, je pense qu’il faut différencier le réseau artificiel qui ne propose rien de véritablement différent d’un site satellitaire à l’autre et dont on comprend bien que son propriétaire n’a cherché qu’à poser un lien vers le site amiral, et d’autre part le vrai réseau où chaque site satellitaire possède une thématique propre.
Un cas d’école fut le réseau de sites pornographiques Carpediem où l’activité du webmestre consistait essentiellement à créer tous les jours de nombreuses vitrines n’ayant qu’un seul objectif : occuper la toile et renvoyer vers le site payant. Cela ne peut plus fonctionner.
Inversement, si chaque site secondaire complète le site principal, cela ne peut au contraire que renforcer l’impact de l’ensemble. À voir ce que va donner le nouvel algorithme de Google de juin 2015.