Sur notre blog on propose parfois un contenu au format PDF pour le mettre à la disposition de vos visiteurs pour le téléchargement et son utilisation hors ligne. Alors la question qui se pose est : faut-il en forcer la désindexation auprès de Google ? si oui , est-ce une bonne pratique SEO ? Le déréférencement de ce type de fichier est-il une bonne ou une mauvaise chose ?
Désindexation de fichiers PDF :Pourquoi ?
De nombreux blog proposent en ligne des fichiers au format PDF, qui sont indexés par le géant Google. Pour trouver ces fichiers , on peut facilement taper des requêtes comme « wordpress filetype:pdf (on recherche ici les fichiers qui contiennent le mot « wordpress » et qui sont au format PDF) .
La plupart du temps, on trouve ainsi de nombreux fichiers à ce format. Google sait donc indexer et lire le contenu de ces fichiers PDF et aime beaucoup les indexer. Mais sont-ils intéressants dans le cadre d’une stratégie SEO ? On peut en effet se poser la question d’une éventuelle désindexation, et ce pour plusieurs raisons :
1. Si Google sait indexer les fichiers PDF, ce derniers sont très complexes, et difficile à optimiser. Pas de H1, H2, etc., pas de balises qui indiquent de réelles où insérer des mots clés. De plus, la plupart des meta-données que l’on peut rajouter aux fichiers PDF ne sont pas lues par Google. Donc, est-il intéressant d’indexer sur Google un contenu non optimisé avec une visée SEO ?
2. Un contenu PDF peut entrer en conflit de « duplicate content » avec le même contenu en HTML, ce qui est dommage. Donc, si vous avez le même contenu dans les deux formats, autant garder l’HTML, plus facile à optimiser, donc à positionner.
3. De plus, lorsque l’internaute trouve un fichier PDF dans les résultats de recherche de Google, il clique dessus et télécharge directement le fichier. Résultat ? Il n’est même pas venu sur votre site. C’est dommage, non ? en plus d’une consommation du bandwidth (bande passante) de votre site .
La désindexation des fichiers PDF
Parfois, il est intéressant de laisser Google indexer les fichiers PDF de son site. Mais il est en tout cas important de se poser la question. Il en est de même, d’ailleurs, des fichiers Word (.doc), Excel (.xls) ou Powerpoint (.ppt) entre autres.
Vous vous apercevrez alors que la réponse penche souvent du côté de la désindexation. En revanche, dans ce cas, les moyens « classiques » de déréférencement ne fonctionnent pas obligatoirement :
– La balise « robots noindex » n’est pas utilisable puisqu’il ne s’agit pas là de fichiers HTML.
– Le fichier robots.txt n’est pas toujours simple à utiliser également car les fichiers PDF ne sont pas toujours, physiquement, dans un même répertoire (comme c’est plus souvent le cas pour les images). Et, dans de nombreux cas, il n’est pas facile de les isoler au travers d’une directive « disallow: ».
Deux solutions sont alors possibles :
1. La mise en « nofollow » des liens pointant sur les fichiers PDF et permettant de les télécharger. Cela fonctionnera pour les nouveaux liens (ceux qui n’ont pas encore été suivis par les robots de Google), en revanche, si les fichiers PDF ont déjà été indexés, le « nofollow » sera inefficace.
2. La meilleure façon d’effectuer la désindexation sera alors d’utiliser la directive X-Robots-tag du protocole HTTP en d’envoyer la directive « noindex » lorsque Googlebot tentera de les télécharger. Pour cela, copier les lignes ci-après et coller les dans le fichier .htacess de votre site :
#Bloquer l'indexation des fichiers Word et PDF <files ~ "\.(doc|docx|pdf)$"> Header set X-Robots-Tag "noindex, nofollow" </Files>
Dans ce cas, les fichiers Word et PDF en question seront désindexés de Google en quelques jours.
Pour désindexer seulement les pdf utilisez ce code:
#Bloquer l'indexation des fichiers PDF <Files ~ "\.pdf$"> Header set X-Robots-Tag "noindex, nofollow" </Files>
Pour conclure, c’est à vous de décider ce qu’il faut faire avec vos fichier PDF. Vous êtes libres, bien sûr, de les laisser indexés, mais le « geste qui sauve » sera avant tout de se poser la question de leur désindexation. Ou pas… en bref , vous savez en tout cas maintenant comment faire pour désindexer vos fichiers pdf…
Laisser un commentaire