Wpcours

Des tuto, thèmes et plugins pour Wordpress

  • WORDPRESS
  • TUTORIELS
  • PLUGINS
  • WP-SEO
  • THEMES
  • Blogger
  • Contact

Comment bloquer l’indexation des fichiers PDF

Màj le 12 mars 2018

Sur notre blog on propose parfois un contenu au format PDF pour le mettre à la disposition de vos visiteurs pour le téléchargement et son utilisation hors ligne. Alors la question qui se pose est : faut-il en forcer la désindexation auprès de Google ? si oui , est-ce une bonne pratique SEO ? Le déréférencement de ce type de fichier est-il une bonne ou une mauvaise chose ?

Désindexation de fichiers PDF :Pourquoi ?

De nombreux blog proposent en ligne des fichiers au format PDF, qui sont indexés par le géant Google. Pour trouver ces fichiers , on peut facilement taper des requêtes comme « wordpress filetype:pdf (on recherche ici les fichiers qui contiennent le mot « wordpress » et qui sont au format PDF) .

Désindexation de fichiers PDF

 

La plupart du temps, on trouve ainsi de nombreux fichiers à ce format. Google sait donc indexer et lire le contenu de ces fichiers PDF et aime beaucoup les indexer. Mais sont-ils intéressants dans le cadre d’une stratégie SEO ? On peut en effet se poser la question d’une éventuelle désindexation, et ce pour plusieurs raisons :

1. Si Google sait indexer les fichiers PDF, ce derniers sont très complexes, et difficile à optimiser. Pas de H1, H2, etc., pas de balises qui indiquent de réelles où insérer des mots clés. De plus, la plupart des meta-données que l’on peut rajouter aux fichiers PDF ne sont pas lues par Google. Donc, est-il intéressant d’indexer sur Google un contenu non optimisé avec une visée SEO ?

2. Un contenu PDF peut entrer en conflit de « duplicate content » avec le même contenu en HTML, ce qui est dommage. Donc, si vous avez le même contenu dans les deux formats, autant garder l’HTML, plus facile à optimiser, donc à positionner.

3. De plus, lorsque l’internaute trouve un fichier PDF dans les résultats de recherche de Google, il clique dessus et télécharge directement le fichier. Résultat ? Il n’est même pas venu sur votre site. C’est dommage, non ? en plus d’une consommation du bandwidth (bande passante) de votre site .

La désindexation des fichiers PDF

Parfois, il est intéressant de laisser Google indexer les fichiers PDF de son site. Mais il est en tout cas important de se poser la question. Il en est de même, d’ailleurs, des fichiers Word (.doc), Excel (.xls) ou Powerpoint (.ppt) entre autres.

Vous vous apercevrez alors que la réponse penche souvent du côté de la désindexation. En revanche, dans ce cas, les moyens « classiques » de déréférencement ne fonctionnent pas obligatoirement :

– La balise « robots noindex » n’est pas utilisable puisqu’il ne s’agit pas là de fichiers HTML.
– Le fichier robots.txt n’est pas toujours simple à utiliser également car les fichiers PDF ne sont pas toujours, physiquement, dans un même répertoire (comme c’est plus souvent le cas pour les images). Et, dans de nombreux cas, il n’est pas facile de les isoler au travers d’une directive « disallow: ».

Deux solutions sont alors possibles :

1. La mise en « nofollow » des liens pointant sur les fichiers PDF et permettant de les télécharger. Cela fonctionnera pour les nouveaux liens (ceux qui n’ont pas encore été suivis par les robots de Google), en revanche, si les fichiers PDF ont déjà été indexés, le « nofollow » sera inefficace.

2. La meilleure façon d’effectuer la désindexation sera alors d’utiliser la directive X-Robots-tag du protocole HTTP en d’envoyer la directive « noindex » lorsque Googlebot tentera de les télécharger. Pour cela, copier les lignes ci-après et coller les dans le fichier .htacess de votre site :

#Bloquer l'indexation des fichiers Word et PDF
<files ~ "\.(doc|docx|pdf)$">
Header set X-Robots-Tag "noindex, nofollow"
</Files>

Dans ce cas, les fichiers Word et PDF en question seront désindexés de Google en quelques jours.

Pour désindexer seulement les pdf utilisez ce code:

#Bloquer l'indexation des fichiers PDF
<Files ~ "\.pdf$">
Header set X-Robots-Tag "noindex, nofollow"
</Files>

Pour conclure, c’est à vous de décider ce qu’il faut faire avec vos fichier PDF. Vous êtes libres, bien sûr, de les laisser indexés, mais le « geste qui sauve » sera avant tout de se poser la question de leur désindexation. Ou pas… en bref , vous savez en tout cas maintenant comment faire pour désindexer vos fichiers pdf…


Vous aimerez également...

  • 7 meilleures astuces pour personnaliser le thème GeneratePress
  • Comment désactiver l’éditeur plein écran dans WordPress
  • Ajouter des boutons colorés simple en css à votre site
  • Optimiser le fichier .Htaccess pour Wordpress
  • Trouver et réparer les liens cassés dans WordPress (Méthodes gratuites)
  • Widget articles similaires pour blogger (related posts)
Accueil / Tutoriels / Comment bloquer l’indexation des fichiers PDF

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ne manquez plus rien
Abonnez-vous

Abonnez-vous dès maintenant à la Newsletters de Wpcours et recevez des tutoriels Gratuitement.

CREER VOTRE AVATAR GRATUIT

Articles récents

  • GeneratePress VS Genesis : Quel est le meilleur thème?
  • Est-ce que le contenu d’IA aide ou nuit à votre site web ?
  • Comment créer des boutons de partage social flottants dans GeneratePress sans plugin ?
  • Google Analytics 4 vs Universal Analytics : Comparaison complète 2023
  • Est ce que Google accepte le contenu généré par l’IA et ChatGPT ?