11 techniques pour éviter le scraping de votre site web

Le scraping est un terme qui regroupe l’ensemble des techniques d’extraction de données de sites web dans la finalité de les intégrer à un autre.

Cette technique peut être pratiquée à des fins légitimes mais, la plupart du temps, c’est à des fins malveillantes.

Ainsi Google utilise le scraping pour indexer les sites web, vous indiquer les performances de celui-ci, afficher la météo, les tarifs des hôtels… sur ses pages. Pour faire cela, les robots scrapers de Google extraient les informations de sites spécialisés pour les indiquer dans ses résultats. Et on est ravis qu’il le fasse.

Les robots des sites de comparateurs de vols font de même. Ils scrapent les sites web des compagnies aériennes pour en extraire les informations de vols et leurs tarifs. Cela vous permet de comparer les prix entre toutes les compagnies à un seul endroit : leur propre site web.

Certains scrapers s’en servent pour récolter des données à des fins commerciales : des coordonnées téléphoniques, des adresses mail, des données sur les entreprises… dans le but de réaliser des campagnes marketing par contact direct.

D’autres s’en servent de façon peu éthique en copiant les données d’un site web pour en faire une copie dans le but de détourner votre audience.

D’autres encore s’en servent pour espionner les produits de leurs concurrents et afficher les meilleures offres chez eux.

Certaines pratiques de scraping n’ont que peu d’incidence sur votre business. D’autres par contre peuvent être dramatiques en impactant fortement les performances de votre site web et donc vos ventes.

Alors, comment lutter contre le scraping et protéger votre site ?

Le scraping, est-ce légal ou illégal ?

Le droit n’est pas encore tout à fait mûr pour répondre à cette question.

La justice a rendu des décisions contradictoires en la matière.

On peut citer par exemple l’affaire Ryanair contre Opodo dans laquelle Ryanair accusait Opodo de récolter des données partielles sur son site ce qui, selon Ryanair, dénaturait la teneur de son offre. La justice a débouté Ryanair dans cette affaire.

Certains scrapers arguent du fait que les données sont affichées publiquement sur internet et qu’il n’est donc pas illégal de les récolter.

D’un autre côté, des pratiques éhontées de copie de parties entières de sites web peuvent être considérées comme du vol de données.

On peut citer dans ce cas les pratiques peu scrupuleuses de certaines agences immobilières qui copient les annonces de leurs concurrents pour les intégrer à leur propre site. C’est considéré comme une pratique de concurrence déloyale et parasitaire. Le détenteur du site a fourni de gros efforts pour constituer le contenu de son site alors que le scraper n’a eu qu’à se servir chez lui pour faire du commerce avec des données qu’il n’a pas constitué lui-même.

Au final, tout dépend de la finalité du scraping et de l’accord qu’il y a entre les deux parties sur cette pratique. Si un accord clair existe d’une façon ou d’une autre entre les deux parties l’autorisant et qui définit ses limites, alors c’est légal.

En l’absence de cet accord, et s’il est prouvé que cela dessert fortement le détenteur du site au profit du scraper, alors c’est illégal.

Il semblerait que la justice française ait tranché. En effet, l’article 323-3 du Code pénal énonce :

« Le fait d’introduire frauduleusement des données dans un système de traitement automatisé, d’extraire, de détenir, de reproduire, de transmettre, de supprimer ou de modifier frauduleusement les données qu’il contient est puni de cinq ans d’emprisonnement et de 150 000 € d’amende. Lorsque cette infraction a été commise à l’encontre d’un système de traitement automatisé de données à caractère personnel mis en œuvre par l’État, la peine est portée à sept ans d’emprisonnement et à 300 000 € d’amende. » D’autant plus qu’à l’heure de la RGPD la protection des données personnelles est de mise.

Dans les faits, la justice cherchera à démontrer l’intention frauduleuse du scraper.

Pourquoi est-ce important de lutter contre le scraping ?

Pour réaliser la tâche qu’on leur demande, les robots scrapers parcourent toutes les pages web de votre site. Cela peut prendre énormément de temps et surtout beaucoup de bande passante. Tellement que ça ralentit fortement l’accès à votre site pour les utilisateurs « normaux », les humains donc. Au point que parfois l’accès à votre site est complètement impossible. Vos clients et prospects ne peuvent plus se rendre sur votre site et donc ne peuvent plus acheter vos produits.

Pire. Ils peuvent penser que votre site est mal conçu et donc peu digne de confiance. Votre réputation en prend un coup et votre chiffre d’affaires également.

Au vu de ce constat, les robots scrapers se sont modernisés. Ils se sont faits plus discrets et consomment beaucoup moins de bande passante. Il n’empêche qu’ils continuent néanmoins de piller votre contenu sans votre consentement.

Bien que certaines pratiques soient inoffensives, et même parfois nécessaires (dans le cas de Google), la plupart du temps le scraping est utilisé à des fins malveillantes.

Beaucoup d’utilisateurs utilisent le scraping pour surveiller, voire écraser la concurrence. Cela se passe souvent avec les sites e-commerce. Ils repèrent la moindre modification de tarif, d’image, de description de produits. Ils les reproduisent à l’identique et quasi automatiquement sur leur site web non sans avoir programmé leur robot pour qu’il indique un tarif inférieur au vôtre. Vos clients sont alors détournés vers leur site web sans que vous ne puissiez rien faire. Beaucoup d’e-commerces mettent la clé sous la porte à cause de cette pratique.

11 techniques pour lutter contre le scraping de votre site web

1) Ne mettez pas de données sensibles sur votre site

Le plus simple, si vous le pouvez, est de ne mettre aucune information facilement accessible sur votre site web. Les scrapers n’auront que des informations de peu de valeur à se mettre sous la dent.

2) Si vous devez le faire, utilisez un autre format que le texte

Je vous conseille de mettre vos informations comme les numéros de téléphones et autres coordonnées sous un format qui ne peut pas facilement être copié-collé. Vous pouvez en faire des images par exemple, des PDF ou des infographies.

3) Mettez en place des conditions d’utilisation contraignantes

Indiquez clairement dans vos conditions générales d’utilisation l’usage auquel vous destinez vos données, ce que vous autorisez et interdisez comme comportement sur votre site, particulièrement en matière de scraping bien sûr, et s’il le faut, vous contacter pour établir un contrat d’utilisation plus approfondit pour utiliser vos données. Ainsi, en cas de litige, vous pourrez faire valoir ce document en votre faveur.

4) Installez un plug-in « anti-clic droit »

Ce n’est pas grand-chose, mais au moins vous éviterez les copiés-collés manuels. Les robots pourront malheureusement facilement contourner ce petit barrage.

5) Vérifiez la présence d’un fichier « robots.txt » sur votre site

Chaque site web présente généralement un fichier nommé « robots.txt ». Sa seule présence indique aux robots scrapers les pages auxquelles ils ont droit d’accès et celles qui ne le sont pas. Ils donnent des instructions aux robots des moteurs de recherche.

En paramétrant correctement les fonctionnalités de ce fichier, vous pouvez empêcher les spiders d’accéder à vos pages.

6) Utilisez des CAPTCHAs

La technologie CAPTCHA est efficace. Il s’agit d’une fenêtre qui s’ouvre avant d’accéder à une page où il est demandé de réaliser des actions que les robots sont incapables de faire. Cela les empêche donc d’y accéder.

7) Mettez en place une connexion sécurisée pour l’accès à vos pages sensibles

Vous pouvez mettre un identifiant et un mot de passe pour accéder à une partie du site où se trouvent vos informations les plus sensibles. Les robots n’y auront pas accès.

8) Repérez les comportements de navigation suspects

Voici les indices qui devraient vous mettre la puce à l’oreille :

De nouveaux utilisateurs visitent beaucoup de pages mais n’achètent jamais.
Vous repérez un nombre anormalement élevé de vues de vos produits par un ou plusieurs mêmes utilisateurs.

Il est aussi possible de faire de la veille chez vos concurrents. Vous rechercherez des concordances entre une activité suspecte sur votre site et l’apparition de produits et tarifs similaires aux vôtres sur son site.

Google Search Console peut vous informer si votre site est victime de scraping.

9) Bloquez les adresses IP des robots scrapers que vous avez repérés

Lorsque vous avez repéré les adresses IP des utilisateurs suspects, vous pouvez alors limiter leur débit d’accès ou leur bloquer totalement l’accès à votre site. Des plug-ins font ça très bien.

10) Mettez en place des pages leurres

Pour repérer si vous êtes victime de scraping, la mise en place de pages leurres peut vous aider. Il s’agit de pages qu’un humain ne visiterait jamais. Vous pouvez par exemple mettre dans une page un lien en blanc sur blanc donc invisible pour un œil humain mais repérable par un robot. Lorsque ces pages sont visitées, vous pouvez être sûr que votre site est scrapé.

11) Engagez un prestataire payant pour protéger votre site

Si tout cela ne vous suffit pas, vous pouvez bien sûr engager un prestataire dont la sécurité web est le métier. Ils auront d’autres ressources à vous proposer.

La sécurité de votre site doit être une priorité. Êtes-vous ou avez-vous déjà été victime de scraping ? Quelles mesures mettez-vous en place pour y remédier ? Dites-moi tout en commentaires.