Alerte météo : recrudescence des bots et crawlers de site.

Bonjour,

Les robots sont légion sur internet et peuvent gêner le fonctionnement de votre site :

  • Certains sont « bienveillants » comme googleBot et bingbot qui ne désirent que vous référencer.
  • D’autres sont malveillants et cherchent sans relâche des sites non mis à jour (WordPress, Joomla, etc) afin de les transformer en esclave pour spammer le net.

Dans le premier cas, nous vous recommandons de ne jamais oublier le fichier robots.txt celui-ci est un incontournable et vous ne pourrez vous en prendre qu’à vous même si votre site, ou pire votre serveur devient indisponible lorsqu’un robot (bien que bienveillant) passe par là.

  1. Plus d’information sur le fichier robots.txt ici
  2. Tous les robots bienveillants respectent les paramètres allow/disallow du robots.txt
  3. Certains sont sensibles au paramètre crawl-delay
  4. Concernant googleBot, celui-ci doit aussi faire l’objet d’une attention particulière car google ignore certains paramètres comme « crawl-delay »
    https://www.google.com/webmasters/tools
  5. Concernant bingbot, il n’ignore pas crawl-delay, mais il faut se rendre ici pour affiner certains paramètres :
    http://www.bing.com/toolbox/webmaster/

Dans le second cas, notre pare-feu dispose de règles (dites IPS) qui vous protègent contre certaines requêtes malveillantes.
Toutefois, certains types d’attaques ne sont pas détectables. Nous pouvons affiner ces règles pour votre serveur (notamment Ubuntu), afin d’empêcher un nombre trop important de connections qui pourraient rendre votre site ou votre serveur inaccessible (DDoS).

Cependant, de bonnes pratiques de programmation peuvent vous aider :

  1. Récupérer le moins possible de données lors d’une requête SQL (en effet SQL traitera plus rapidement une boucle que votre code ASP/PHP/etc).
  2. Mettre en cache les requêtes les plus courantes (exemple: la requête qui récupère le menu de navigation)
  3. Ne faire des jointures SQL que sur des INT ou BIGINT (une jointure sur un champ VARCHAR ou NVARCHAR est extrêmement coûteux en temps et en ressource système)
  4. Mettre des index sur les critères de recherche les plus utilisés, mais ne pas abuser des index.
  5. Testez vos requêtes (par exemple : via phpmyadmin et la fonction EXPLAIN)

Trojan-horse-virus

N’oubliez pas que de la rapidité de vos pages dépend de votre classement sur les moteurs de recherche !

En effet, plus vos pages seront longues à s’afficher ou indisponibles plus votre classement sera affecté !

Le second critère le plus important est la localisation de vos serveurs, vous êtes chez un hébergeur 100% Français !