Pages : 1
#1 Le 20/03/2015, à 09:44
- to94
Filtre fail2ban pour bloquer les robots web-scraping
Bonjour le but serait de tester les robots faisant du scraping sur le web. Je met donc un lien invisible par l'humain sur une des page de mon serveur. Ce lien pointe vers une autre page html. Ainsi, si cette page "invisible" à été visité alors il ne s'agit pas d'un humain qui est en train de naviguer mais d'un robot faisant du web scraping. Ainsi les adresses IP détectées seront bannies.
Voilà pour l'idée !
Maintenant au niveau technique je suis un peu perdu concernant la syntaxe de la règle.
J'ajoute dans le fichier /etc/fail2ban/jail.conf ma nouvelle règle :
[apache-webscraping]
enabled = true
#j'interdit les @IP faisant du webscraping
filter = apache-webscraping
action = hostsdeny
#je regarde les logs
logpath = /var/log/apache2/access.log
Maintenant mon fichier de règles /etc/fail2ban/filter.d/apache-webscraping.conf
[Definition]
failregex = ^<HOST> -.*"GET.*HTTP. ???
ignoreregex = ??
Et là je ne sais pas quoi mettre ..
Dernière modification par to94 (Le 20/03/2015, à 09:45)
Hors ligne
#2 Le 20/03/2015, à 14:30
- Compte anonymisé
Re : Filtre fail2ban pour bloquer les robots web-scraping
cela fonctionnera avec quelques robots mais pas tous, les robots web sont très "intelligents" ils peuvent suivre les liens comme les humains et détecter comme un aliens si suspect ou pas, ils savent lire les adresses mail et http aussi et continuent à te coller le train ..bref tu fermes la porte à double tour et ils trouvent quand même le moyen de passer par un cul de poule de la fenêtre... tu peux tenter les captcha, les plugins etc mais toujours qui passeront quand même. La meilleure solution de les éviter est de faire un vitualhost "poubelle" avec ton adresse IP pour les canaliser vers les oubliettes et d'autres virtualhost qu'ils ne peuvent pas deviner pour tes sites, les robots ne s'adressant qu'aux IP la plupart du temps..
#3 Le 20/03/2015, à 15:56
- αjet
Re : Filtre fail2ban pour bloquer les robots web-scraping
Si ton lien pointe vers une page html a la racine de ton server, par example, http(s)://monserver.org/honeypot.html, dans ton access log tu auras des demandes de connection du type "GET /honeypot.html".
Dans ton failregex, tu devrais mettre:
failregex = ^.*GET "\/honeypot\.html.*$
Dans cet exemple, je ne prends pas en compte le referer, donc n'importe qui qui demande accès a cette page sera banni... y compris toi ! Tu devrais peut être songer a rajouter le referer dans ta regex...
Comme indiqué par sirius007, les robots sont assez sophistiqués... il faut que tu trouves une technique rusée pour que le lien n'apparaisse pas pour un utilisateur normal sans que le robot s'en rende compte. Ils interprètent de mieux en mieux le css et js...
Dernière modification par αjet (Le 20/03/2015, à 15:56)
αjet: ça se prononce alfajet, bordel ! | GMT+1 | Viens poueter avec moi, bordel ! | Mes photos | Shaarli | Fluidbuntu-fr
Hors ligne