Ne pas compter les bots

39 réponses
AuteurMessage

Zalex14 | Alexandre
Modérateur

Photo de Zalex14

Inscrit le : 09/05/2005

# Le 12/07/2007 à 14:00

j'up pour faire un petit point sur le passage des bots sur le lien caché dans un bloc en display:none (le petit test que je fais depuis 10 jours sur toutes les pages de partoch).

format du lien :


<div style="display:none"><a href="/bots.php">bots</a></div>


Voici le nombre d'accès (compté une fois par session) des bots sur ce lien après 10 jours de relevés :

bots | nb accès au lien caché | nb accès au site

ShopWiki 14 14
exabot 7 7
yahoo 22 22
SiteSucker 1 1
msn 4 16
cazoodle 8 8
panscient.com 1 1
google 3 18
ia_archiver 2 2

Alors que Google et MSN font partit des moteurs qui scannent le plus mon site ils sont pourtant ceux qui ont le moins suivi ce lien.

Yahoo par contre se fiche royalement du display:none, il suit le lien à chacune de ses visites

Donc soit les bots de google et msn controlent les liens déjà indexés avant de scanner le site et ne repassent pas où ils sont déjà passés, soit le display:none freine leur indexation.



Mieux vaut s'attendre au prévisible que d'être surpris par l'inattendu.

bhamp0 | Benjamin
Membre

Photo de bhamp0

Inscrit le : 09/05/2005

# Le 12/07/2007 à 15:31

Google et MSN doivent utiliser le fait que ta page, au final, n'a pas de contenu ... donc ils y reviennent peu ("aucun intérêt ta page !"), mais ils y sont allés.
Bref, t'as prouvé que ma technique de traque des bots est efficace

Quand on voit c'qu'on voit, et qu'on entend c'qu'on entend, on a raison d'penser c'qu'on pense !

Zalex14 | Alexandre
Modérateur

Photo de Zalex14

Inscrit le : 09/05/2005

# Le 27/05/2008 à 10:40

Petit up car j'ai remis le nez dans les ip/user_agent du div caché cité plus haut.

Je me suis rendu compte qu'un paquet d'ip d'internautes "normaux" suivent ce lien (environ 20 nouvelles IP par jour).

Au final, il s'agirait principalement "d'accélérateurs" de surf , logiciels qui chargent à l'avance les liens des pages consultées, mais aussi des téléphones mobiles qui ne supportent pas ou mal le css (j'ai des tonnes de user_agent en Nokia).

Autre point, comme l'indiquait bhamp0, cette page ne présentant aucun intérêt pour les moteurs, ces derniers ne reviennent plus dessus, au bout de quelques semaines ce div caché n'a donc plus aucun intérêt pour identifier les bots des moteurs.

Mieux vaut s'attendre au prévisible que d'être surpris par l'inattendu.

krucial | Jean Christophe
Administrateur

Photo de krucial

Inscrit le : 09/03/2005

# Le 27/05/2008 à 11:01

Perso, je me suis fait une petit liste de user agent a ne pas compter, je peux vous les filer si vous voulez.

JC - Mes sitesOuvrir dans une nouvelle fenetre | Affiliation devis travauxOuvrir dans une nouvelle fenetre | Cotes voitures anciennesOuvrir dans une nouvelle fenetre

Zalex14 | Alexandre
Modérateur

Photo de Zalex14

Inscrit le : 09/05/2005

# Le 27/05/2008 à 11:13

Preneur

Mieux vaut s'attendre au prévisible que d'être surpris par l'inattendu.

devtribu | Olivier
Modérateur

Photo de devtribu

Inscrit le : 16/06/2005

# Le 27/05/2008 à 11:14

Ca m'interesse aussi

Je note depuis quelques semaines une recrudescence d'ip de particuliers qui scannent ou aspirent le site.
C'est assez curieux puisque cela avait tendance a disparaitre avec les acces adsl

Février 2019, mon futur livre Tout JavaScript chez Dunod https://amzn.to/2PoLd0fOuvrir dans une nouvelle fenetre

Zalex14 | Alexandre
Modérateur

Photo de Zalex14

Inscrit le : 09/05/2005

# Le 27/05/2008 à 11:22

peut être des particuliers qui veulent monter un site à moindre cout en pompant le tiens ^^

Perso je vois de plus en plus de user_agent de ce type :
curl%2F7.12.2+%28x86_64-unknown-linux-gnu%29+libcurl%2F7.12.2+OpenSSL%2F0.9.8d

Ça sent le pompage à plein nez..

Mieux vaut s'attendre au prévisible que d'être surpris par l'inattendu.

krucial | Jean Christophe
Administrateur

Photo de krucial

Inscrit le : 09/03/2005

# Le 27/05/2008 à 11:27

http://www.vacanceo.com/misc/bots.txtOuvrir dans une nouvelle fenetre

Il y a 92 bots que j'ai pu tracker et bannir. Si vous en avez d'autres, je suis prenneur.

JC - Mes sitesOuvrir dans une nouvelle fenetre | Affiliation devis travauxOuvrir dans une nouvelle fenetre | Cotes voitures anciennesOuvrir dans une nouvelle fenetre

Zalex14 | Alexandre
Modérateur

Photo de Zalex14

Inscrit le : 09/05/2005

# Le 27/05/2008 à 11:54

Merci !

A bloquer aussi les aspirateurs de sites :

BlackWidow
ChinaClaw
Custo
DISCo
eCatch
EirGrabber
EmailSiphon
EmailWolf
ExtractorPro
EyeNetIE
FlashGet
GetRight
GetWeb!
Go!Zilla
Go-Ahead-Got-It
GrabNet
Grafula
HMView
Stripper
Sucker
InterGET
Ninja
JetCar
larbin
LeechFTP
Navroad
NearSite
NetAnts
NetSpider
NetZIP
Octopus
PageGrabber
pavuk
pcBrowser
RealDownload
ReGet
SiteSnagger
SiteSucker
SmartDownload
SuperBot
SuperHTTP
Surfbot
tAkeOut
VoidEYE
WebAuto
WebCopier
WebFetch
WebLeacher
WebReaper
WebSauger
WebStripper
WebWhacker
WebZIP
Wget
Widow
WWWOFFLE
WebSpider
Zeus

Mieux vaut s'attendre au prévisible que d'être surpris par l'inattendu.

Bool | Olivier
Modérateur

Photo de Bool

Inscrit le : 09/05/2005

# Le 27/05/2008 à 12:02

t'as oublié httrack

daevel : infogérance et conseilOuvrir dans une nouvelle fenetre || moiOuvrir dans une nouvelle fenetre

Zalex14 | Alexandre
Modérateur

Photo de Zalex14

Inscrit le : 09/05/2005

# Le 27/05/2008 à 12:25

Ah oui, merci

Mieux vaut s'attendre au prévisible que d'être surpris par l'inattendu.

Zalex14 | Alexandre
Modérateur

Photo de Zalex14

Inscrit le : 09/05/2005

# Le 27/05/2008 à 12:55

Dans les robots on peux aussi ajouter ASPseek (bot open source que je vois quelques fois dans mes logs)

Mieux vaut s'attendre au prévisible que d'être surpris par l'inattendu.

krucial | Jean Christophe
Administrateur

Photo de krucial

Inscrit le : 09/03/2005

# Le 09/12/2008 à 15:01

Mise a jour : http://www.vacanceo.com/misc/bots.txtOuvrir dans une nouvelle fenetre
166 bots et crawlers.

JC - Mes sitesOuvrir dans une nouvelle fenetre | Affiliation devis travauxOuvrir dans une nouvelle fenetre | Cotes voitures anciennesOuvrir dans une nouvelle fenetre

Rano | Jean
Modérateur

Photo de Rano

Inscrit le : 13/04/2005

# Le 09/12/2008 à 15:16

Sinon y a ça hein http://browsers.garykeith.com/downloads.aspOuvrir dans une nouvelle fenetre
avec notamment la variable Crawler

Chambres d'hote tavelOuvrir dans une nouvelle fenetre
Séjours en provenceOuvrir dans une nouvelle fenetre
Forum mariageOuvrir dans une nouvelle fenetre

krucial | Jean Christophe
Administrateur

Photo de krucial

Inscrit le : 09/03/2005

# Le 13/01/2011 à 00:28

Yop.

Je balance la liste des bots mise à jour :
http://www.forumconstruire.com/logs/bots.txtOuvrir dans une nouvelle fenetre : 179 bots à bannir.

J'ai mis en place le coup du lien caché, on va voir ce que j'attrape. Si vous avez une liste de votre coté, ca m'interesse.

JC - Mes sitesOuvrir dans une nouvelle fenetre | Affiliation devis travauxOuvrir dans une nouvelle fenetre | Cotes voitures anciennesOuvrir dans une nouvelle fenetre

Akarys | Thierry
Membre

Photo de Akarys

Inscrit le : 19/01/2008

# Le 13/01/2011 à 02:11

krucial a dit :
http://www.forumconstruire.com/logs/bots.txtOuvrir dans une nouvelle fenetre : 179 bots à bannir.

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
A bannir ???

Et sinon concrètement que fais-tu ? Tu compares le User-Agent de chaque demande de page à ta liste ? au niveau Apache ? au niveau Php ? puis envoi d'un 301 ? 404 ? 444 ?

Un truc qui manque dans les règles de gestion des robots - je trouve - c'est une relation claire et simple entre le User-Agent envoyé via une requête (ta liste) et le User-agent à utiliser dans robots.txt (que quand même pas mal de robots respectent). C'est la galère à trouver pour certains...

Julgates | Julien
Administrateur

Photo de Julgates

Inscrit le : 09/03/2005

# Le 13/01/2011 à 08:51

A bannir des stats (display, clics, indicateurs internes, etc) !

Shopping Time NetworkOuvrir dans une nouvelle fenetre - Founder / CTO

krucial | Jean Christophe
Administrateur

Photo de krucial

Inscrit le : 09/03/2005

# Le 13/01/2011 à 11:28

Oups pardon, c'est une liste de robots a bannir des stats

JC - Mes sitesOuvrir dans une nouvelle fenetre | Affiliation devis travauxOuvrir dans une nouvelle fenetre | Cotes voitures anciennesOuvrir dans une nouvelle fenetre

krucial | Jean Christophe
Administrateur

Photo de krucial

Inscrit le : 09/03/2005

# Le 05/11/2013 à 13:25

J'ai mis à jour le fichier (300 robots a bannir des stats) :
http://www.forumconstruire.com/logs/bots.txtOuvrir dans une nouvelle fenetre

J'ai aussi un petit fichier qui peut être ajouté a la suite de browscap.ini :
http://www.forumconstruire.com/logs/browscap_fc.in...Ouvrir dans une nouvelle fenetre

(Message édité le 05-11-2013 à 13h31 par krucial)

JC - Mes sitesOuvrir dans une nouvelle fenetre | Affiliation devis travauxOuvrir dans une nouvelle fenetre | Cotes voitures anciennesOuvrir dans une nouvelle fenetre

belami | XXX
Anonyme

 

Inscrit le : 27/11/2009

# Le 05/11/2013 à 14:45

krucial a dit :
J'ai mis à jour le fichier (300 robots a bannir des stats) :
http://www.forumconstruire.com/logs/bots.txtOuvrir dans une nouvelle fenetre

J'ai aussi un petit fichier qui peut être ajouté a la suite de browscap.ini :
http://www.forumconstruire.com/logs/browscap_fc.in...Ouvrir dans une nouvelle fenetre


merci

XXXX

Répondre

Vous ne pouvez pas participer au forum, car votre inscription n'a pas été validée. Pour vous faire valider en tant que Membre, cliquez ici.

© MHN - Tous droits réservés | CNIL N°844440 | 23/11/2024 13:41:39 | Généré en 15.69ms | Contacts | Mentions légales |