L'heure des comptes

Le mois de juin est terminé, et avec lui le premier mois d'existence de ce blog. Il est donc temps de prendre les logs et de faire des statistiques pour mesurer l'étendue des dégâts.

This is the end of humanity
Computer god is the enemy

J'ai quelque part un awstats qui tourne et qui me donne quotidiennement des statistiques sur la fréquentation du site. Ce programme est très bien, très facile d'installation avec des résultats clairs, mais il a des défauts, parmi les lequels l'identification d'un utilisateur par son adresse IP, ce qui veut dire que la même personne, qui a une IP dynamique et qui vient régulièrement (par exemple moi) sera comptée à chaque fois comme un nouveau visiteur.

Du coup, lorsqu'awstats m'annonce 144 visiteurs uniques pour le mois de juin, j'ai de sérieux doutes, d'autant plus que la plupart de mes visiteurs ont justement une IP dynamique.

Un autre exemple encore plus formidable est le top 10 des visiteurs qui ont regardé le plus de pages, j'occupe 6 places dans ce top 10. Je suis peut-être un peu enveloppée, mais je n'ai quand même pas besoin d'autant sièges, merci.

Autre point amusant, les pages de ce site ne se terminent pas par .html, parce que je dis déjà deux fois à chaque page que c'est du HTML (une fois dans les en-têtes HTTP et une fois dans le META tag de la page), je ne vais pas le dire encore une troisième fois ; ça n'aurait pu avoir d'utilité que si le site était statique. Mais voilà, quand ça n'a pas d'extension, awstats est perdu et ne sait plus quoi faire.

I'm my own god – I do as I please

Donc ce mois-ci, je fais vaire les stats à la main, à grands coups de textutils, parce que je le peux. Un atout supplémentaire que j'ai sur awstats c'est d'être capable d'exploiter des informations extérieures au procotole HTTP, avec toute la bassesse d'une correlation attack. Donc, c'est parti pour les chiffres, en avant la musique !

La période étudiée s'étend du dimanche 3 juin 2007 à 14h26, où a eu lieu la première requête qui n'était pas de moi, jusqu'au samedi 30 juin 2007 à 23h59, où a eu lieu la dernière requête du mois de juin (qui au passage est une tentative de spam).

Au cours de cette période, 2177 requêtes ont été servies.

Parmi ces requêtes, 1224 ont envoyé du contenu (code 200) et 234 ont validé du contenu déjà chargé (code 304). Donc 67 % des requêtes se sont bien passées.

Parfois il arrive que les pages ne soient pas là où on les cherche, ce qui donne lieu à des redirections. Il y a eu 167 requêtes (dont 144 requêtes de spam) redirigées parce qu'elle étaient sur vibrissae.org et non www.vibrissae.org (code 301), et 93 requêtes redirigées parce qu'on demandait la page d'accueil ou parce qu'on venait de faire un POST (code 302). Au final, 12 % des requêtes ont été redirigées.

Les 459 requêtes restantes (21 %) sont toutes des erreurs de page non trouvée (code 404). Parmi ces requêtes, 428 concernent favicon.ico. Oui, il va falloir que je me trouve une icône, parce que là, ça ne va pas du tout. Pour les autres, c'est principalement des erreurs de ma part. Je devrais peut-être rediriger ceux qui entrent l'adresse http://www.vibrissae.org/fr/ en oubliant le slash final vers la bonne adresse. Je vais y réfléchir. Autre point sur lequel réfléchir, un robot idiot (pas que pour ça) me fait une requête sur la page /fr/aide-tripcode#comm2, et je ne sais pas si je suis censée interpréter ça comme /fr/aide-tripcode ou si c'est du ressort du navigateur ou du robot.

I want you to notice
When I'm not around

Bon, c'est bien sympathique les requêtes, mais en vrai on s'en fout, on aimerait bien avoir des informations sur les visiteurs, parce qu'au fond c'est ça qui est important. Ou pas. Enfin bref.

J'ai donc joué avec le fichier log et les autres ressources à la disposition de ma cervelle à base de carbone, pendant deux heures et quart (le gros défaut de l'organique, c'est que c'est lent). J'ai ainsi identifié la personne ou le robot derrière 1973 requêtes, soit 90.6 %. Je défie un système automatique d'en faire autant. Ou on peut voir les choses dans l'autre sens, en se disant que c'est pitoyable d'avoir tellement peu de succès que je peux suivre pratiquement la totalité des visiteurs.

Après mûre réflexion, j'ai choisi de ne pas publier les pseudo' des gens que j'ai pu tracer comme ça, et chiffres suviants resteront anonymes. Notons cependant j'ai retrouvé et suivi 11 personnes que je peux (pseudo)nommer, ainsi que 8 catégories de robots. Avec toutes mes excuses pour ceux qui se sentiraient suivis ou espionnés.

Sans grande surprise, je suis à l'origine d'une écrasante majorité des requêtes, à savoir 954, soit 45 % de la totalité des requêtes de ce site. Ça fait peur, hein ? Et parmi ces requêtes personnelles, 40 ont été faites depuis le serveur lui-même, 254 depuis mon lieu de travail, et 660 depuis chez moi, mais en fait tout ça ne vous regarde pas.

Et juste après moi, Google, avec un petit 214 requêtes, soit 9.8 %. Pitoyable, hein ? Troisième position, le spammeur qui a trouvé mon site, avec 157 requêtes. Pas loin derrière on trouve – enfin – le premier être humain, avec 154 requêtes. Les autres ne valent même pas la peine avec leur nombre de requêtes à un ou deux chiffres.

Je ne vais quand même pas négliger les 204 requêtes orphelines. Comme je n'ai pas réussi à trouver qui est derrière, je vais considérer que chaque IP correspond à un visiteur unique. Ce n'est pas terrible comme approximation, surtout vu le nombre d'adresses IP dynamiques dans le tas, mais bon, on fait ce qu'on peut avec ce qu'on a.

J'ai donc 2 visiteurs anonymes qui sont arrivés par une recherche google, l'un cherchait « tripcode » et l'autre « méfaits de la télévision », j'espère qu'ils ont trouvé leur bonheur. J'ai 1 visiteur anonyme qui est arrivé par mon LiveJournal, c'est pas mal parce que je l'ai complètement négligé. Plus efficace, les commentaires dans d'autres blogs, qui m'ont attiré 22 visiteurs anonymes. Enfin, 10 sont arrivés directement sans referer, et je sais que la majorité d'entre sont des membres de ma corporation à Eve Online, je n'ai juste pas pu retrouver quelle IP appartient à qui.

J'arrive donc à un total de 46 visiteurs uniques humains pour le mois de juin. Je dois avouer que je ne m'attendais pas à autant. Ces visiteurs représentent 729 requêtes, soit une moyenne de presque 16 requêtes par visiteur, dont 9.6 pages par visiteur, ce qui est nettement plus que ce à quoi je m'attendais, surtout que ces chiffres tiennent compte de visiteurs qui ne sont vraiment pas restés longtemps.

Pour en finir avec les chiffres, une petite bizarrerie que je n'arrive pas à expliquer. Le nombre de requêtes humaines par jour est d'environ 30, à quelques exceptions près : les 8, 15, 22 et 29 juin, qui ont entre 3 et 8 requêtes chacune. Ce qui me chiffonne, c'est que ces dates sont exactement tous les vendredi du mois de juin. Je trouve que c'est trop violent pour être une coïncidence, mais je n'ai aucune idée sur la cause du phénomène.

Les statistiques, c'est comme les dessous féminins : ça montre beaucoup de choses, mais ça cache l'essentiel.

Je ne sais pas trop à quel genre de statistiques j'aurais pu m'attendre pour le premier mois d'existence d'un blog, mais il faut voir les choses en face : j'aurais pu mieux faire. J'ai passé beaucoup de temps dans un état à ramasser à la petite cuillère, alors que j'aurais pu, et peut-être dû, travailler à la promotion de ce site. Un exemple simple : Demandez donc à Google combien de liens vers ce site existent, ça fait pas beaucoup, hein ? Les commentaires de blogs ont aussi été réduits au minimum syndical, et au final je n'ai touché que trois blogs, qui ne sont pas vraiment sur des thèmes connexes à celui-ci. Ma présence en ligne ailleurs a pratiquement été réduite à néant, mais comme cet ailleurs était des forums anglophones, je n'aurais de toute façon rien gagné avec la version anglaise de ce blog qui stagne au point mort.

Au moins j'ai quand même réussi à finir à peu près le moteur de blog, j'aurais bien encore ajouté un flux Atom pour les pensées du jour sur la page d'accueuil, mais je me demande combien de personnes ont au moins remarqué qu'elles existent (je ne demande même pas combien trouvent ça intéressant). J'ai aussi l'architecture interne à remanier un petit peu, mais en dehors du p'tit compteur en bas des pages, ça ne devrait rien changer pour les visiteurs.

Pour la suite, j'hésite à recourir à Google Analytics. Je ne sais pas exactement ce que ça apporte par rapport à l'analyse offline, mais ça l'air significativement plus précis. Ce qui m'arrête, c'est que c'est copieusement plus intrusif, parce que ça impose à l'utilisateur de faire tourner du JavaScript et d'accepter des cookies. Il est plus-que-probable que la majorité des utilisateurs n'en ai rien à faire, mais c'est le principe. J'ai aussi quelques réticences sur le principe de mettre du contenu de quelqu'un d'autre sur mes pages, parce qu'ici pour l'instant tout est de moi. J'imagine que n'importe quel webmaster sensé me dira que mes réticences sont infondées et que le bénéfice de Google Analytics en vaut largement la peine ; mais si j'étais une personne sensée, ce blog serait-il aussi intéressant ?

Paroles : Pain - Computer God, Pain - Shut Your Mouth, Radiohead - Creep

Publié le dimanche 1 juillet 2007 à 16:55.

Catégorie : Site

Commentaires

1. Le lundi 2 juillet 2007 à 0:35, par Martin :

Il serait peut-être intéressant, début août, que tu compares tes résultats AwStats avec Google Analytics ? Si je ne m'abuse, Google Analytics utilise bien des cookies et du JavaScript pour comptabiliser les visiteurs, mais il me semble qu'il fonctionne aussi sans que JavaScript ne soit exécuté (son chargement seul suffit, a priori).

Eventuellement, tu peux toujours recourir à phpMyVisites, qui utilise lui aussi un marqueur JavaScript. L'avantage des marqueurs JavaScript est tout de même que l'on évite de comptabiliser des utilisateurs non humains. En effet, l'immense majorité des navigateurs exécutant du JavaScript sont utilisés par des êtres humains, alors que l'immense majorité des robots de spam, notamment, ne l'exécutent pas.

2. Le lundi 2 juillet 2007 à 11:31, par Natacha :

Je pense que ce soir je vais essayer de faire passer ce site sous Google Analytics. Après tout, c'est peut-être quand même moins intrusif et moins discutable éthiquement de recourir à des cookies et à du JavaScript que d'avoir une Nat en délire qui attend fébrilement qu'une nouvelle ligne apparaisse dans le log...

3. Le mardi 3 juillet 2007 à 1:48, par Martin :

Essaye donc Reinvigorate, pour voir. Je sens que tu vas aimer, vue la manière dont tu décris chacune des visites de tes visiteurs, et de la description du service sur le blog d'Henri : http://www.2803.com/2007/07/02/reinvigorate-stats-tool-blog/

Copyright © 2007-2008 Natacha Kerensikova

Lithium Blog - commit dad867adc7a3fc6476990c37fcfa09685831b7d9 - Thursday 7 February 2008