Souriez, vous êtes filmés

Dans un délire toujours plus Big Brother, hier j'ai resserré encore peu l'étau autour de mes lecteurs, en introduisant une nouvelle façon de les espionner : Google Analytics.

Dès les premiers articles de ce blog, j'ai avoué suivre mon (faible) lectorat dans L'heure des comptes. J'ai même raconté une scène typique de suivi de visiteur dans un commentaire de Histoires : stop ou encore ?

Mais c'était encore plutôt gentil. Je me contentais de suivre les mon Combined Log, où chaque ligne correspond à une requête, et pour chaque requête les renseignements remplis ne sont que ce que le visiteur en face veut bien donner.

Par exemple chaque ligne commence par l'adresse IP du visiteur, mais après tout, c'est l'adresse qu'il veut bien me donner, il peut envoyer n'importe quelle IP. C'est vrai que s'il n'envoit pas la sienne, il aura du mal à recevoir les informations qu'il demande, vu qu'elle seront envoyées à l'adresse donnée. Bref, il existe assez d'anonymiseurs pour arranger ce problème.

De la même façon, il n'est pas obligé de me fournir l'adresse de la page qu'il veut regarder, sauf que le serveur n'envoit que les pages qu'on lui demande.

Bref, en faisant divers recoupement, j'ai appris à identifier certains de mes visiteurs réguliers simplement à la marque qu'ils laissent dans le log.

Notons au passage qu'enregistrer toutes les informations contenues dans ce log est tout à fait légal. Je dirais même plus, je suis légalement tenue d'enregistrer et de conserver ces informations pendant au moins un an, et les remettre à des autorités judiciaires compétentes si elles le demandent.

Bon, tout ça, c'était bien gentil, parce que c'est complètement transparent pour le visiteur. Il ne remarque rien, et je peux tranquillement faire mes statistiques dessus. Tout le monde est content.

Ou presque. Parce qu'en fait, le problème de n'utiliser que les informations qu'on veut bien nous donner, c'est que ces informations sont parfois incomplètes ou falsifiées. Évidemment, pour les exemples que j'ai donnés, l'adresse IP et la page demandée, ce n'est pas facile à cacher ou à falsifier.

Par contre, il y a des gens qui arrivent sur mon site sans vouloir me dire qui les a recommendés, quel manque de savoir-vivre ! Il y en a aussi qui viennent masqués, en prétendant utiliser un certain navigateur alors qu'en vrai ce n'est pas le cas, quelle incivilité !

Bref, pour pallier ces petits soucis de l'analyse des logs serveurs, il existe une autre méthode, qui est complémentaire dans la mesure où elle a aussi des défauts, mais placés à d'autres niveaux.

Cette autre méthode, c'est utiliser un petit peu de javascript qui prend des informations directement du navigateur, au lieu de les prendre du serveur. En quelque sorte, ça donne un autre point de vue sur la visite du site.

Je n'aime pas tellement cette méthode, parce qu'elle est plus intrusive pour le visiteur : il est confronté au script chargé de faire l'analyse, et il peut donc en être gêné, mais surtout il peut agir sur ce script.

Et pourtant, j'ai succombé. Donc depuis hier, il se trouve sur mes pages du code qui charge du javascript qui ne rend des comptes qu'à Google, et ensuite Google daigne me faire part d'une partie de ces informations au travers de l'interface Google Analytics.

Je ne sais pas trop quoi en espérer. Je ne sais pas s'il faut considérer ça comme une avancée pour ce site, ou si c'est un net recul, ou si c'est juste une évolution neutre.

En tout cas, je tiens à présenter mes excuses pour toute l'éventuelle gêne occasionnée par cette mise en place de Google Analytics.

Publié le vendredi 2 mai 2008 à 10:19.

Catégorie : Site

Commentaires

1. Le vendredi 2 mai 2008 à 16:38, par Catherale :

Alors si je te dis que j'habite a Strasbourg, que c'est la premiere fois que je viens sur ce blog sous ce nom ou n'importe quel autre nom, que par consequent c'est le premier commentaire que je laisse, et que je n'utilise jamais Internet Explorer, et que je suis en train de me preparer un oeuf a la coque...
comme petite experience, pourrais-tu essayer de corriger ce qui n'est pas correct, tu peux tout reveler si ca t'amuse.

2. Le vendredi 2 mai 2008 à 18:00, par Laurent :

Il s'agit d'un net recul. En important du javascript de chez Google sur tes pages, tu leur donnes de fait un pouvoir éditorial sur tes pages (la beauté du js). Sur la légalité de l'affaire, c'est beaucoup moins simple que tu ne le dis puisque tu as des obligations contradictoires en terme de respect de la vie privée, l'adresse IP étant une information nominative.

3. Le samedi 3 mai 2008 à 14:41, par Keeh :

Dis bonjour à NoScript.

4. Le samedi 3 mai 2008 à 17:53, par Cinn :

Il me reste à comprendre pourquoi exactement tu as envie de "pister" à ce point tes lecteurs sur la partie "publique" du blog. Pour rechercher les IP d'éventuels spammeurs par commentaires ? Mais encore?.....

5. Le dimanche 4 mai 2008 à 19:43, par Martin :

Laurent, d'un point de vue légal, on pourrait croire que notre amie transfère des informations personnelles (comme l'adresse IP) à une entreprise étatsunienne. Or, ce n'est pas le cas : ce site ne transfère aucune information à Google. Ce sont les visiteurs qui, directement, les lui fournissent. Aucune information n'est transmise par ce site à Google. D'ailleurs, les visiteurs peuvent bloquer les serveurs de Google Analytics assez facilement, bloquant non seulement les statistiques du présent site, mais aussi de l'ensemble des sites exploitant cet outil.

Maintenant, concernant la pertinence de ces informations : les journaux d'activité du serveur sont très précis, mais ne pistent que les visiteurs y ayant posé les pieds, et pas les autres. Or, le contenu du présent site peut être visualisé ailleurs, comme sur un proxy (ou serveur mandataire), ce que le script JavaScript peut pister, mais pas le journal d'activité du serveur. Bref, ce sont bel et bien des moyens de complémentaires qui sont utilisés.

Concernant le respect de la vie privée, notons que Nathalie piste certains visiteurs manuellement, un à un, ce qui est une intrusion de fait dans leur vie privée. Google Analytics permet certes à un tiers d'analyser la fréquentation du site, mais le webmaster n'a aucune information personnelle à sa disposition, juste des tendances générales, plus ou moins précises selon les affichages qu'il réclame. Google, de son côté, a une politique de respect de la vie privée qui fait qu'en principe aucun individu n'a accès aux informations personnelles, seuls les algorithmes automatiques les exploitent. Mais certains organismes n'apprécient guère la politique de respect de la vie privée de Google. Google se défend que chaque FAI a plus d'informations concernant leurs clients que Google ne pourra jamais en récolter.

6. Le vendredi 9 mai 2008 à 11:39, par Natacha :

Catherale, j'ai l'impression qu'en fait tu es l'une des rares personnes à suivre et à commenter ce blog depuis ses premiers jours, avec un ppseudo' habituel en deux mots ; et je ne crois pas t'avoir déjà vu présenter un autre referer qu'internet explorer, mais pour des raisons laissées en exrcice aux lecteurs, c'est le referer le plus souvent falisfié. Quant à ce qui concerne la géographie ou la cuisine, je n'en ai strictement aucune idée, mais je ne saurais dire si c'est faute de s'y être interessée ou si je ne peux vraiment pas avoir accès à ses informations.

Cinn, ce n'est pas sans une certaine forme d'angoisse que je me suis rendue compte qu'en fait ce morceau de javascript est présent aussi sur les pages à acceès restreint. Par conséquent, il est de fait que google connaît maintenant l'existence de ces pages, et comme le faisait si bien remarquer Laurent, le fait d'avoir inclus leur script sur mes pages signifie qu'ils ont techniquement accès à ce contenu soi-disant protégé. Évidemment, je n'ai pas réussi à faire de recherche qui sorte une de mes pages protégées, mais il y a quand même là un danger à prendre en compte.

Pour ce qui est de la question initiale du pourquoi, c'est parce que contraitement à un journal intime qui serait accessoirement rendu public, je considère le présent site comme une vitrine de moi-même. J'ai déjà dit plusieurs fois qu'initialement le but de ce site était d'en faire un portfolio de mes créations. À partir de là, il me semble compréhensible de voir sonder la réaction des visiteurs, pour essayer de deviner leurs impressions au-delà du feedback fatalement faible, et agir en conséquence pour améliorer le site et s'adapter à la demande.

Les autres qui me parlent de respect de la vie privée, je rappelle à toutes fins utiles que de mon côté le traitement des informations (personnelles ou non) qui transitent par mon serveur est manuel, donc ce ne sont pas les mêmes lois qui s'appliquent que pour le traitement automatisé des informations. En particulier l'existence ou la nature du traitement que j'effectue est difficilement vérifiable, dans la mesure où d'un point de vue strictement électronique tout se passe comme si ces logs étaient sagement archivés sans aucun traitement, en attendant que la Justice en ait besoin. Les merveilles des unités de traitement à base de carbone...

Cela dit, au delà de la Loi, il ne faut pas perdre de vue une valeur communément appelée Bon Sens. L'adresse IP est une information nominative dans un cadre numérique, mais pour mes pauvres petits neurones elle ne veut strictement rien dire par elles-mêmes et ne sont pas plus nominatives que le referer ou le User Agent qui participent tout autant à mon pistage. Ce que je fais avec mes logs est autant une atteinte à la vie privée que mémoriser qui était présent aux dernières soirées et dans quelles tenues, ou qui on a de fortes chances de trouver à côté de la machine à café à une heure donnée.

En fait le seul moyen de ne pas atteindre à la vie privée de quelqu'un, c'est de couper tout contact direct ou indirect avec les autres humains.

Enfin pour ceux que ça gêne vraiment, il y a une méthode toute simple pour mettre fin à ce pistage, basée sur le principe de la stéganographie : faites plein de pub' un peu partout pour ce site, de manière à faire exploser le nombre de visiteurs au point de rendre tout traitement manuel impossible à mes capacités humainement limitées.

7. Le dimanche 11 mai 2008 à 16:01, par _FrnchFrgg_ :

Natacha, je suis près à parier que le referer ne contient jamais "Internet Explorer" ni quoi que ce soit qui s'en rapproche, à moins de venir d'une page dont l'url contient ces mots là. Par contre, "User Agent" est effectivement sensé identifier le butineur du visiteur.

Pour la géographie, il existe des méthodes de géolocalisation des adresses IP, qui sont très efficaces dans les pays occidentaux parce qu'ils ont beaucoup d'IPs à leur disposition, mais qui doivent être très mauvaises en inde par exemple. Personellement, je vois souvent de la pub (pour les rares qui passent) ciblée sur mon coin, genre des pubs Meetic "trouvez votre âme sœur sur Écully" (j'habite juste à côté d'Écully).

Copyright © 2007-2008 Natacha Kerensikova

Lithium Blog - commit dad867adc7a3fc6476990c37fcfa09685831b7d9 - Thursday 7 February 2008