John Libbey Eurotext

Médecine

Qualité et santé.Deuxième partie : l'approche qualitative de Google Volume 4, numéro 9, Novembre 2008

« L'objet n'est rien, ses liens sont tout »

Pasteur 2.0

L'objectif de ce deuxième article n'est pas de faire l'apologie du moteur de recherche Google, mais de montrer que son mode de fonctionnement pourrait inspirer l'évaluation de la qualité dans le domaine de la santé. Nous allons nous intéresser plus spécifiquement à sa méthode de classement et de hiérarchisation de l'information. Cette méthode révolutionnaire est fondée quasi exclusivement sur des critères de qualité externes, c'est-à-dire indépendants du contenu du document indexé.

Tout le monde connaît Google, tout le monde l'utilise : en 2008, Google est devenu la marque la plus connue dans le monde, après seulement 10 ans d'existence [1], mais rares sont ceux qui ont compris son mode de tri de l'information.

Google ne se contente pas, contrairement à ce que beaucoup croient, de proposer les pages les plus populaires chez les internautes. Google, comme nous allons le voir, a totalement réinventé la mesure de la pertinence de l'information.

Après un parallèle avec les méthodes bibliographiques traditionnelles, nous verrons que la qualité des résultats de Google repose sur la fédération de milliers de microexpertises. L'analyse des liens créés par les auteurs de pages aboutit à une information « intelligente » dont la pertinence est supérieure à celle de l'analyse intrinsèque des pages elles-mêmes.

Aux débuts d'internet

Dans les années 90, pour identifier les bonnes pages sur un sujet précis, les internautes répétaient les méthodes de leurs ancêtres. Comme les livres soigneusement rangés dans les bibliothèques [2], les pages web étaient classées dans des annuaires par genre, type, sous-type, etc. Comme souvent lors de l'apparition d'une nouvelle technologie, notre premier réflexe consiste à reproduire les mêmes usages.

Des catalogues ou des tiroirs remplis de fiches permettaient de faire des recherches dans le contenu des bibliothèques ou dans les fonds des éditeurs. Il en était de même sur le web : le faible nombre de sites à ses débuts permettait d'envisager la création d'une table des matières, d'un catalogue global des sites internet.

Yahoo, le pionnier des catalogues-annuaires

Le plus célèbre de ces catalogues de sites, initié par des étudiants, s'appelait Yahoo!, dont la figure 1 reproduit la page d'ouverture en 1996, (la préhistoire du Web !)

Les sites ou pages y étaient classés par des experts-indexeurs humains qui visitaient les sites, rédigeaient des notices et les intégraient dans la rubrique/sous-rubrique appropriée. Ils employaient une démarche classique de bibliothécaire.

Mais très vite, l'explosion du nombre des documents disponibles a rendu ingérable un tel annuaire. Il n'indexait qu'une faible partie du fond documentaire de la toile et nécessitait une armée d'experts chargés de visiter et de classer les pages dont le nombre croissait exponentiellement.

De la table des matières aux moteurs de recherche

Dans le monde de l'édition traditionnelle, les index sont apparus avec les livres volumineux, notamment les encyclopédies. En plus de la traditionnelle table des matières, un index permet de chercher la page ou l'article utile à partir de mots-clés classés alphabétiquement en fin d'ouvrage.

Pour indexer les centaines de millions de pages du Web, quelques pionniers ont eu très tôt l'idée de reproduire le processus d'indexation traditionnel : des ordinateurs connectés au réseau et appelés spiders (l'araignée qui explore la toile) ou bot (pour robot) vont explorer automatiquement le web en suivant tous les liens disponibles. Lors du passage de ces robots explorateurs, chaque page est analysée et les mots contenus dans la page sont stockés dans un gigantesque index couplé à un moteur de recherche. Des requêtes (mot ou expressions) sur le moteur de recherche permettront de retrouver les pages indexées, exactement comme l'index d'une encyclopédie permet de trouver l'article recherché au sein de 20 gros volumes. Les moteurs de recherche étaient nés : Wanderer, puis Lycos, Excite... (Tous ces moteurs de recherche primitifs ont disparu depuis).

Malgré un net progrès par rapport aux annuaires, nous sommes toujours dans un processus très classique. D'ailleurs, la pertinence des résultats est médiocre, les bonnes pages étant noyées dans un « bruit » important.

Les premiers moteurs de recherche automatisent l'indexation traditionnelle par mots-clés, mais n'inventent rien

Ces moteurs de recherche de première génération tentent de perfectionner leur indexation en apportant plus de poids aux mots présents dans les titres, les textes en gras ou répétés dans la page. Leurs performances culminent avec AltaVista, roi des moteurs de recherche des années 90. Mais il n'y a toujours aucune réelle nouveauté dans cette approche initiée par les encyclopédistes.

Les moteurs sont par ailleurs confrontés à deux problèmes que leur technologie ne permet pas de gérer :

­ Ils ne peuvent correctement indexer et classer que les pages bien rédigées par leurs auteurs : un titre mal choisi, une page mal organisée, et voila un document de référence qui ne sera proposé qu'en 50e position dans les résultats de recherche ; autant dire invisible. Contrairement aux encyclopédies dont les rédacteurs sont coordonnés par l'éditeur, les webmasters sont libres d'organiser leurs sites et pages comme ils le souhaitent et ils génèrent un chaos bien difficile à indexer sur la base de critères objectifs.

­ Le commerce apparaît sur le web et les marchands comprennent que leur visibilité dans les moteurs de recherche est fondamentale. Ils ont tôt fait de s'intéresser aux méthodes d'indexation qu'ils manipulent à leur guise : comme les critères de pertinence utilisés par les moteurs sont uniquement liés au contenu de la page, il est facile d'optimiser ou plutôt de truquer ses propres pages pour les faire sortir dans les premiers résultats des moteurs de recherche sur une requête donnée.

 

La qualité et les normes

Nous touchons là une problématique qui est au coeur de l'évaluation de la qualité : lorsque les critères de qualité sont fondés sur l'objet lui-même et sur des normes prédéfinies (le plus souvent « objectives »), il est toujours possible de truquer l'évaluation en modifiant l'objet pour l'adapter au mieux à la norme. C'est d'autant plus facile et tentant lorsque la norme est connue de tous, ce qui est la norme de la norme... La multiplication des normes pour déjouer ces manipulations ne fait que rendre l'évaluation qualitative plus complexe et aboutit souvent à rejeter des objets de qualité pour non-respect des normes, ce qui est un effet particulièrement pervers de la « démarche qualité ».

L'énergie consacrée à adapter l'objet à la norme est souvent inversement proportionnelle à sa qualité intrinsèque. Au final, la qualité fondée sur des normes sélectionne l'aptitude à s'adapter aux normes et non la qualité des objets. Dans le monde du Web, cette manipulation de la norme est devenue un métier reconnu : « expert en référencement ».

 

La qualité de l'information peut s'évaluer grâce à des critères qu'elle ne contient pas !

Nous sommes arrivés aux limites d'un modèle millénaire de classement de l'information (rayons, étagères, annuaires, index, table des matières...) fondé sur l'analyse de son contenu.

C'est alors qu'entrent en scène Sergey Brin et Larry Page, deux étudiants en informatique de l'université Stanford. Ils ont 25 ans. Nous sommes en 1998. Ce qui n'était initialement qu'un simple projet de recherche propose une rupture totale avec le passé : les critères qui permettent d'apprécier la pertinence d'un document ne résident plus tant dans le document lui-même que dans les citations qu'en font d'autres auteurs.

­ Avant 1998 : on analyse le contenu du document pour le classer et déterminer sa pertinence pour une requête donnée. Un expert (éditeur d'annuaire, bibliothécaire) l'a classé et qualifié ou un robot en a indexé le contenu.

­ Après 1998 : Google analyse le comportement des hommes autour des documents, agrège ces comportements et en tire des informations sur la pertinence d'un document pour une recherche donnée. Ce sont les connexions créées par des hommes entre les documents qui permettent d'apprécier leur qualité, c'est-à-dire leur aptitude à répondre à la question posée. Ce concept avait déjà été mis en oeuvre auparavant (facteur d'impact) mais il n'avait jamais constitué le principal critère d'appréciation de la pertinence.

Ce glissement de la pertinence vers la qualité (et vice-versa) est intéressant

Il est bien difficile de définir la qualité de façon absolue. Le bon médicament, le bon médecin, le bon article le sont-ils dans l'absolu, pour tous et dans toutes les situations ? La qualité n'est-elle pas fondamentalement contextuelle, adaptée à chacun de nous, à nos désirs, nos déterminants et à ce que nous cherchons ou souhaitons ? Il est frappant de constater que les fondateurs de l'Evidence Based Medicine ont écrit dans leur article fondateur qu'ils « rejoindraient sur les barricades » ceux qui voudraient transformer leur approche rationnelle mais humaniste de la décision médicale en « recettes de cuisine » pour soigner les patients [3]. Ce glissement de l'EBM au service du patient vers le soin normalisé et imposé à tous est pourtant perceptible depuis quelques années, sous la pression conjointe de l'assurance-maladie et des autorités sanitaires françaises.

La mesure de la qualité extrinsèque de l'information est une rupture totale avec le passé

Avant d'étudier plus en avant le fonctionnement de Google, tordons le cou d'emblée à une idée aussi fausse que répandue : Google n'identifie pas les documents les plus « populaires » au sens de « documents les plus souvent consultés » ou « préférés par les lecteurs ». Un tel critère n'aurait aucun intérêt et aboutirait rapidement à un nivellement de la qualité de l'information disponible, chaque éditeur de site cherchant alors à plaire au plus grand nombre pour être bien classé.

Larry Page et Sergey Brin ont bâti leur outil sur une constatation : chaque fois que quelqu'un écrit une page pour Internet, il crée des liens dans cette page pour indiquer au lecteur d'autres pages qui lui paraissent pertinentes, pour approfondir la réflexion sur le sujet traité (bibliographie) ou pour étayer ses dires (références). C'est une micro-expertise : ces auteurs utilisent leurs capacités d'analyse et leur connaissance du sujet pour créer ces liens. Si l'on pouvait regrouper ce travail intelligent mais éparpillé en un tout cohérent, il y aurait émergence d'une expertise collective permettant d'identifier les documents intéressants.

Tel un cerveau dont l'intelligence repose exclusivement sur des milliards de connexions entre ses neurones, les connexions (liens) entre les milliards de pages du web constituent une forme d'expertise diffuse qu'il est tentant d'agréger. Les connexions neuronales de notre cerveau se sont créées au fur et à mesure de nos apprentissages et de nos expériences. Les liens Internet se créent au fur et à mesure de la création des pages. Nous verrons aussi que Google « apprend » en examinant le comportement des lecteurs.

Page et Brin ont alors l'idée de créer une première règle d'indexation pour utiliser au mieux cette intelligence. Cette règle porte le nom de PageRank, du nom de son créateur. Ce sera leur sujet de mémoire de fin d'étude. Pour simplifier la compréhension du fonctionnement de Google, nous ne tenons pas compte de l'évolution progressive des algorithmes au cours du temps et décrivons un fonctionnement global actuel. Le principe initial du PageRank est simple : une page Internet est présumée intéressante si d'autres pages font des liens vers elle. Cela peut se traduire facilement dans l'ancienne représentation du classement de l'information : un livre est intéressant s'il remplit les conditions suivantes :

­ Il est souvent cité en référence par d'autres livres ou articles (principe proche du « facteur d'impact », utilisé avec les publications sur papier et né quelques années avant le PageRank).

­ Il est souvent conseillé par un bibliothécaire.

Notez que le critère « il est souvent lu » n'est pas pris en compte : si un livre répondant aux deux critères précédents est certes plus souvent lu qu'un autre, il ne sera pas forcément le plus lu. Le nombre de lectures d'un livre ou d'un article n'est pas un facteur de qualité fiable (pas plus que la taille de la clientèle d'un médecin).

La figure 2 illustre bien le fonctionnement du PageRank ; la taille du petit symbole qui représente une page Internet est proportionnelle à l'importance accordée à son contenu. Cette taille dépend de deux éléments :

­ Le nombre de liens qui pointent vers lui.

­ L'importance (qualité) de ceux qui font des liens vers lui.

Être lié (pointé par) un éditeur de site de qualité augmente plus le PageRank qu'être lié par une page anonyme ou peu considérée par les autres. Notez que ce principe suppose une récursivité, obtenue par un recalcul régulier des scores de chaque page ; cette mise à niveau qui a longtemps été mensuelle (elle est maintenant continue) portait le joli nom de « GoogleDance » car elle modifiait bien sûr significativement le classement des résultats.

 

­ Google propose une rupture totale avec l'indexation traditionnelle : ce n'est plus le contenu du document qui est le plus important, mais ce qu'en pensent les autres auteurs et les bibliothécaires.

­ Google ne propose pas les liens les plus lus ou les mieux considérés par la foule des internautes car ces données ne sont pas pertinentes pour apprécier la qualité.

­ Au contraire, Google met en valeur et vous propose les liens conseillés par d'autres auteurs car il considère qu'en faisant cela, il fédère l'expertise de tous ces auteurs et que cette expertise collective est plus rapide et étendue que toute autre. Google fonctionne comme un système neuronal4.

Nos deux brillants sujets sont tellement sûrs de leur fait que la page d'accueil de leur nouveau site est une véritable provocation (figure 3). Jugez donc :

­ aucun décor : un cadre de saisie et un titre, c'est tout. Pas d'options de recherche, de mode « avancé », ils insistent sur la rupture avec AltaVista, le leader du marché des moteurs de recherche en 1998 dont la page d'accueil (figure 4) était déjà chargée pour l'époque.

­ un bouton énigmatique « J'ai de la chance » affiche directement à l'écran le premier résultat de la recherche, sans passer par une page intermédiaire de liste de résultats. Dans la majorité des cas, ce premier résultat est le bon ! L'effet de saisissement est garanti alors qu'il fallait auparavant tester plusieurs résultats de recherche, voire plusieurs moteurs pour obtenir péniblement la page recherchée.

Malgré son succès immédiat, la première version de Google est assez primitive. Elle se contente de trier l'information en examinant des liens entrants et en calculant un PageRank pour chaque page. Il va alors étendre ses capacités pour devenir la porte d'entrée principale du Web.

Amélioration du PageRank

PageRank n'était qu'une première étape. L'algorithme (la méthode de calcul) qui permet actuellement à Google de trier les ressources du Web repose sur une centaine de critères sur lesquels le secret est jalousement gardé pour éviter toute manipulation par les éditeurs de sites. On peut assimiler le passage des robots de Google sur les sites à un examen ; pour qu'un examen soit juste et discriminant pour sélectionner les candidats, il vaut mieux que le sujet n'en soit pas connu à l'avance.

Certains de ces critères sont néanmoins suspectés ou connus et l'on se rapproche de plus en plus d'un fonctionnement neuronal : le PageRank s'appuiera désormais non plus sur des webmasters quelconques qui font un lien vers une page, mais sur les webmasters qui traitent du même sujet. C'est une modification importante, car elle augmente la qualité de la sélection. Ce ne sont plus les bibliothécaires ou les auteurs en général qui conseillent un ouvrage ou un article, mais d'autres spécialistes du sujet traité. Ces « spécialistes » peuvent être réels ou auto-proclamés, mais la loi des grands nombres pondère les abus. C'est une nouvelle manifestation du concept provocateur d'intelligence des foules (de l'anglais Wisdom of crowds), ou celui plus prudent d'alchimie des multitudes de Pisani et Piotet. Les liens sortants sont pris en compte. Il ne faut pas seulement être conseillé par d'autres auteurs (liens entrants), il faut soi-même conseiller de bons documents pour accroître sa réputation, ce qui est assez logique et conforme à ce qui se passe dans la vie réelle.

Google propose différents services additionnels, dont une barre d'outils qui permet à son utilisateur de stocker ses adresses de sites (favoris). La base de données est stockée sur les serveurs de Google. Il est probable que le moteur tient compte des sites sélectionnés pour leur donner un poids plus important. Google n'analyse plus seulement le nombre de liens qui pointent vers un site, mais la dynamique d'apparition de ces liens. En effet, des liens artificiels créés pour l'influencer apparaissent généralement tous en même temps et à partir du même site. Au contraire, un contenu de qualité génère la création de liens spontanés dont la répartition dans le temps est progressive et étalée sur de nombreux sites. Google tient compte de l'âge du document et de sa mise à jour. Un contenu ancien inséré dans un site qui ne bouge plus risque d'être moins pertinent qu'un article souvent modifié ou intégré dans un site dynamique.

Lorsque vous faites une recherche dans Google, celui-ci analyse votre comportement sur la page de résultat. Si vous allez voir une page indiquée et que vous revenez après quelques secondes, c'est que cette page ne correspondait pas à votre attente. Son PageRank sera abaissé. Au contraire, la page consultée en dernier aura un PageRank augmenté : si vous avez cessé vos recherches après cette page, c'est sans doute parce qu'elle a répondu à votre attente.

Il existe des dizaines d'autres critères destinés à reconnaître la bonne information sans la moindre analyse du contenu. Ces règles fonctionnent aussi bien pour du français que de l'anglais ou du chinois. Google met en oeuvre des techniques de détection de la fraude si pointue que le principal conseil actuellement pour être bien classé dans le moteur est « créez des contenus intéressants ». Peut-on imaginer meilleure consécration pour l'algorithme du moteur de recherche ?

Google ne peut trouver que ce qui existe

Bien sûr, tout n'est pas parfait et le moteur vedette est parfois décevant sur certaines requêtes difficiles ou très commerciales. C'est sur les concepts fumeux ou ésotériques qu'il est le plus fragile car il va mettre en valeur non pas le site le plus scientifique, mais parfois le site le plus représentatif de cette théorie ou de ce mouvement, surtout si aucune page ne fait un point sérieux sur le sujet

Il faut néanmoins avoir à l'esprit une contrainte importante : Google comme tous les moteurs, ne peut trouver que ce qui est accessible. Autant le Web est riche en langue anglaise, autant le monde francophone tarde à libérer ses contenus. L'absence de lien de qualité dans une requête ne fait souvent que refléter (dans le monde médical francophone notamment) la rareté des contenus en accès libre.

En corollaire, sachant que Google est la porte d'entrée sur Internet pour la grande majorité des internautes, tout document qui n'est pas indexé par Google « n'existe pas », mais ceci une autre histoire : ce phénomène en train de naître est une réédition du problème de l'anglais dans les publications scientifiques ; dès les années 60, il est devenu évident (autant qu'injuste), que ce qui était publié en français « n'existait pas » pour le monde scientifique.

Conclusion

Nous venons de passer en revue la façon dont Google s'appuie sur le travail intellectuel des webmasters et sur le comportement des internautes pour agréger ce « jus de cervelle diffus » en une forme d'expertise neuronale très primitive. C'est à notre avis un des plus beaux exemples de ce que nous pourrions appeler la mesure extrinsèque de la pertinence :

­ Google ne demande d'effort à personne, il utilise un travail déjà réalisé par d'autres.

­ Google met en forme des données publiques, mais que lui seul parvient à agréger correctement.

­ Google sépare clairement le service qu'il apporte (trouver l'information) et son gagne-pain (la publicité). S'il ne le faisait pas, il disparaîtrait en quelques années faute d'utilisateurs, tant la crédibilité de ses résultats serait altérée.

­ Google touche à un domaine clé de la civilisation de l'information : l'accès à la bonne information au sein d'un « bruit » phénoménal.

­ Google se fonde sur un réseau mais il ne le crée pas : il utilise le maillage constitué par les auteurs du Web.

L'approche de Google est féconde pour la réflexion sur l'évaluation de la qualité en santé. Elle constitue à notre connaissance la mise en oeuvre (partielle) la plus brillante de la pensée complexe d'Edgar Morin [6] « La difficulté de la pensée complexe est qu'elle doit affronter le fouillis (le jeu infini des inter-rétroactions), la solidarité des phénomènes entre eux, le brouillard, l'incertitude, la contradiction. Mais nous pouvons élaborer quelques-uns des outils conceptuels, quelques-uns des principes pour cette aventure, et nous pouvons entrevoir le visage du nouveau paradigme de la complexité qui devrait émerger ».

La force de l'approche subjective de Google est d'intégrer, par le facteur humain qu'elle englobe et donc utilise et valorise, des éléments de complexité inaccessible à l'approche objective et réductionniste traditionnelle. À l'origine de la complexité est le complexus latin dont le sens prend ici une saveur particulière : tissage, liaison, cohésion, union, étreinte, affection...

Ce que Google a réussi à démontrer pour la gestion de l'information devrait nous inspirer pour la gestion complexe de la qualité en santé.