ARTICLE
« L'objet n'est rien, ses liens sont tout »
Pasteur 2.0
L'objectif de ce deuxième article n'est pas de faire l'apologie du moteur
de recherche Google, mais de montrer que son mode de fonctionnement pourrait
inspirer l'évaluation de la qualité dans le domaine de la santé. Nous allons
nous intéresser plus spécifiquement à sa méthode de classement et de hiérarchisation
de l'information. Cette méthode révolutionnaire est fondée quasi exclusivement
sur des critères de qualité externes, c'est-à-dire indépendants du contenu du
document indexé.
Tout le monde connaît Google, tout le monde l'utilise : en 2008, Google
est devenu la marque la plus connue dans le monde, après seulement 10 ans d'existence
[1], mais rares sont ceux qui ont compris son mode de tri de l'information.
Google ne se contente pas, contrairement à ce que beaucoup croient,
de proposer les pages les plus populaires chez les internautes. Google,
comme nous allons le voir, a totalement réinventé la mesure de la pertinence
de l'information.
Après un parallèle avec les méthodes bibliographiques traditionnelles, nous
verrons que la qualité des résultats de Google repose sur la fédération
de milliers de microexpertises. L'analyse des liens créés par les auteurs de
pages aboutit à une information « intelligente » dont la pertinence est supérieure
à celle de l'analyse intrinsèque des pages elles-mêmes.
Aux débuts d'internet
Dans les années 90, pour identifier les bonnes pages sur un sujet précis, les
internautes répétaient les méthodes de leurs ancêtres. Comme les livres soigneusement
rangés dans les bibliothèques [2], les pages web étaient classées dans des annuaires
par genre, type, sous-type, etc. Comme souvent lors de l'apparition d'une nouvelle
technologie, notre premier réflexe consiste à reproduire les mêmes usages.
Des catalogues ou des tiroirs remplis de fiches permettaient de faire des recherches
dans le contenu des bibliothèques ou dans les fonds des éditeurs. Il en était
de même sur le web : le faible nombre de sites à ses débuts permettait d'envisager
la création d'une table des matières, d'un catalogue global des sites internet.
Yahoo, le pionnier des catalogues-annuaires
Le plus célèbre de ces catalogues de sites, initié par des étudiants, s'appelait
Yahoo!, dont la figure 1
reproduit la page d'ouverture en 1996, (la préhistoire du Web !)
Les sites ou pages y étaient classés par des experts-indexeurs humains qui
visitaient les sites, rédigeaient des notices et les intégraient dans la rubrique/sous-rubrique
appropriée. Ils employaient une démarche classique de bibliothécaire.
Mais très vite, l'explosion du nombre des documents disponibles a rendu ingérable
un tel annuaire. Il n'indexait qu'une faible partie du fond documentaire de
la toile et nécessitait une armée d'experts chargés de visiter et de classer
les pages dont le nombre croissait exponentiellement.
De la table des matières aux moteurs de recherche
Dans le monde de l'édition traditionnelle, les index sont apparus avec les livres
volumineux, notamment les encyclopédies. En plus de la traditionnelle table des
matières, un index permet de chercher la page ou l'article utile à partir de mots-clés
classés alphabétiquement en fin d'ouvrage.
Pour indexer les centaines de millions de pages du Web, quelques pionniers
ont eu très tôt l'idée de reproduire le processus d'indexation traditionnel
: des ordinateurs connectés au réseau et appelés spiders (l'araignée
qui explore la toile) ou bot (pour robot) vont explorer automatiquement
le web en suivant tous les liens disponibles. Lors du passage de ces robots
explorateurs, chaque page est analysée et les mots contenus dans la page sont
stockés dans un gigantesque index couplé à un moteur de recherche. Des requêtes
(mot ou expressions) sur le moteur de recherche permettront de retrouver les
pages indexées, exactement comme l'index d'une encyclopédie permet de trouver
l'article recherché au sein de 20 gros volumes. Les moteurs de recherche étaient
nés : Wanderer, puis Lycos, Excite... (Tous ces moteurs
de recherche primitifs ont disparu depuis).
Malgré un net progrès par rapport aux annuaires, nous sommes toujours dans
un processus très classique. D'ailleurs, la pertinence des résultats est médiocre,
les bonnes pages étant noyées dans un « bruit » important.
Les premiers moteurs de recherche automatisent l'indexation traditionnelle
par mots-clés, mais n'inventent rien
Ces moteurs de recherche de première génération tentent de perfectionner leur
indexation en apportant plus de poids aux mots présents dans les titres, les textes
en gras ou répétés dans la page. Leurs performances culminent avec AltaVista,
roi des moteurs de recherche des années 90. Mais il n'y a toujours aucune réelle
nouveauté dans cette approche initiée par les encyclopédistes.
Les moteurs sont par ailleurs confrontés à deux problèmes que leur technologie
ne permet pas de gérer :
Ils ne peuvent correctement indexer et classer que les pages bien rédigées
par leurs auteurs : un titre mal choisi, une page mal organisée, et voila un
document de référence qui ne sera proposé qu'en 50e position dans
les résultats de recherche ; autant dire invisible. Contrairement aux encyclopédies
dont les rédacteurs sont coordonnés par l'éditeur, les webmasters sont
libres d'organiser leurs sites et pages comme ils le souhaitent et ils génèrent
un chaos bien difficile à indexer sur la base de critères objectifs.
Le commerce apparaît sur le web et les marchands comprennent que leur
visibilité dans les moteurs de recherche est fondamentale. Ils ont tôt fait
de s'intéresser aux méthodes d'indexation qu'ils manipulent à leur guise : comme
les critères de pertinence utilisés par les moteurs sont uniquement liés au
contenu de la page, il est facile d'optimiser ou plutôt de truquer ses propres
pages pour les faire sortir dans les premiers résultats des moteurs de recherche
sur une requête donnée.
La qualité et les normes
Nous touchons là une problématique qui est au coeur de l'évaluation de
la qualité : lorsque les critères de qualité sont fondés sur l'objet
lui-même et sur des normes prédéfinies (le plus souvent « objectives »),
il est toujours possible de truquer l'évaluation en modifiant l'objet
pour l'adapter au mieux à la norme. C'est d'autant plus facile
et tentant lorsque la norme est connue de tous, ce qui est la norme de
la norme... La multiplication des normes pour déjouer ces manipulations
ne fait que rendre l'évaluation qualitative plus complexe et aboutit souvent
à rejeter des objets de qualité pour non-respect des normes, ce qui est
un effet particulièrement pervers de la « démarche qualité ».
L'énergie consacrée à adapter l'objet à la norme est souvent inversement
proportionnelle à sa qualité intrinsèque. Au final, la qualité fondée
sur des normes sélectionne l'aptitude à s'adapter aux normes et non la
qualité des objets. Dans le monde du Web, cette manipulation de la norme
est devenue un métier reconnu : « expert en référencement ». |
La qualité de l'information peut s'évaluer grâce à des critères qu'elle ne
contient pas !
Nous sommes arrivés aux limites d'un modèle millénaire de classement de l'information
(rayons, étagères, annuaires, index, table des matières...) fondé sur l'analyse
de son contenu.
C'est alors qu'entrent en scène Sergey Brin et Larry Page, deux étudiants en
informatique de l'université Stanford. Ils ont 25 ans. Nous sommes en 1998.
Ce qui n'était initialement qu'un simple projet de recherche propose une rupture
totale avec le passé : les critères qui permettent d'apprécier la pertinence
d'un document ne résident plus tant dans le document lui-même que dans les citations
qu'en font d'autres auteurs.
Avant 1998 : on analyse le contenu du document pour le classer et déterminer
sa pertinence pour une requête donnée. Un expert (éditeur d'annuaire, bibliothécaire)
l'a classé et qualifié ou un robot en a indexé le contenu.
Après 1998 : Google analyse le comportement des hommes autour
des documents, agrège ces comportements et en tire des informations sur la pertinence
d'un document pour une recherche donnée. Ce sont les connexions créées par des
hommes entre les documents qui permettent d'apprécier leur qualité, c'est-à-dire
leur aptitude à répondre à la question posée. Ce concept avait déjà été mis
en oeuvre auparavant (facteur d'impact) mais il n'avait jamais constitué le
principal critère d'appréciation de la pertinence.
Ce glissement de la pertinence vers la qualité (et vice-versa) est intéressant
Il est bien difficile de définir la qualité de façon absolue. Le bon médicament,
le bon médecin, le bon article le sont-ils dans l'absolu, pour tous et dans toutes
les situations ? La qualité n'est-elle pas fondamentalement contextuelle, adaptée
à chacun de nous, à nos désirs, nos déterminants et à ce que nous cherchons ou
souhaitons ? Il est frappant de constater que les fondateurs de l'Evidence
Based Medicine ont écrit dans leur article fondateur qu'ils « rejoindraient
sur les barricades » ceux qui voudraient transformer leur approche rationnelle
mais humaniste de la décision médicale en « recettes de cuisine » pour soigner
les patients [3]. Ce glissement de l'EBM au service du patient vers le soin normalisé
et imposé à tous est pourtant perceptible depuis quelques années, sous la pression
conjointe de l'assurance-maladie et des autorités sanitaires françaises.
La mesure de la qualité extrinsèque de l'information est une rupture totale
avec le passé
Avant d'étudier plus en avant le fonctionnement de Google, tordons le cou
d'emblée à une idée aussi fausse que répandue : Google n'identifie pas
les documents les plus « populaires » au sens de « documents les plus souvent
consultés » ou « préférés par les lecteurs ». Un tel critère n'aurait aucun intérêt
et aboutirait rapidement à un nivellement de la qualité de l'information disponible,
chaque éditeur de site cherchant alors à plaire au plus grand nombre pour être
bien classé.
Larry Page et Sergey Brin ont bâti leur outil sur une constatation : chaque
fois que quelqu'un écrit une page pour Internet, il crée des liens dans cette
page pour indiquer au lecteur d'autres pages qui lui paraissent pertinentes,
pour approfondir la réflexion sur le sujet traité (bibliographie) ou pour étayer
ses dires (références). C'est une micro-expertise : ces auteurs utilisent leurs
capacités d'analyse et leur connaissance du sujet pour créer ces liens. Si l'on
pouvait regrouper ce travail intelligent mais éparpillé en un tout cohérent,
il y aurait émergence d'une expertise collective permettant d'identifier les
documents intéressants.
Tel un cerveau dont l'intelligence repose exclusivement sur des milliards de
connexions entre ses neurones, les connexions (liens) entre les milliards de
pages du web constituent une forme d'expertise diffuse qu'il est tentant d'agréger.
Les connexions neuronales de notre cerveau se sont créées au fur et à mesure
de nos apprentissages et de nos expériences. Les liens Internet se créent au
fur et à mesure de la création des pages. Nous verrons aussi que Google
« apprend » en examinant le comportement des lecteurs.
Page et Brin ont alors l'idée de créer une première règle d'indexation pour
utiliser au mieux cette intelligence. Cette règle porte le nom de PageRank,
du nom de son créateur. Ce sera leur sujet de mémoire de fin d'étude. Pour simplifier
la compréhension du fonctionnement de Google, nous ne tenons pas compte
de l'évolution progressive des algorithmes au cours du temps et décrivons un
fonctionnement global actuel. Le principe initial du PageRank est simple
: une page Internet est présumée intéressante si d'autres pages font des liens
vers elle. Cela peut se traduire facilement dans l'ancienne représentation du
classement de l'information : un livre est intéressant s'il remplit les conditions
suivantes :
Il est souvent cité en référence par d'autres livres ou articles (principe
proche du « facteur d'impact », utilisé avec les publications sur papier et
né quelques années avant le PageRank).
Il est souvent conseillé par un bibliothécaire.
Notez que le critère « il est souvent lu » n'est pas pris en compte : si un
livre répondant aux deux critères précédents est certes plus souvent lu qu'un
autre, il ne sera pas forcément le plus lu. Le nombre de lectures d'un livre
ou d'un article n'est pas un facteur de qualité fiable (pas plus que la taille
de la clientèle d'un médecin).
La figure 2 illustre bien le
fonctionnement du PageRank ; la taille du petit symbole qui représente
une page Internet est proportionnelle à l'importance accordée à son contenu.
Cette taille dépend de deux éléments :
Le nombre de liens qui pointent vers lui.
L'importance (qualité) de ceux qui font des liens vers lui.
Être lié (pointé par) un éditeur de site de qualité augmente plus le PageRank
qu'être lié par une page anonyme ou peu considérée par les autres. Notez que
ce principe suppose une récursivité, obtenue par un recalcul régulier des scores
de chaque page ; cette mise à niveau qui a longtemps été mensuelle (elle est
maintenant continue) portait le joli nom de « GoogleDance » car elle modifiait
bien sûr significativement le classement des résultats.
Google propose une rupture totale avec l'indexation
traditionnelle : ce n'est plus le contenu du document qui est le plus
important, mais ce qu'en pensent les autres auteurs et les bibliothécaires.
Google ne propose pas les liens les plus lus ou les mieux
considérés par la foule des internautes car ces données ne sont pas pertinentes
pour apprécier la qualité.
Au contraire, Google met en valeur et vous propose les
liens conseillés par d'autres auteurs car il considère qu'en faisant cela,
il fédère l'expertise de tous ces auteurs et que cette expertise collective
est plus rapide et étendue que toute autre. Google fonctionne comme
un système neuronal4. |
Nos deux brillants sujets sont tellement sûrs de leur fait que la page d'accueil
de leur nouveau site est une véritable provocation (figure
3). Jugez donc :
aucun décor : un cadre de saisie et un titre, c'est tout. Pas d'options
de recherche, de mode « avancé », ils insistent sur la rupture avec AltaVista,
le leader du marché des moteurs de recherche en 1998 dont la page d'accueil
(figure 4) était déjà chargée pour l'époque.
un bouton énigmatique « J'ai de la chance » affiche directement à l'écran
le premier résultat de la recherche, sans passer par une page intermédiaire
de liste de résultats. Dans la majorité des cas, ce premier résultat est le
bon ! L'effet de saisissement est garanti alors qu'il fallait auparavant tester
plusieurs résultats de recherche, voire plusieurs moteurs pour obtenir péniblement
la page recherchée.
Malgré son succès immédiat, la première version de Google est assez
primitive. Elle se contente de trier l'information en examinant des liens entrants
et en calculant un PageRank pour chaque page. Il va alors étendre ses
capacités pour devenir la porte d'entrée principale du Web.
Amélioration du PageRank
PageRank n'était qu'une première étape. L'algorithme (la méthode de calcul) qui
permet actuellement à Google de trier les ressources du Web repose sur
une centaine de critères sur lesquels le secret est jalousement gardé pour éviter
toute manipulation par les éditeurs de sites. On peut assimiler le passage des
robots de Google sur les sites à un examen ; pour qu'un examen soit juste
et discriminant pour sélectionner les candidats, il vaut mieux que le sujet n'en
soit pas connu à l'avance.
Certains de ces critères sont néanmoins suspectés ou connus et l'on se rapproche
de plus en plus d'un fonctionnement neuronal : le PageRank s'appuiera
désormais non plus sur des webmasters quelconques qui font un lien vers une
page, mais sur les webmasters qui traitent du même sujet. C'est une modification
importante, car elle augmente la qualité de la sélection. Ce ne sont plus les
bibliothécaires ou les auteurs en général qui conseillent un ouvrage ou un article,
mais d'autres spécialistes du sujet traité. Ces « spécialistes » peuvent être
réels ou auto-proclamés, mais la loi des grands nombres pondère les abus. C'est
une nouvelle manifestation du concept provocateur d'intelligence des foules
(de l'anglais Wisdom of crowds), ou celui plus prudent d'alchimie des
multitudes de Pisani et Piotet. Les liens sortants sont pris en compte. Il ne
faut pas seulement être conseillé par d'autres auteurs (liens entrants), il
faut soi-même conseiller de bons documents pour accroître sa réputation, ce
qui est assez logique et conforme à ce qui se passe dans la vie réelle.
Google propose différents services additionnels, dont une barre d'outils
qui permet à son utilisateur de stocker ses adresses de sites (favoris). La
base de données est stockée sur les serveurs de Google. Il est probable
que le moteur tient compte des sites sélectionnés pour leur donner un poids
plus important. Google n'analyse plus seulement le nombre de liens qui
pointent vers un site, mais la dynamique d'apparition de ces liens. En effet,
des liens artificiels créés pour l'influencer apparaissent généralement tous
en même temps et à partir du même site. Au contraire, un contenu de qualité
génère la création de liens spontanés dont la répartition dans le temps est
progressive et étalée sur de nombreux sites. Google tient compte de l'âge
du document et de sa mise à jour. Un contenu ancien inséré dans un site qui
ne bouge plus risque d'être moins pertinent qu'un article souvent modifié ou
intégré dans un site dynamique.
Lorsque vous faites une recherche dans Google, celui-ci analyse votre
comportement sur la page de résultat. Si vous allez voir une page indiquée et
que vous revenez après quelques secondes, c'est que cette page ne correspondait
pas à votre attente. Son PageRank sera abaissé. Au contraire, la page
consultée en dernier aura un PageRank augmenté : si vous avez cessé vos
recherches après cette page, c'est sans doute parce qu'elle a répondu à votre
attente.
Il existe des dizaines d'autres critères destinés à reconnaître la bonne information
sans la moindre analyse du contenu. Ces règles fonctionnent aussi bien pour
du français que de l'anglais ou du chinois. Google met en oeuvre des
techniques de détection de la fraude si pointue que le principal conseil actuellement
pour être bien classé dans le moteur est « créez des contenus intéressants ».
Peut-on imaginer meilleure consécration pour l'algorithme du moteur de recherche
?
Google ne peut trouver que ce qui existe
Bien sûr, tout n'est pas parfait et le moteur vedette est parfois décevant sur
certaines requêtes difficiles ou très commerciales. C'est sur les concepts fumeux
ou ésotériques qu'il est le plus fragile car il va mettre en valeur non pas le
site le plus scientifique, mais parfois le site le plus représentatif de cette
théorie ou de ce mouvement, surtout si aucune page ne fait un point sérieux sur
le sujet
Il faut néanmoins avoir à l'esprit une contrainte importante : Google
comme tous les moteurs, ne peut trouver que ce qui est accessible. Autant le
Web est riche en langue anglaise, autant le monde francophone tarde à libérer
ses contenus. L'absence de lien de qualité dans une requête ne fait souvent
que refléter (dans le monde médical francophone notamment) la rareté des contenus
en accès libre.
En corollaire, sachant que Google est la porte d'entrée sur Internet
pour la grande majorité des internautes, tout document qui n'est pas indexé
par Google « n'existe pas », mais ceci une autre histoire : ce phénomène
en train de naître est une réédition du problème de l'anglais dans les publications
scientifiques ; dès les années 60, il est devenu évident (autant qu'injuste),
que ce qui était publié en français « n'existait pas » pour le monde scientifique.
Conclusion
Nous venons de passer en revue la façon dont Google s'appuie sur le travail
intellectuel des webmasters et sur le comportement des internautes pour agréger
ce « jus de cervelle diffus » en une forme d'expertise neuronale très primitive.
C'est à notre avis un des plus beaux exemples de ce que nous pourrions appeler
la mesure extrinsèque de la pertinence :
Google ne demande d'effort à personne, il utilise un travail
déjà réalisé par d'autres.
Google met en forme des données publiques, mais que lui seul
parvient à agréger correctement.
Google sépare clairement le service qu'il apporte (trouver l'information)
et son gagne-pain (la publicité). S'il ne le faisait pas, il disparaîtrait en
quelques années faute d'utilisateurs, tant la crédibilité de ses résultats serait
altérée.
Google touche à un domaine clé de la civilisation de l'information
: l'accès à la bonne information au sein d'un « bruit » phénoménal.
Google se fonde sur un réseau mais il ne le crée pas : il utilise
le maillage constitué par les auteurs du Web.
L'approche de Google est féconde pour la réflexion sur l'évaluation
de la qualité en santé. Elle constitue à notre connaissance la mise en oeuvre
(partielle) la plus brillante de la pensée complexe d'Edgar Morin [6]
« La difficulté de la pensée complexe est qu'elle doit affronter le fouillis
(le jeu infini des inter-rétroactions), la solidarité des phénomènes entre eux,
le brouillard, l'incertitude, la contradiction. Mais nous pouvons élaborer quelques-uns
des outils conceptuels, quelques-uns des principes pour cette aventure, et nous
pouvons entrevoir le visage du nouveau paradigme de la complexité qui devrait
émerger ».
La force de l'approche subjective de Google est d'intégrer, par le facteur
humain qu'elle englobe et donc utilise et valorise, des éléments de complexité
inaccessible à l'approche objective et réductionniste traditionnelle. À l'origine
de la complexité est le complexus latin dont le sens prend ici une saveur
particulière : tissage, liaison, cohésion, union, étreinte, affection...
Ce que Google a réussi à démontrer pour la gestion de l'information
devrait nous inspirer pour la gestion complexe de la qualité en santé.
Références
- Seddon J. Top 100 Most Powerful Brands 08. Brand Raking 2008. Sur http://www.millwardbrown.com/Sites/Optimor/Media/Pdfs/en/BrandZ/BrandZ-2008-Report.pdf
- Plan du site de l'académie d'Amiens. Sur http://etablissements.ac-amiens.fr/0801328j/spip/article.php3?id_article=37
- Sackett DL, Rosenberg WMC, Muir Gray JA, Brian Haynes R, Scott Richardson
W. Evidence based medicine: what it is and what it isn't. BMJ. 1996;312:71-2.
- Dupagne D. L'EBM, les recommandations et les livres de cuisine. Sur http://www.atoute.org/n/breve14.html
- Baquiast JP, Jacquemin C. Automates intelligents. Bienvenue au royaume de
l'hyperscience. Sur http://www.automatesintelligents.com/echanges/2007/oct/hypersciene.html
- Morin E. Introduction à la pensée complexe. Paris: Seuil; 2005.
Idées-forces : l'approche qualitative de Google |
Google n'a pas toujours existé, il y a eu un avant Google
sur Internet, dont les outils fonctionnaient avec des critères qualitatifs
datant de plusieurs siècles.
Google a introduit une rupture totale avec le passé.
La mesure de la qualité/pertinence par Google fait appel à des
critères extrinsèques et non plus intrinsèques.
Les liens qui unissent les documents sont plus pertinents que l'analyse
de leur contenu pour évaluer leur pertinence.
Le défaut principal d'une norme utilisée pour mesurer la qualité est
son caractère public.
Les experts donnent des résultats moins pertinents qu'un réseau d'innombrables
micro-expertises fédérées.
La méthode Google n'a pas cherché à changer les anciennes méthodes.
Google a rendu le passé obsolète. |
Notes :
- Toile est un terme souvent employé pour décrire le web, c'est-à-dire les
pages consultables sur internet. Les trois « w » signifient World Wide Web,
ce qui peut être traduit par « La grande toile d'araignée mondiale »
- Pour être honnête, il faut reconnaître que quelques critères extérieurs
sont aussi pris en compte dans les dernières versions des moteurs « 1.0 »,
notamment le fait que le site contenant la page ait été indexé dans des annuaires
gérés manuellement comme Yahoo!
- Observations répétées à comparer à votre expérience personnelle.
- Nous parlons bien de système neuronal et non de « réseau neuronal », terme
informatique ayant un sens différent [5].
|