Le PageRank, c’est quoi ?
L’
algorithme du PageRank est un des sujets qui a suscité le plus de débats passionnels auprès des Webmasters.Il existe de ce fait de nombreux articles traitant du sujet sur Internet, mais la plupart sont rédigés en anglais. Cette barrière linguistique limite l’intérêt de ces articles pour toute une classe de Webmestres francophones. Quelques centaines - voire quelques milliers - d’interventions sur des forums dédiés au référencement de France ou d’ailleurs m’ont fait réaliser que la notion de PageRank (PR) est parmi celles qui pose le plus de problèmes de compréhension.
Et cette fameuse formule, alors ?Ce PageRank peut être visualisé par les utilisateurs de la « toolbar » Google, outil téléchargeable gratuitement, uniquement disponible pour Internet Explorer sous Windows. La représentation graphique se fait sur une échelle de 1 à 10. L’exemple ci-dessus montre l’affichage d’une page ayant un PageRank égal à 5 (noté PR5).
De même, l’importance d’une page est sans rapport aucun avec l’intérêt ou la pertinence de celle-ci, ces deux dernières notions étant totalement absentes de l’algorithme du PageRank. Elles interviennent néanmoins dans les pages de résultat de recherche.Il n’y a pas, nous le verrons plus bas, de notion d’importance de site dans l’algorithme du PageRank. Retenons aussi que le PageRank est une mesure de l’importance d’une page, et non d’un site entier. Vous entendrez souvent parler de « site de rang n », il s’agit d’un abus de langage décrivant le rang de la page d’accueil du site.
La comparaison avec les élections s’arrête là car toutes les pages n’ont pas le même pouvoir de « vote ». Nous reviendrons plus en détail sur ce point, mais retenez dès à présent qu’un vote émis par la page d’accueil d’un site majeur tel que Microsoft ou CNN pèse beaucoup plus lourd qu’un vote émis par la page perso de votre cousine, si mignonne soit-elle.
Elle se base sur un concept très simple : un lien émis par une page A vers une page B est assimilé à un « vote » de A pour B. Au plus une page reçoit de « votes », au plus cette page est considérée comme importante par Google, exactement comme le principe des élections que nous connaissons tous.
Cette méthode est utilisée par Google pour déterminer l’importance d’une page Web.La base du PageRank - que nous noterons parfois PR dans la suite de ce document - est une formule mathématique, à l’allure rébarbative, mais en définitive assez simple à comprendre.
Le PageRank peut être calculé en utilisant un simple algorithme itératif, et correspond au vecteur propre principal de la matrice normalisée des liens du Web.PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))De même, C(A) est défini comme le nombre de liens émis par la page A (liens sortants). Le PageRank de la page A est défini comme suit :Nous donnons généralement à d la valeur 0.85. Le paramètre d est un facteur d’amortissement pouvant être ajusté entre 0 et 1. En reprenant - après traduction - la publication originale de Google, voici les explications données :Nous assumons qu’une page A reçoit des liens (ou "votes") émis par les pages T1...Tn.
Tout cela est bien moins compliqué qu’il n’y paraît, essayons de disséquer l’expression.Pour ce faire, voici l’explication de la notation utilisée :PR(A) le PageRank de la page A.
- Pour ce faire, voici l’explication de la notation utilisée :PR(A) le PageRank de la page A
- PR(Tn) le PageRank de la page Tn
- C(Tn) le nombre de liens émis sur la page Tn
- d tous les « votes » sont additionnés, mais pour en limiter l’importance, le total est multiplié par ce coefficient d’amortissement (0.85)
- 1 - d Un petit peu de « magie mathématique » qui permet de garantir que la moyenne des PageRank de l’ensemble des pages du Web sera de 1.
L’examen de cette formule permet de voir que le PageRank d’une page n’ayant aucun lien entrant sera de 0.15 ,
soit : (1 - 0.85) + 0.85*(0) = 0.15
Et là apparaît la cause de la confusion la plus répandue au sujet du PageRank :
- Que vient faire ici cette valeur fractionnaire alors que la toolbar n’affiche que des valeurs entières ?
- Oublions la toolbar quelques instants !
| PageRank Affiché (log base 10) |
PageRank réel (calculé) |
| PR0 | 0 ≤ PR < 1 |
| PR1 | 1 ≤ PR < 10 |
| PR2 | 10 ≤ PR < 100 |
| PR3 | 100 ≤ PR < 1000 |
| PR4 | 1000 ≤ PR < 10000 |
et ainsi de suite jusqu’au PR10 pour les plus heureux...
On voit ici, que chaque niveau de PageRank est 10 fois plus élevé que le niveau précédent. Ce qui signifie en clair qu’il est 10 fois plus ardu de passer de PR4 à PR5 que de passer de PR3 à PR4 (pour mémoire, la base 10 a été choisie arbitrairement dans l'exemple).
Cette évolution de l’échelle expliquerait pourquoi certaines pages voient leur PageRank diminuer au fil des indexations, alors que le nombre de liens entrant reste inchangé.Une des raisons pour lesquelles on estime que l’échelle évolue dans le temps, est que le PageRank maximum n’est calculé que lorsque Google fait sa mise à jour de l’index, et que le nombre de pages indexées est en constante augmentation.
Comment le PageRank est-il calculé?
En reprenant l’exemple de la page sans lien entrant donné précédemment (PR=0.15), nous voyons que la toolbar nous affichera bien la valeur 0.
C’est ici que les choses se compliquent un petit peu.
Lorsqu’on réalise que les liens inter pages peuvent boucler, cela ressemble bien à « mission impossible ».Nous avons vu que le PageRank d’une page A dépend du PageRank des pages T1...Tn qui émettent un lien vers A, et ne peut donc pas être déterminé sans connaître le PR de ces dernières, et de toutes celles qui émettent un lien vers elles, et ainsi de suite...
Avoir un site Internet

