mercredi 29 juin 2011

La loi des nombres anormaux

Encore un article passionnant sur des listes de nombres.

La loi de Benford ou loi des nombres anormaux énonce que sur une liste de données statistiques, la majorité des nombres commence par 1, puis par 2, etc...
À votre droite, le pourcentage pour chaque nombre. La formule est log(1+1/n).

Elle vient d'un astronome états-unien qui avait remarqué que les premières pages de ses livres de logarithmes étaient plus usées et donc plus utilisées que les dernières.
C'était en 1881 mais comme la loi sur l'affichage sortait le 29 juillet, ça n'a pas eu un grand effet.

Il faut attendre 1938 et Frank Benford, un autre yankee qui réénonce la loi, lui donnant son nom. La loi de Benford suit donc la loi de Stigler qui stipule :
"Une découverte scientifique ne porte jamais le nom de son auteur."
Elle a été démontrée mathématiquement (en partie) en 1996.
Ce qui est rigolo avec cette loi, c'est qu'elle s'applique dans tous les domaines, les prix dans un supermarché, le nombre de vélo par lapin par unijambiste, la quantité de bière servie divisée par la taille du bistrot et multipliée par l'âge du capitaine, etc...
Comme c'est une étude statistique, vous pouvez la vérifier sur une liste de nombres, puis appliquer un modificateur à cette liste et toujours vérifier la loi.

Pour tester, j'ai pris le PIB par pays en dollars. Puis j'ai converti cette valeur en euro et en shekel.
La loi de Benford est toujours vérifiée quelle que soit la devise. Les différences viennent de la taille réduite de l'échantillon.

Et sinon, ça sert à quoi me direz-vous ?
Et bien principalement à vérifier si il y a des fraudes fiscales.
Sur une liste bidouillée, on relève 40% de nombres commençant par 5 et 20% par 6. Pour vérifier des listes comptables, il suffit de regarder si la loi de Benford marche.

Si vous voulez d'autres tests de la loi mais en anglais, c'est sur Testing Benford's Law.
(pour les pointilleux, les deux derniers graphes ne sont pas des pourcentages).

1 commentaire:

  1. Petit test avec le nb de posts par libellés sur l'animalerie, quasi autant de 1 et de 2 et pas beaucoup des autres. Sûrement pas assez de données pour affiner la courbe mais la forme générale est là. Impressionnant...

    RépondreSupprimer