Download - EN ÉCONOMIE POUR DÉBUSQUER DES FRAUDES OU DES ERREURS DES MATHÉMATIQUES ÉLÉMENTAIRES OU AILLEURS …
EN ÉCONOMIE
POUR DÉBUSQUER DES FRAUDES OU DES ERREURS
DES MATHÉMATIQUES ÉLÉMENTAIRES
OU AILLEURS …
Un peu de math…
Le logarithme d’un nombre positif a, noté log a, est la puissance à laquelle il faut élever 10
pour obtenir a.
Logarithme
aa log10
log 1000 = 3 car 103 = 1000log 0,01 = -2 car 10-2 = 0,01log 2 0,301 car 100,301 2
Premier chiffre significatif
4853,746
0,003911
4 4
0,003911
3
Notation scientifique
4853,746
0,003911
4,853746 103
3,911 10-3
=
=
mantisse
mantisse
Loi de Benford…
Loi de BenfordExpériences:• Nombres extraits de coupures de journaux• Prix relevés au hasard dans un magasin:
prix sur un assez long ticket de caisse (ou assemblage de plusieurs), prix figurant sur une publicité, …
• Résultats des élections présidentielles françaises 2012• Résultats sportifs• Nombre d’habitants de communes• Altitudes de montagnes,
longueurs de fleuves, …• PIB d’un ensemble de pays• Cours de la bourse• Nombres extraits de comptabilité d’entreprises• …
Premier chiffre significatif effectif fréquence
1
2
3
4
5
6
7
8
9
Total
Nombre d’habitants de communes
Premier chiffre significatif
effectif fréquence
1
2
3
4
5
6
7
8
9
Total
Nombre d’habitants des 36722 communes françaises au 1/1/2009
11096
3450
6682
4644
2962
2411
2062
1801
1608
36716
30,1 %
17,6 %
12,5 %
9,7 %
7,9 %
6,7 %
5,1 %
5,8 %
4,6 %
100 %
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%population des communes françaises
Premier chiffre significatif du nombre d’habitants des communes françaises au 1er janvier 2009
36716 données (+ 6 communes vides!)
Premier chiffre significatif du nombre d’habitants des communes belges au 1er janvier 2011
589 données (aucune commune vide)
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%
40%population des communes belges
Loi de Benford
Simon Newcomb (1835-1909)
1881
1938
Frank Benford(1883-1948)
Un ensemble de valeurs numériques suit la loi des nombres anormaux
lorsque, pour chaque chiffre c (donc de 1 à 9),la proportion de valeurs commençant par c vaut
c
c 1log
c
ccmantissecP
1log)1(
Benford
Premier chiffre significatif c Fréquence théorique
1
2
3
4
5
6
7
8
9
c
c 1log
log( (1+1)/1) = log 2 = 0,301
log ((2+1)/2) = log 3/2 = 0,176
log ((3+1)/3) = log 4/3 = 0,125
log ((4+1)/4) = log 5/4 = 0,097
log ((5+1)/5) = log 6/5 = 0,079
log ((6+1)/6) = log 7/6 = 0,067
log ((7+1)/7) = log 8/7 = 0,058
log ((8+1)/8) = log 9/8 = 0,051
log ((9+1)/9) = log 10/9 = 0,046
1Total
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%Benford
Nombre d’habitants de communes
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%population des communes françaises
Premier chiffre significatif du nombre d’habitants des communes françaises au 1er janvier 2009
36716 données (+ 6 communes vides!)
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%Benford population des communes françaises
Premier chiffre significatif du nombre d’habitants des communes belges au 1er janvier 2011
589 données (aucune commune vide)
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%Votes à la Chambre, Belgique, 13 juin 2010
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%Benford Votes à la Chambre, Belgique, 13 juin 2010
PIB en 2011
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%PIB en 2011
183 données
Premier chiffre significatif du PIB de (presque) tous les pays en 2011
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%Benford PIB en 2011
Superficie des principaux pays
88 données
Premier chiffre significatif de la superficie des principaux pays du monde
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%superficie en milliers de km2
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%Benford superficie en milliers de km2
Nombre de voies à des élections
Nombre de votes obtenus par les listes sur tout le royaume de Belgique, à la chambre le 13 juin 2010
NoCirconscription
-Kieskring
Circonscription d'Anvers
-Kieskring
Antwerpen
Circonscription de Bruxelles-Hal-Vilvorde
-Kieskring
Brussel-Halle-Vilvoorde
Circonscription de Louvain
-Kieskring Leuven
Circonscription du Brabant
wallon-
Kieskring Waals-Brabant
Circonscription de Flandre occidentale
-Kieskring West-
Vlaanderen
Circonscription de Flandre orientale
-Kieskring Oost-
Vlaanderen
Circonscription de Hainaut
-Kieskring
Henegouwen
Circonscription de Liège
-Kieskring Luik
Circonscription de Limbourg
-Kieskring Limburg
Circonscription de Luxembourg
-Kieskring
Luxemburg
Circonscription de Namur
-Kieskring Namen
TOTAL -
TOTAAL
1 Vlaams Belang 177'012 41'917 30'338 71'200 117'817 68'413 506'697
2 VIVANT 6'211 6'211
3 Lijst Dedecker 25'081 9'442 9'907 60'210 30'463 15'474 150'577
4 Open Vld 120'935 59'840 45'814 106'265 166'278 64'741 563'873
5 PS 139'660 51'146 348'184 216'827 45'869 92'857 894'543
6 MR 159'912 81'421 126'608 135'118 31'459 71'099 605'617
7 FN 5'476 20'129 7'986 33'591
8 CDH 67'324 29'331 82'924 84'393 50'564 45'905 360'441
9 CD&V 170'260 57'902 51'328 180'702 147'151 100'643 707'986
10 sp.a 156'976 38'689 56'176 118'803 135'212 97'011 602'867
11 N-VA 336'631 101'991 85'399 188'317 269'049 154'230 1'135'617
12 ecolo 66'681 37'152 67'993 83'791 18'853 38'577 313'047
13 GROEN! 84'314 25'186 30'905 49'533 70'297 25'754 285'989
BELG.UNIE 5'734 3'389 5'429 2'618 3'495 20'665
EGALITE 5'670 5'670
FN+ 11'553 11'553
Front des gauches 4'162 1'686 5'442 6'833 1'206 1'405 20'734
LSP 2'841 600 1'443 1'907 6'791
MP Education 2'572 2'572
MSplus 1'031 1'293 135 368 2'827
N 610 610
PIRATE PARTY 2'200 2'200
PROBRUXSEL 7'201 7'201
PTB+ 2'365 12'136 18'706 1'194 4'456 38'857
PTB+PVDA+ 9'313 9'313
PVDA+ 22'132 3'703 6'489 11'950 8'644 52'918
Parti Pensionné PP 6'688 6'688
Parti Populaire 21'143 11'461 19'852 18'642 3'922 8'985 84'005
R.W.F. 1'550 4'768 11'414 8'474 2'249 7'288 35'743
RESPECT 5'630 5'630
V.I.T.A.L. 2'259 2'259
VRIJHEID 1'576 1'576
W+ 1'136 1'679 1'675 1'367 5'857
WALLONIE D'ABORD 3'113 3'009 13'795 9'170 2'929 4'626 36'642
1'096'182 834'106 315'746 227'474 785'221 955'754 722'740 605'822 534'910 160'998 288'414 6'527'367
178 données
Premier chiffre significatif des nombres de votes à la chambre
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%Votes à la Chambre, Belgique, 13 juin 2010
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%Benford Votes à la Chambre, Belgique, 13 juin 2010
2ème tour
Elections présidentielles 2012
http://elections.interieur.gouv.fr/PR2012/
Nicolas Sarkozy
François Hollande
49Maine-et-
Loire223 644 213 611
50 Manche 147 591 147 006
51 Marne 156 160 126 156
52 Haute-Marne 56 085 46 965
53 Mayenne 92 647 81 922
54Meurthe-et-
Moselle173 929 196 628
55 Meuse 56 898 48 860
56 Morbihan 213 893 229 248
57 Moselle 291 268 253 381
58 Nièvre 51 421 73 424
59 Nord 616 882 692 273
Premier chiffre significatif
effectif fréquence
1
2
3
4
5
6
7
8
9
Total
Résultats des élections présidentielles françaisespour les 96 départements métropolitains 2ème tour, 6 mai 2012
66
19
30
27
10
9
12
10
9
192
34,4 %
15,6 %
14,1 %
9,9 %
5,2 %
4,7 %
5,2 %
6,3 %
4,7 %
100 %
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%
40%
2ème tour
Premier chiffre significatif des nombres de votes aux élections présidentielles, 2ème tour, 6 mai 2012
192 données
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%
40%
Benford 2ème tour
1er tour
Elections présidentielles 2012
http://elections.interieur.gouv.fr/PR2012/
57 - Moselle
Premier chiffre significatif
effectif fréquence
1
2
3
4
5
6
7
8
9
Total
Résultats des élections présidentielles françaisespour les 96 départements métropolitains 1er tour, 22 avril 2012
260
98
173
122
77
71
55
54
50
960
27,1 %
18 %
12,7 %
10,2 %
8 %
7,4 %
5,6 %
5,7 %
5,2 %
100 %
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%
1er tour
Premier chiffre significatif des nombres de votes aux élections présidentielles, 1er tour, 22 avril 2012
960 données
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%
Benford 1er tour
Prix dans des magasins
1er chiffre significatif des prix de pubs françaises, en automne 2012
145 données (prix du 26 septembre au 7 octobre 2012)
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%
40%
45%Colruyt
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%
40%
45%Benford Colruyt
1er chiffre significatif des prix de pubs françaises, en automne 2012
239 données (prix du 26 septembre au 2 octobre 2012)
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%Cora
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%Benford Cora
1er chiffre significatif des prix de pubs françaises, en automne 2012
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%Carrefour
882 données (prix du 25 septembre au 2 octobre 2012)
1 2 3 4 5 6 7 8 9
-5%
0%
5%
10%
15%
20%
25%
30%
35%Benford Carrefour
1er chiffre significatif des prix de pubs françaises, en automne 2012
145, 239 et 882 données (fin septembre - début octobre 2012)
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%
40%
45%Benford Colruyt Cora Carrefour
1er chiffre significatif des prix de pubs françaises, en automne 2012
1266 données (fin septembre - début octobre 2012)
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%Colruyt, Cora et Carrefour
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%Benford Colruyt, Cora et Carrefour
1er chiffre significatif des prix de pubs suisses, semaine 3 en 2010
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%
40%Benford Casino Manor Aldi Migros
1er chiffre significatif des prix de pubs suisses, semaine 3 en 2010
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%Casino, Manor, Aldi et Migros
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%Benford Casino, Manor, Aldi et Migros
1er chiffre significatif des prix de pubs belges
236 données (7 au 13 juillet 2010)
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%Carrefour
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%Benford Carrefour
Loi de Benford généralisée
Benford
Benford généralisé
a
bbmantisseaP log)(
c
ccmantissecP
1log)1(
avec c entier entre 1 et 9
avec a et b réels entre 1 et 10
a
bbmantisseaP log)(
xx
xmantisseP log1
log)1(
xxmantisseP log)(
avec x réel entre 1 et 10
log((1+1)/1) = 0,301
log((2+1)/2) = 0,176
log((7+1)/7) = 0,058
log((6+1)/6) = 0,067
log((5+1)/5) = 0,079
log((4+1)/4) = 0,097
log((3+1)/3) = 0,125
log((9+1)/9) = 0,046
log((8+1)/8) = 0,051
1er chiffre significatif i
P ( 2ème chiffre significatif = 3 / 1er chiffre significatif = i )= P ( i,3 mantisse i,4 ) = log (i,4 / i,3)
1
2
3
4
5
6
7
8
9
P (2ème chiffre significatif = 3)
log (1,4 / 1,3) = 0,032
log (2,4 / 2,3) = 0,018
log (3,4 / 3,3) = 0,013
log (4,4 / 4,3) = 0,010
log (5,4 / 5,3) = 0,008
log (6,4 / 6,3) = 0,007
log (7,4 / 7,3) = 0,006
log (8,4 / 8,3) = 0,005
log (9,4 / 9,3) = 0,005
0,104
2ème chiffre significatif i
P ( 2ème chiffre significatif = i )
0
1
2
3
4
5
6
7
8
9
Total
0,120
0,114
0,109
0,104
0,100
0,097
0,093
0,088
0,085
1
0,090
0 1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%
Benford généralisé
Proba 1er chiffre significatif
0 1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%
Benford généralisé
Proba 2ème chiffre significatif
3ème chiffre significatif i
P ( 3ème chiffre significatif = i )
0
1
2
3
4
5
6
7
8
9
Total
0,1018
0,1014
0,1010
0,1006
0,1002
0,0998
0,0994
0,0986
0,0983
1
0,0990
0 1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%
Benford généralisé
Proba 1er chiffre significatif
0 1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%
Benford généralisé
Proba 2ème chiffre significatif
0 1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%
Benford généralisé
proba 3ème signe significatif
Avec la loi de Benford généralisée,
plus il se distribue donc conformément à notre intuition…
plus il est distribué uniformément,
plus un chiffre est loin à droite du 1er chiffre significatif,
Invariance…
1er chiffre significatif des prix de pubs françaises, en automne 2012
1266 données (fin septembre - début octobre 2012)
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%Benford Colruyt, Cora et Carrefour
1er chiffre significatif des prix de pubs suisses, semaine 3 en 2010
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%Benford Casino, Manor, Aldi et Migros
Invariance par changement d’unités
Si une série de données suit la loi de Benford généralisée, alors cette loi est également suivie
après un changement d’unités!
Prix : € FS $
Longueur: km miles
1961 Roger Pinkham
Roger Pinkham a même montré que:
La loi de Benford est l’unique formulation
pour obtenir une loi invariante par changement d’échelle.
Un peu de poésie…
Existe-t-il dans la nature, une sorte de loi universelle régissant la proportion de chacun des chiffres 1 à 9
comme 1er chiffre significatif ?
Si une telle loi existe, elle doit forcément être valable
indépendamment des unités de mesure humaines
et par conséquent, en tenant compte du résultat de
Pinkham, c’est forcément la loi de Benford…
Analyse des chiffres…
Revenus imposables de 14'414 compagnies américaines(d’après S. W. Smith, 2007)
Etats-Unis
L’Américain Mark Nigrini (www.nigrini.com) a amassé dès le début des années 1990 un grand
nombre de preuves empiriques qui justifient l’usage de la loi de Benford comme indicateur de fraude.
Détection de fraudes (erreurs ou falsifications de données) dans les comptabilités !
Analyse des chiffresDiscipline récente
S’assure de la cohérence interne et de la vraisemblance de grandes quantités de données numériques
Exploration systématique des chiffres des données
Repérage d’anomalies de fréquences dans les chiffres et détection de données manipulées, falsifiées ou inventées
Depuis une vingtaine d’années: Canada, USARécemment: Introduction en Europe
• Depuis quand?
• Fait quoi?
• Comment?
• Pourquoi?
• Où?
Détection de fraudes (erreurs ou falsifications de données) dans les comptabilités !
2) Si la fraude est délibérée, elles suivent rarement la loi de Benford.
Constatations expérimentales
1) Des données « honnêtes » suivent assez souvent la loi de Benford.
Rien ne permet d’affirmer non plus quedes données comptables qui suivent la loi de Benford
sont nécessairement honnêtes!
Attention!
L’éloignement à la loi de Benford peut amener une suspicion de fraude
mais ce n’est en aucun cas une preuve,
d’autant plus que des comptabilités tout à fait honnêtes peuvent s’en
éloigner très fortement !
Exemple de fraude détectée notamment grâce au non-respect de la loi de Benford
En 1993, Wayne J. Nelson, employé du Trésor de l’état d’Arizona, est reconnu coupable d’avoir détourné près de 2 millions de dollars en versant à des personnes fictives 23 chèques dont voici les montants:
Date d’émission
Montants en dollars
Date d’émission
Montants en dollars
9 octobre 1992
1927.4827902.31
19 octobre 1992
96879.2791806.4784991.6790831.8393766.6788338.7294639.4983709.2896412.2188432.8671552.16
14 octobre 1992
86241.9072117.4681321.7597473.96
19 octobre 1992
93249.1189658.1787776.8992105.8379949.1687602.93 Total 1878687.5
8
Indices de fraude
?
Date d’émission
Montants en dollars
Date d’émission
Montants en dollars
9 octobre 1992
1927.4827902.31
19 octobre 1992
96879.2791806.4784991.6790831.8393766.6788338.7294639.4983709.2896412.2188432.8671552.16
14 octobre 1992
86241.9072117.4681321.7597473.96
19 octobre 1992
93249.1189658.1787776.8992105.8379949.1687602.93 Total 1878687.5
8
72
79
71
86
9781
89 87 87
84
88
83
8892
96
9493
90 93
96 91
Indices de fraude
1) Les chiffres significatifs sont à l’opposé de la loi de Benford (plus de 90 % commencent par 7, 8 ou 9).
Date d’émission
Montants en dollars
Date d’émission
Montants en dollars
9 octobre 1992
1927.4827902.31
19 octobre 1992
96879.2791806.4784991.6790831.8393766.6788338.7294639.4983709.2896412.2188432.8671552.16
14 octobre 1992
86241.9072117.4681321.7597473.96
19 octobre 1992
93249.1189658.1787776.8992105.8379949.1687602.93 Total 1878687.5
8
72
79
71
86
9781
89 87 87
84
88
83
8892
96
9493
90 93
96 91
Indices de fraude
1) Les chiffres significatifs sont à l’opposé de la loi de Benford (plus de 90 % commencent par 7, 8 ou 9).
2) Valeurs d’abord petites, puis les montants et leurs fréquences ont augmenté.
Date d’émission
Montants en dollars
Date d’émission
Montants en dollars
9 octobre 1992
1927.4827902.31
19 octobre 1992
96879.2791806.4784991.6790831.8393766.6788338.7294639.4983709.2896412.2188432.8671552.16
14 octobre 1992
86241.9072117.4681321.7597473.96
19 octobre 1992
93249.1189658.1787776.8992105.8379949.1687602.93 Total 1878687.5
8
72
79
71
86
9781
89 87 87
84
88
83
8892
96
9493
90 93
96 91
Indices de fraude
1) Les chiffres significatifs sont à l’opposé de la loi de Benford (plus de 90 % commencent par 7, 8 ou 9).
2) Valeurs d’abord petites, puis les montants et leurs fréquences ont augmenté.
3) Tous les montants restent inférieurs à 100000 dollars. (Des montants supérieurs auraient sans doute dû être visés par un supérieur hiérarchique.)
Date d’émission
Montants en dollars
Date d’émission
Montants en dollars
9 octobre 1992
1927.4827902.31
19 octobre 1992
96879.2791806.4784991.6790831.8393766.6788338.7294639.4983709.2896412.2188432.8671552.16
14 octobre 1992
86241.9072117.4681321.7597473.96
19 octobre 1992
93249.1189658.1787776.8992105.8379949.1687602.93 Total 1878687.5
8
72
79
71
86
9781
89 87 87
84
88
83
8892
9693
90 93
96
87
93
Indices de fraude
1) Les chiffres significatifs sont à l’opposé de la loi de Benford (plus de 90 % commencent par 7, 8 ou 9).
2) Valeurs d’abord petites, puis les montants et leurs fréquences ont augmenté.
3) Tous les montants restent inférieurs à 100000 dollars. (Des montants supérieurs auraient sans doute dû être visés par un supérieur hiérarchique.)
4) Les paires de premiers chiffres 87, 88, 93 et 96 ont été utilisées deux fois dans les 23 montants.
Etude minutieuse récente : A. Saville, Université de Prétoria, Afrique du Sud, 2006.
1) Test statistique de la loi de Benford appliqué à 17 compagnies connues pour avoir manipulé leurs comptes : la loi de Benford n’était respectée dans aucun des 17 cas !
2) Test également appliqué à 17 compagnies « honnêtes » afin de détecter des faux positifs : 4 comptabilités ne satisfaisaient pas la loi de Benford.
Comptes d’une école neuchâteloise…
Premier chiffre significatif des comptes d’une école neuchâteloise en 2011
…
1er chiffre significatif des comptes d’une école neuchâteloise en 2011
105 données
0 1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%Ecole: 1er chiffre significatif
0 1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%Benford généralisé Ecole: 1er chiffre significatif
Détection de fraudes plus générales
Une étude de psychologie expérimentale(menée par A. Dickmann - Zurich) a montré que
des sujets auxquels on demande de créer des données les produisent sans respecter la loi de Benford,
même s’ils connaissent celle-ci.
Au mieux, on retrouve une certaine conformité pour le 1er chiffre significatif.
Mais dès qu’on s’intéresse au 2ème chiffre significatif, la distribution devient … à peu près n’importe quoi!
0 1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%
Benford généralisé
Proba 1er chiffre significatif
0 1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%
Benford généralisé
Proba 2ème chiffre significatif
0 1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%
Benford généralisé
proba 3ème signe significatif
1er chiffre significatif des comptes d’une école neuchâteloise en 2011
105 données
0 1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%Ecole: 1er chiffre significatif
0 1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%Benford généralisé Ecole: 1er chiffre significatif
2ème chiffre significatif des comptes d’une école neuchâteloise en 2011
105 données
0 1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%Ecole: 2ème chiffre significatif
0 1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35% Benford généralisé Ecole: 2ème chiffre significatif
3ème chiffre significatif des comptes d’une école neuchâteloise en 2011
105 données
0 1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%Ecole: 3ème chiffre significatif
0 1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%Benford généralisé Ecole: 3ème chiffre significatif
Formation continue…
Pour les statisticiens…
Test d’hypothèse
Les écarts entre les données comptables et la loi de Benford sont-ils significatifs?
Hypothèse nulle H0: « Les données suivent la loi de Benford. »
Degré de fiabilité:• (= 0,01 ou 0,02 ou 0,05 ou 0,10) est le risque d’erreur de première espèce
• qui quantifie le risque de rejeter l’hypothèse H0 alors qu’elle est vraie.
données loi théoriqueEffectifs réels
– effectifs théoriques
xi
effectifni
probabilité théorique (Benford)
Pi
Effectif théorique
Npi
1 32 0,301
2 20 0,176
3 15 0,125
4 10 0,097
5 7 0,079
6 9 0,067
7 4 0,058
8 2 0,051
9 6 0,046
Somme N 1 N
ii Npn 2)( ii Npn i
ii
Np
Npn 2)(
12
16 0,4310,657 0,028
-4,265 18,188 1,118
1,547
31,608 0,154
2,281
3,540 0,270
0,123
0,005
1,510
0,392
1,88113,119
18,490
= 105 = 105
10,176
8,314
7,029
6,089
5,371
4,805
15,343
16,265
-0,176 0,031 0,003
)( 2;
2dldlP
2; dl
2dl
Aire =
Aire = 1 –
Tabulation de la distribution du khi-carré 2
Conclusion:
Attention, cette conclusion est moins forte que de dire:
les données suivent la loi de Benford…
Nous n’avons pas de raison de rejeter l’hypothèse nulle H0
qui dit que les données suivent la loi de Benford.
A méditer…
Contre-exemples
• Série de nombres construite avec un générateur de nombres aléatoires
• Numéros gagnants à une loterie
• Vos tailles
• Numéros de téléphone dans votre répertoire
• Numéros des maisons d’une rue
• …
Exemples « mathématiques »
n2n2
n 2n 1er chiffre sign. de 2n
1ère apparition de ce chiffre
comme 1er C.S.
1 2 2 2
2 4 4 4
3 8 8 8
4 16 1 1
5 32 3 3
6 64 6 6
7 128 1
8 256 2
9 512 5 5
10 1024 1
n2n2
n2n2
n 2n 1er chiffre sign. de 2n
1ère apparition de ce chiffre
comme 1er C.S.
11 2048 2
12 4096 4
13 8192 8
14 16384 1
15 32768 3
16 65536 6
17 131072 1
18 262144 2
19 524288 5
20 1048576 1
n2n2
n2n2
n 2n 1er chiffre sign. de 2n
1ère apparition de ce chiffre
comme 1er C.S.
21 2097152 2
22 4194304 4
23 8388608 8
24 16777216 1
25 33554432 3
26 67108864 6
27 134217728 1
28 268435456 2
29 536870912 5
30 1073741824 1
n2n2
n2n2
n 2n 1er chiffre sign. de 2n
1ère apparition de ce chiffre
comme 1er C.S.
31 2147483648 2
32 4294967296 4
33 8589934592 8
34 17179869184 1
35 34359738368 3
36 68719476736 6
37 1.37439E+11 1
38 2.74878E+11 2
39 5.49756E+11 5
40 1.09951E+12 1
n2n2
n2n2
n 2n 1er chiffre sign. de 2n
1ère apparition de ce chiffre
comme 1er C.S.
41 2.19902E+12 2
42 4.39805E+12 4
43 8.79609E+12 8
44 1.75922E+13 1
45 3.51844E+13 3
46 7.03687E+13 7 7
47 1.40737E+14 1
48 2.81475E+14 2
49 5.6295E+14 5
50 1.1259E+15 1
n2n2
n2n2
n 2n 1er chiffre sign. de 2n
1ère apparition de ce chiffre
comme 1er C.S.
51 2.2518E+15 2
52 4.5036E+15 4
53 9.0072E+15 9 9
54 1.80144E+16 1
55 3.60288E+16 3
56 7.20576E+16 7
57 1.44115E+17 1
58 2.8823E+17 2
59 5.76461E+17 5
60 1.15292E+18 1
n2n2
On constate qu’au plus l’exposant n grandit, au plus les fréquences d’apparitions des chiffres 1 à 9 comme 1ers chiffres significatifs se rapprochent des fréquences de la loi de Benford.
Vladimir Arnold et André Avez ont démontré qu’asymptotiquement la suite 2n satisfait la loi de Benford.
1er chiffre significatif des n 1ers nombres de la suite 2n
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%n = 10
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%n = 20
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%n = 30
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%n = 40
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%n = 50
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%n = 60
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%n = 70
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%n = 80
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%n = 90
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%n = 100
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%n = 110
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%n = 120
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%n = 130
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%n = 140
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%n = 150
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%n = 160
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%n = 170
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%n = 180
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%n = 190
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%n = 200
1er chiffre significatif des n 1ers nombres de la suite 2n
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%n = 200
1 2 3 4 5 6 7 8 90%
5%
10%
15%
20%
25%
30%
35%Benford n = 200
Le mathématicien suisse Paul Jolissaint
a démontré que la célèbre suite de Fibonacci
1 1 2 3 5 8 13 21 34 …
déjà connue pour plein de propriétés sympathiques ou amusantes,
suit elle aussi asymptotiquement la loi de Benford !
Pourquoi des suites numériques issues du monde réel se conforment-elles raisonnablement
à la loi de Benford ?
Ainsi des suites de nombres s’étalant sur plusieurs ordres de grandeur
et de manière assez régulière s’approcheraient relativement bien de la loi de Benford.
Quelques tentatives d’explications…
Peut-être qu’un jour, quelque principe général qui nous
échappe encore aujourd’hui, amènera une explication.
Jean-Paul Delahaye