1. Introduction ` la statistique
a
inf´rentielle
e
Didier Concordet
Unit´ de Biom´trie
e e
Ecole V´t´rinaire de Toulouse
ee
2. Sommaire
1 Statistiques descriptives 7
1.1 Description num´rique . . . . . . .
e . . . . . . . . . . . . . . . 7
1.1.1 Param`tres de position . . .
e . . . . . . . . . . . . . . . 8
1.1.2 Param`tres de dispersion . .
e . . . . . . . . . . . . . . . 10
1.1.3 Param`tres de forme . . . .
e . . . . . . . . . . . . . . . 11
1.2 Description graphique . . . . . . . . . . . . . . . . . . . . . . 12
1.2.1 Description de la densit´ . .
e . . . . . . . . . . . . . . . 12
1.2.2 Description de la fonction de r´partition
e . . . . . . . . 13
2 Le zoo des lois de probabilit´ e 17
2.1 Lois de probabilit´ discr`tes . . . . . . . . . . . .
e e . . . . . . . 18
2.1.1 Loi de Bernoulli . . . . . . . . . . . . . . . . . . . . . . 21
2.1.2 Loi binomiale . . . . . . . . . . . . . . . . . . . . . . . 21
2.1.3 Loi hyperg´om´trique . . . . . . . . . . . .
e e . . . . . . . 23
2.1.4 Loi de Poisson ou loi des ´v´nements rares
e e . . . . . . . 24
2.1.5 Loi binomiale n´gative . . . . . . . . . . .
e . . . . . . . 26
2.1.6 Loi de Pascal . . . . . . . . . . . . . . . . . . . . . . . 27
2.2 Quelques lois de probabilit´ continues . . . . . . .
e . . . . . . . 28
2.2.1 Quelques d´finitions pr´liminaires . . . . .
e e . . . . . . . 28
2.2.2 Loi normale ou de Laplace Gauss . . . . . . . . . . . . 30
2.2.3 Loi du χ2 . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.2.4 Loi de Student . . . . . . . . . . . . . . . . . . . . . . 34
2.2.5 Loi de Fisher . . . . . . . . . . . . . . . . . . . . . . . 34
2.3 Quelques remarques sur l’op´rateur IE . . . . . .
e . . . . . . . 35
1
3. 2.4 Lois ` deux dimensions . . . . . . . . . . . . . . . . . . . . . . 36
a
2.4.1 G´n´ralit´s . . . . . . . . . . . . . . . . . . . . . . . . 36
e e e
2.4.2 Loi normale a deux dimensions . . . . . . . . . . . . . 40
3 Estimation 43
3.1 G´n´ralit´s . . . . . . . . . . . . . . . . .
e e e . . . . . . . . . . . 43
3.2 Estimateur convergent . . . . . . . . . . . . . . . . . . . . . . 44
3.3 Estimateur sans biais . . . . . . . . . . . . . . . . . . . . . . . 46
3.4 Estimateur de variance minimum . . . . . . . . . . . . . . . . 48
3.5 Une m´thode g´n´rale d’estimation :
e e e
le maximum de vraisemblance . . . . . . . . . . . . . . . . . . 50
3.6 Une bricole sur le th´or`me central limit .
e e . . . . . . . . . . . 52
3.7 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.7.1 Estimation des param`tres d’une loi
e normale . . . . . . 53
3.7.2 Estimation d’un pourcentage . . . . . . . . . . . . . . . 57
4 Tests d’hypotheses 61
4.1 G´n´ralit´s . . . . . . . . . . . . . . . . .
e e e . . . . . . . . . . . 61
4.2 Hypoth`se . . . . . . . . . . . . . . . . . .
e . . . . . . . . . . . 63
4.3 D´finition des risques . . . . . . . . . . . .
e . . . . . . . . . . . 64
4.4 Ce qu’il ne faudrait pas croire . . . . . . . . . . . . . . . . . . 67
4.5 Tests param´triques et non param´triques
e e . . . . . . . . . . . 68
4.6 Quelques remarques . . . . . . . . . . . . . . . . . . . . . . . . 68
5 Tests classiques 71
5.1 Comparaisons portant sur les variances . . . . . . . . . . . . . 71
5.1.1 Comparaison d’une variance ` une valeur d´terministe
a e 71
5.1.2 Comparaison de deux variances . . . . . . . . . . . . . 72
5.1.3 Comparaison de plusieurs variances . . . . . . . . . . . 72
5.2 Comparaisons portant sur les moyennes . . . . . . . . . . . . . 74
5.2.1 Comparaison d’une moyenne ` une valeur donn´e m0 .
a e 75
5.2.2 Comparaison de deux moyennes . . . . . . . . . . . . . 76
5.3 Comparaisons portant sur les proportions . . . . . . . . . . . . 79
2
4. 5.3.1 Comparaison d’une proportion ` une valeur donn´e
a e . . 79
5.4 Comparaison de deux proportions . . . . . . . . . . . . . . . . 80
5.5 Test de conformit´ a une loi de proba . . . . . . . . . . . .
e . . 83
5.5.1 Test de Kolmogorov-Smirnov (KS) . . . . . . . . . . . 83
5.5.2 Test du χ2 pour une loi normale . . . . . . . . . . . . . 84
5.6 Comparaisons multiples . . . . . . . . . . . . . . . . . . . . . 85
5.6.1 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.6.2 Analyse de la variance . . . . . . . . . . . . . . . . . . 87
5.6.3 Estimation des param`tres . . . . . . . . . . . . . .
e . . 88
5.7 Tests d’hypoth`ses (param´triques) . . . . . . . . . . . . .
e e . . 91
5.7.1 M´thode des contrastes . . . . . . . . . . . . . . . .
e . . 92
5.7.2 Orthogonalit´ et ind´pendance . . . . . . . . . . . .
e e . . 93
5.7.3 Plus petite diff´rence significative (PPDS) . . . . .
e . . 94
5.7.4 M´thode de Bonferroni . . . . . . . . . . . . . . . .
e . . 96
5.7.5 M´thode de Newman-Keuls . . . . . . . . . . . . .
e . . 97
5.7.6 M´thode de Duncan . . . . . . . . . . . . . . . . .
e . . 99
5.7.7 M´thode de Tuckey . . . . . . . . . . . . . . . . . .
e . . 99
5.7.8 M´thode de Dunnett . . . . . . . . . . . . . . . . .
e . . 99
5.8 Quelques tests non parametriques . . . . . . . . . . . . . . . . 100
5.8.1 Tests sur ´chantillons appari´s . . . . . . . . . . . .
e e . . 101
5.8.2 Tests sur ´chantillons ind´pendants . . . . . . . . .
e e . . 102
3
5. Chapitre 1
Statistiques descriptives
L’objet de ce chapitre est de pr´senter bri`vement la premi`re ´tape de
e e e e
l’analyse des donn´es : la description. L’objectif poursuivi dans une telle
e
analyse est de 3 ordres :
tout d’abord, obtenir un contrˆle des donn´es et ´liminer les donn´es aber-
o e e e
rantes ensuite, r´sumer les donn´es (op´ration de r´duction) sous forme
e e e e
graphique ou num´rique, enfin, ´tudier les particularit´s de ces donn´es
e e e e
ce qui permettra ´ventuellement de choisir des m´thodes plus complexes.
e e
Les m´thodes descriptives se classent en deux cat´gories qui souvent sont
e e
compl´mentaires : la description num´rique et la description graphique.
e e
1.1 Description num´rique
e
Avant de donner des d´finitions formelles de tous les indices, nous les cal-
e
culerons sur la s´rie de donn´es suivante (GMQ de porcs exprim´s en g):
e e e
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
737 630 573 615 718 620 820 763 786 529
Nous noterons n la taille de la s´rie de donn´es, ici n = 10
e e
4
6. 1.1.1 Param`tres de position
e
Les param`tres de position, aussi appel´s valeurs centrales, servent ` car-
e e a
act´riser l’ordre de grandeur des donn´es.
e e
• moyenne arithm´tique :
e
Elle est plus souvent appel´e moyenne, et est en g´n´ral not´e x, elle est
e e e e ¯
calcul´e en utilisant la formule:
e
n
1
x=
¯ xi
n i=1
Dans notre exemple,¯ = 679.
x
• moyenne g´om´trique
e e
La moyenne g´om´trique (¯g ) est toujours inf´rieure (ou ´gale) ` la moyenne
e e x e e a
arithm´tique. Elle est donn´e par:
e e
n 1/n
xg =
¯ xi
i=1
Dans notre exemple, xg = 672.6
¯
On peut remarquer que
n
1
log(¯g ) =
x log(xi )
n i=1
en d’autres termes, le log de la moyenne g´om´trique est la moyenne arithm´tique
e e e
du log des donn´es. Elle est tr`s souvent utilis´e pour les donn´es distribu´es
e e e e e
suivant une loi log normale (par exemple les comptages cellulaires du lait).
• moyenne harmonique
La moyenne harmonique (¯h ) est toujours inf´rieure (ou ´gale) ` la moyenne
x e e a
g´om´trique, elle est en g´n´ral utilis´e pour calculer des moyennes sur des
e e e e e
intervalles de temps qui s´parent des ´v´nements. Elle est donn´e par:
e e e e
n
xh =
¯ n 1
i=1 xi
5
7. Dans notre exemple,¯h = 666.05
x
On peut remarquer que
n
1 1 1
= .
xh
¯ n i=1
xi
• m´diane
e
La m´diane x est la valeur telle que la moiti´ des observations lui sont
e ˜ e
sup´rieures (ou ´gales) et la moiti´ inf´rieures (ou ´gales). Il est clair que
e e e e e
la m´diane existe pour toutes les distributions (ce qui n’est pas le cas de la
e
moyenne) de plus, elle est peu sensible aux valeurs extrˆmes.
e
Lorsque le nombre d’observations est pair, la m´diane n’est pas d´finie de
e e
fa¸on unique. La valeur usuellement retenue est la moyenne des observations
c
de rang n et de rang n + 1 Dans notre exemple x = 674.
2 2
˜
• les quartiles
Les quartiles sont au nombre de trois. La m´diane est le deuxi`me.
e e
Le premier quartile q1 est la valeur telle que 75% des observations lui sont
sup´rieures (ou ´gales) et 25% inf´rieures (ou ´gales).
e e e e
Lorsqu’il n’est pas d´fini de fa¸on unique, on utilise g´n´ralement la moyenne
e c e e
des observations qui l’encadrent pour le calculer. Dans notre exemple, q1 =
615.
Le troisi`me quartile q3 est la valeur telle que 25% des observations lui sont
e
sup´rieures (ou ´gales) et 75% inf´rieures (ou ´gales).
e e e e
Lorsqu’il n’est pas d´fini de fa¸on unique, on utilise la moyenne des observa-
e c
tions qui l’encadrent pour le calculer. Dans notre exemple, q3 = 763.
• le mode
est la (ou les) valeur(s) pour laquelle les effectifs sont maximums, il est en
g´n´ral assez difficile de l’´valuer (quand il existe) sur des ´chantillons de
e e e e
petite taille.
• les extrˆmes
e
Ce sont les minimum et maximum de l’´chantillon qui ici valent respective-
e
ment 529 et 820.
La moyenne n’est pas toujours le meilleur indice pour d’´crire la
e
position des donn´es, tout d´pend de la forme de la distribution.
e e
6
8. En effet, pour des distributions non sym´triques ou multimodales,
e
il est souvent pr´f´rables de donner les percentiles qui sont plus
ee
facile ` interpr´ter.
a e
1.1.2 Param`tres de dispersion
e
Ces param`tres (comme leur nom l’indique) mesurent la dispersion des donn´es.
e e
• la variance
Elle est d´finie comme la moyenne des carr´s des ´carts ` la moyenne, soit:
e e e a
n
1
ˆ2
σn = (xi − x)2
¯
n i=1
Il est aussi possible d’en donner la d´finition suivante:
e
n n
1
ˆ2
σn = (xi − xj )2
2n2 i=1 j=1
On voit donc, que la variance est proportionnelle ` la somme des carr´s de
a e
toutes les diff´rences possibles entre les observations.
e
Cette d´finition de la variance n’est pas utilis´e en pratique pour une raison
e e
que nous verrons au chapitre suivant. En fait, on utilise la d´finition suivante
e
n
1
ˆ2
σn−1 =S = 2
(xi − x)2
¯
n−1 i=1
La variance s’exprime dans l’unit´ au carr´ des donn´es ; dans notre exemple,
e e e
2 2
la variance vaut :ˆn−1 = 9664.989g
σ
• l’´cart type
e
est la racine carr´e de la variance. il vaut ici:ˆn−1 = 93.26g Utilisez le ` bon
e σ a
escient (cf TD)
• l’´tendue ou amplitude
e
est d´finie comme la diff´rence entre la maximum et le minimum, soit ici
e e
:820 − 529 = 291g
• la distance inter-quartile
7
9. est d´finie comme la diff´rence entre q3 et q1 , soit:763 − 615 = 148
e e
• le coefficient de variation
est d´finie comme le rapport entre l’´cart type et la moyenne.
e e
S2
CV =
x
¯
1.1.3 Param`tres de forme
e
Les logiciels de statistiques fournissent g´n´ralement les param`tres Skewness
e e e
et Kurtosis construits ` partir des moments centr´s d’ordre 2,3 et 4 qui
a e
mesurent respectivement la sym´trie et l’aplatissement de la distribution dont
e
l’´chantillon est issu.
e
Pour une loi normale centr´e r´duite, ces coefficients sont nuls.
e e
Les moments centr´s d’ordre 3 et 4 sont d´finis par:
e e
n
1
m3 = (xi − x)3
¯
n i=1
n
1
m4 = (xi − x)4
¯
n i=1
A partir de ces d´finitions, les param`tres Skewness et Kurtosis sont respec-
e e
tivement d´finis par:
e
m3
γ1 = 3
s
m4
γ2 = 4 − 3
s
Dans notre exemple,γ1 = −0.037 et γ2 = −1.339
Le param`tre γ1 est nul pour une distribution sym´trique. Le graphique
e e
suivant montre un exemple de distribution avec un γ1 positif et n´gatif. Le
e
param`tre γ2 est nul pour une loi normale. Le graphique suivant montre un
e
exemple de distribution avec un γ1 positif et n´gatif.
e
8
10. 1.2 Description graphique
Les graphiques pr´sent´s dans ce paragraphe d´crivent d’une part la densit´
e e e e
de la distribution et d’autre part la fonction de r´partition de la distribution.
e
1.2.1 Description de la densit´
e
Histogramme (cf fig 1.1)
30 0.2
Proportion per Bar
20
Count
0.1
10
0 0.0
4 5 6 7 8
Variable à étudier
Figure 1.1: Histogramme d’une variable quantitative. La variable quan-
titative est d´coup´e en classes repr´sent´es en abscisse. Le pourcentage
e e e e
(et/ou le nombre) de donn´es de l’´chantillon appartenant ` chaque classe
e e a
est repr´sent´ en ordonn´e. L’inconv´nient majeur de cette repr´sentation
e e e e e
graphique est l’arbitraire dans le choix des classes.
9
11. Stem and leaf
4 3
4 4445
4 666677
4 88888999999
5 H 0000000000111111111
5 22223
5 4444445555555
5 66666677777777
5 M 8888888999
6 000000111111
6 2222333333333
6 H 444444455555
6 6677777777
6 8889999
7 01
7 2223
7 4
7 67777
7 9
C’est un de mes graphiques pr´f´r´s. Il s’agit d’un histogramme fait avec
eee
des chiffres. Les donn´es sont class´es par ordre croissant. Le minimum de
e e
l’´chantillon est 4.3 (premi`re ligne du stem). La deuxi`me ligne nous indique
e e e
que l’´chantillon contient 3 valeurs qui apr`s arrondi valent 4.4 et une valeur
e e
´gale (apr`s arrondi) ` 4.5. Le maximum vaut 7.9. Les H nous indiquent
e e a
les classes qui contiennent respectivement les premier et troisi`me quartiles
e
tandis que le M nous donne la classe qui contient la m´diane. On en d´duit
e e
que 25% des donn´es sont inf´rieures ` 5.0 ou 5.1, 50 % sont inf´rieures ` 5.8
e e a e a
ou 5.9 et 25% sont sup´rieures ` 6.4 ou 6.5.
e a
1.2.2 Description de la fonction de r´partition
e
Qplot (Quantile plot) ou encore fonction de r´partition empirique (cf fig 1.2)
e
10
12. 1.0
0.9
Fraction of Data 0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
4 5 6 7 8
Variable étudiée
Figure 1.2: Ce graphique est homog`ne au graphique des fr´quences cu-
e e
mul´es pour une variable qualitative. La variable ´tudi´e est repr´sent´e sur
e e e e e
l’axe des abscisses. L’axe des ordonn´es donne le pourcentage de donn´es de
e e
l’´chantillon inf´rieures ou ´gales ` l’abscisse.
e e e a
Pplot (Probability plot) aussi appel´ dans le cas de la loi normale droite de
e
Henry. (cf fig 1.3). Toutes les fonctions de r´partition se ressemble, ce sont
e
des courbes croissantes en g´n´ral sigmo¨
e e ıdale. En bref, elles ne permettent
pas facilement d’identifier une loi. L’id´e des Pplot est de d´former l’axe
e e
des ordonn´es de telle fa¸on que si la loi empirique est proche de la loi que
e c
l’on cherche ` identifier alors les points sont ` peu pr´s align´s. Le Pplot
a a e e
le plus courant est la droite de Henry qui permet de reconnaˆ la loi nor-
ıtre
male. Formellement voil` comment cela marche. Notons F
a ˆ (x) la fonction
de r´partition empirique construite avec notre ´chantillon. On pense que
e e
cette fonction de r´partition est proche de la fonction de r´partition de la loi
e e
11
13. normale N (m, σ 2 ) (cf paragraphe refgauss0 pour plus de d´tails). On pense
e
ˆ (x)
donc que F Φ σ x−m
o` Φ est la fonction de r´partition de la la loi
u e
ˆ
normale N (0, 1). Si F (x) Φ x−m alors Φ−1 F (x) ˆ x−m
. En d’autres
σ σ
ˆ
termes, si F (x) est proche de la fonction de r´partition de la loi normale
e
alors le graphique de Φ −1 ˆ (x) contre x devrait nous donner une droite
F
d’´quation x−m . Les points devraient donc se situer autour de cette droite si
e σ
la distribution est gaussienne (aux effets de bords pr´s).
e
3
Expected Value for Normal Distribution
2
1
0
-1
-2
-3
4 5 6 7 8
Variable étudiée
Figure 1.3: Ce graphique nous montre clairement que cette distribution ne
peut pas ˆtre consid´r´e comme gaussienne, il y a trop de courbure.
e ee
12
14. Chapitre 2
Le zoo des lois de probabilit´
e
Une des notions fondamentales des statistiques est celle de variable al´atoire.
e
On consid`re un ensemble d’individus qui sera appel´ Ω. Un individu de cet
e e
ensemble sera not´ ω. On note X(ω) une caract´ristique de l’individu ω. Par
e e
exemple, Ω est l’ensemble des bact´ries que l’on trouve dans du lait de mam-
e
mites, ω est une bact´rie particuli`re et X(ω) est type de la bact´rie ω. La
e e e
quantit´ X(.) est appel´e variable al´atoire (en g´n´ral on note v.a.). Les
e e e e e
valeurs possibles que peut prendre X(ω) quand ω ∈ Ω d´termine la nature
e
1
de la variable al´atoire. Ainsi, si X(ω) prend ses valeurs dans IR, on parlera
e
de variable al´atoire continue, si X(.) prend ses valeurs dans un ensemble
e
fini ou d´nombrable, X(.) sera alors appel´e v.a. discr`te.
e e e
En r´sum´,
e e
X : Ω −→ E
ω −→ X(ω)
Quelques exemples de variables al´atoires :
e
1) le nombre d’´tudiants pr´sents au cours de stat ;
e e
2) le nombre de vaches qui ont une mammite dans un ´levage ;
e
3) le pourcentage de r´ussite aux examens ;
e
4) le temps pendant lequel un animal est porteur d’une maladie ;
1
Pour simplifier les notations, on note g´n´ralement X au lieu de X(ω). Par la suite,
e e
cet abus de notation sera abondamment utilis´e
13
15. 5) la temp´rature d’un chien;
e
6) les concentrations en fer et en cuivre dans le sang d’un animal sain.
Les trois premi`res v.a. sont discr`tes, et ne peuvent prendre que des
e e
valeurs qu’il est possible d’´num´rer d’avance. En revanche, les v.a. 4),
e e
5), 6) sont continues. La variable al´atoire 6) est une va ` deux dimen-
e a
sions. Nous adopterons dor´navant la convention suivante : les lettres ma-
e
juscules d´signeront les variables al´atoires, les lettres minuscules d´signeront
e e e
les valeurs que peuvent prendre les variables al´atoires.
e
L’´tude des lois de probabilit´ usuelles est en fait l’´tude de la distribution
e e e
des valeurs que peut prendre une variable al´atoire.
e
2.1 Lois de probabilit´ discr`tes
e e
Pour compl`tement d´finir une loi de probabilit´ d’une va discr`te X, il suffit
e e e e
de d´finir la probabilit´ d’occurrence de chaque valeur k que peut prendre
e e
cette va. En d’autres termes, la donn´e des quantit´s P (X = k) et ceci pour
e e
toutes les valeurs k possibles d´terminent une loi de proba particuli`re. De
e e
fa¸on ´quivalente, pour compl`tement caract´riser une loi de proba, il suffit
c e e e
de d´finir sa fonction de r´partition , d´finie par :
e e e
F (n) = P (X ≤ k).
k≤n
Cette fonction s’interpr`te comme la probabilit´ que la va X soit au plus
e e
´gale ` n. C’est ´videmment une fonction positive et croissante (on ajoute
e a e
des probabilit´s qui sont des quantit´s positives ou nulles). Pour illustrer ce
e e
qu’elle repr´sente, prenons un petit exemple. Supposons que X est le nombre
e
de clients d’un v´t´rinaire le mardi matin. La va X est discr`te et ne peut
ee e
prendre que les valeurs k = 0, 1, . . . , 10. Supposons de plus que la distribution
de X est donn´e par
e
k 0 1 2 3 4 5 6 7 8 9 10
P (X = k) 0.01 0.03 0.09 0.14 0.17 0.17 0.15 0.11 0.07 0.04 0.02
14
16. alors la fonction de r´partition est donn´e par
e e
n 0 1 2 3 4 5 6 7 8 9 10
F (n) 0.01 0.04 0.13 0.27 0.45 0.62 0.77 0.88 0.94 0.98 1.00
Fonction de Répartition
1
0.9
0.8
0.7
0.6
F(n)
0.5
0.4
0.3
0.2
0.1
0
0 1 2 3 4 5 6 7 8 9 10
n
Figure 2.1: Fonction de r´partition du nombre de clients d’un v´t´rinaire le
e ee
mardi matin
Il est bien ´vident que si le nombre de valeurs que peut prendre la vari-
e
able al´atoire est tr`s ´lev´, il peut ˆtre tr`s fastidieux (voire impossible)
e e e e e e
de donner toutes ces probabilit´s. Or, comme nous allons le voir, les lois
e
de proba usuelles sont en fait d´finies par un petit nombre de param`tres
e e
: les moments de la loi de proba. Pour d´finir les moments, nous avons
e
besoin d’un op´rateur appel´ esp´rance math´matique qui est not´ IE. Cet
e e e e e
15
17. op´rateur plac´ devant une variable al´atoire, fournit la moyenne de cette
e e e
variable, ainsi la quantit´ IE(X) est d´finie par
e e
IE(X) = kP (X = k)
k
Dans notre exemple, le nombre de clients moyen du v´t´rinaire le mardi
ee
matin est donn´ par
e
IE(X) = 0 × 0.01 + 1 × 0.03 + 2 × 0.09 + 3 × 0.14 + 4 × 0.17 + 5 × 0.17 +
6 × 0.15 + 7 × 0.11 + 8 × 0.07 + 9 × 0.04 + 10 × 0.02 = 4.95
Plus g´n´ralement, on peut d´finir l’esp´rance math´matique de n’importe
e e e e e
quelle fonction Φ (ayant de bonnes propri´t´s) de la va X ainsi,
ee
IE(Φ(X)) = Φ(k)P (X = k)
k
On peut maintenant d´finir le moment d’ordre p par :
e
IE(X p ) = k p P (X = k).
k
Le moment centr´ d’ordre p est d´fini par
e e
mp = IE((X − IE(X))p ) = (k − IE(X))p P (X = k).
k
Vous connaissez d´j` le moment centr´ d’ordre 2 qui est aussi appel´ vari-
ea e e
ance. Nous reviendrons un peu plus loin sur l’interpr´tation pratique de cet
e
indice ainsi que sur celle des moments centr´s d’ordre 3 et 4. Dans l’exemple
e
pr´c´dent, la variance du nombre de clients du mardi matin est donn´e par
e e e
IE((X − IE(X))2 ) = (0 − 4.95)2 × 0.01 + (1 − 4.95)2 × 0.03 + (2 − 4.95)2 × 0.09 +
(3 − 4.95)2 × 0.14 + (4 − 4.95)2 × 0.17 + (5 − 4.95)2 × 0.17 +
(6 − 4.95)2 × 0.15 + (7 − 4.95)2 × 0.11 + (8 − 4.95)2 × 0.07 +
(9 − 4.95)2 × 0.04 + (10 − 4.95)2 × 0.02 = 4.6275
Nous pouvons maintenant passer ` l’inventaire des lois de probabilit´s les
a e
plus courantes.
16
18. 2.1.1 Loi de Bernoulli
C’est la loi de probabilit´ la plus simple: l’individu ω peut se trouver dans
e
deux ´tats (en g´n´ral not´s 0 et 1).
e e e e
Exemple : Ω est l’ensemble des bact´ries dans du lait de mammite, ω est une
e
bact´rie particuli`re, X(ω) = 0 si la bact´rie ω est gram (-) et, X(ω) = 1
e e e
si la bact´rie ω est gram (+). La loi de probabilit´ de X est enti`rement
e e e
d´termin´e par la seule donn´e du nombre P (X(ω) = 0) = p qui permet
e e e
de d´duire que P (X(w) = 1) = 1 − p. On dit alors que la v.a. X suit
e
une loi de BERNOULLI de param`tre p. On peut interpr´ter p dans notre
e e
exemple comme la probabilit´ qu’une bact´rie donn´e soit gram (-). La loi
e e e
de BERNOULLI nous sera essentiellement utile pour d´finir d’autres lois de
e
probabilit´.
e
2.1.2 Loi binomiale
Une v.a. qui suit une loi binomiale ne peut prendre qu’un nombre fini de
valeurs que nous noterons N . Pour illustrer l’utilisation de la loi binomiale,
prenons l’ exemple suivant : supposons que la pr´valence de la dysplasie de
e
la hanche chez le CN est de p (la proportion de CN non porteur de cette
anomalie est donc de 1 − p). A l’´cole v´t´rinaire, il passe par an N CN,
e ee
on note X le nombre de CN porteurs de la dysplasie de la hanche parmi les
N trait´s ` l’´cole. On suppose que l’´cole a une chance ´gale d’ˆtre choisie
e a e e e e
comme centre de traitement par les propri´taires de CN ` dysplasie de la
e a
hanche. Alors,
P (X = k) = CN pk (1 − p)N −k et ceci pour k = 0, 1...N.
k
k N!
CN = est le nombre de “paquets de k que l’on peut faire parmi
k!(N − k)!
N ”.
k
Une propri´t´ ´l´mentaire de CN est
e eee
CN = CN −k .
k N
17
19. Le nombre moyen de CN porteur de la dysplasie que l’on peut trouver au
cours d’une ann´e ` l’´cole v´to est donn´ par IE(X) = N p. En d’autres
e a e e e
termes si la pr´valence de la dysplasie de la hanche est de p = 0.1, et s’il passe
e
dans les cliniques de l’´cole N = 500 CN par an, on trouvera en moyenne
e
N p = 500 0.1 = 50 CN porteurs de cette anomalie. Il est bien ´vident que
e
le nombre de CN porteurs trouv´s sur les 500 examin´s par an ne sera pas
e e
toujours ´gal ` 50. Il y a donc des variations de CN porteurs qui seront
e a
observ´s ` l’´cole. Un indice mesure ces variations c’est la variance. La
e a e
variance d’une loi binomiale est donn´e par
e
V ar(X) = N p(1 − p).
Tr`s souvent la quantit´ 1−p est not´e q ; ceci explique le fait que V ar(X) =
e e e
N pq.Quand X suit une loi binomiale de param`tre N et p on note
e
X ∼ B(N, p).
Le graphique 2.2 montre les formes caract´ristiques d’une loi binomiale en
e
fonction des valeurs du param`tre p.
e
Remarque Il existe une autre fa¸on de construire la loi binomiale. Voyons
c
sur l’exemple des bact´ries comment proc´der.
e e
On consid`re N bact´ries. Chaque bact´rie a une probabilit´ p d’ˆtre gram (-
e e e e e
), ` chaque bact´rie on fait correspondre une v.a. de Bernoulli de param`tre
a e e
p qui prend la valeur 0 si elle est gram (-) et 1 si elle est gram (+). On
appelle Xi la variable al´atoire attach´e ` la ii`me bact´rie. En supposant
e e a e
e
que les bact´ries sont ind´pendantes on a:
e e
n
X= Xi ∼ B(n, p).
i=1
X repr´sente ici le nombre total de bact´ries gram (+) parmi les N con-
e e
sid´r´es.
ee
18
20. 0.45
0.4
0.35
p=0.1
0.3 p=0.2
p=0.3
0.25 p=0.4
P(X=k)
p=0.5
0.2
0.15
0.1
0.05
0
0 1 2 3 4 5 6 7 8 9 10 k
Figure 2.2: Forme de la loi binomiale pour diff´rentes valeurs du param`tre
e e
p.
2.1.3 Loi hyperg´om´trique
e e
Pour bien faire comprendre la loi hyperg´om´trique prenons un petit exemple.
e e
Supposons que vous ayez ` ´valuer la pr´valence des mammites de la vache
ae e
en Midi-Pyr´n´es. On sait que dans cette r´gion il y a N vaches. Parmi ces
e e e
vaches N1 sont atteintes et N2 sont saines (on a ´videmment N1 + N2 = N.)
e
Vous ne pouvez pas contrˆler toutes les vaches de Midi-Pyr´n´es, vous ˆtes
o e e e
donc oblig´ de prendre un ´chantillon de taille n < N. On appelle X le nom-
e e
bre de vaches ` mammite que vous avez trouv´ dans votre ´chantillon. X 2
a e e
est une quantit´ al´atoire, en effet, si vous faites plusieurs fois des ´chantillons
e e e
de taille n, vous ne retrouvez pas ` chaque fois le mˆme nombre de vaches
a e
atteintes. On s’interesse aux probabilit´s suivantes P (X = k) k varie entre
e
n
0 et N1 ∧ n. Il y a CN fa¸ons de tirer un ´chantillon de taille n parmi les N
c e
vaches de M.P.
2
X est ici mis pour X(ω). ω repr´sente un tirage de n vaches
e
19
21. k
CN1 est le nombre de fa¸ons de tirer k vaches ` mammites parmi les N1
c a
n−k
pr´sentes en M.P. et enfin CN2 est le nombre de fa¸ons de tirer n − k vaches
e c
saines parmi N2 pr´sentes en M.P.
e
On en d´duit que
e
cas probables k n−k
CN CN
P (X = k) = = 1
n
CN
2
si k ≤ N1 et n − k ≤ N2
cas possibles
= 0 sinon
La variable al´atoire X suit une loi hyperg´om´trique. Quand X suit une loi
e e e
hyperg´om´trique de param`tres N, n, N1 on note,
e e e
N1
X ∼ H(N, n, ).
N
Sa moyenne est donn´e par
e
N1
IE(X) = n
N
et sa variance par
N1 N2 N − n
V ar(X) = n
N N N −1
On peut noter que lorsque N −→ ∞, si N1 −→ p (p est le pourcentage vache
N
atteintes pr´sentes parmi les N ` contrˆler) alors
e a o
N1
H(N, n, ) −→ B(n, p).
N
En d’autres termes, si le nombre total de vaches en MP est tr`s ´lev´, on peut
e e e
utiliser la loi binomiale (plus simple) ` la place de la loi hyperg´om´trique.
a e e
2.1.4 Loi de Poisson ou loi des ´v´nements rares
e e
Une va qui suit une loi de poisson peut prendre une infinit´ de valeurs.
e
On dit que la va X suit une loi de poisson de param`tre λ, et on note
e
X ∼ P(λ), si
λk
P (X = k) = e−λ , k = 0, 1, ...
k!
20
23. de sujets atteints trouv´s dans l’´chantillon (not´ X). En d’autres termes,
e e e
on veut calculer
(Bi) P (X = k) = C100 (0.01)k (1 − 0.01)100−k .
k
Il est bien ´vident que le calcul d’une telle probabilit´ n’est pas si facile `
e e a
k
cause du terme C100 (pour vous en convaincre essayez de calculer avec votre
50
calculette C100 ). L’id´e est alors d’approximer la quantit´ (Bi) par une
e e
quantit´ plus facilement calculable:
e
(100 × 0.01)k
P (X = k) = C100 (0.01)k (1 − 0.01)100−k
k
e−100×0.01
k!
Plus g´n´ralement, si X ∼ B(N, p), si N est grand, si p est petit et si N p
e e
est raisonnable on peut approximer la loi B(N, P ) par une loi de poisson de
param`tre λ = N p. Ces conditions sont ´videmment tr`s vagues. Les condi-
e e e
tions usuelles sous lesquelles on consid`re que la qualit´ de l’approximation
e e
est “raisonnable” sont les suivantes : N 30, et N p 5. D’autres valeurs
de ces param`tres peuvent ˆtre tout ` fait acceptables pour peu que vous ne
e e a
soyez pas trop regardant sur la qualit´ d’approximation de certaines proba-
e
bilit´s.
e
La loi de poisson est souvent utilis´e pour mod´liser des quantit´s dont la
e e e
variance est ` peu pr´s ´gale ` la moyenne. Lorsque la variance est sup´rieure
a e e a e
` la moyenne, on utilise dans certains cas la loi Binomiale n´gative.
a e
2.1.5 Loi binomiale n´gative
e
Une va qui suit une loi binomiale n´gative peut prendre un nombre infini de
e
valeurs. On dit que la va X suit une loi binomiale n´gative de param`tre N
e e
et p si
k pk
P (X = k) = CN +k−1 , k = 0..
(1 + p)n+k
Sa moyenne est ´gale ` IE(X) = N p et sa variance V ar(X) = N p(1 + p). On
e a
peut remarquer que ces distributions sont d’autant plus surdispers´es que
e
p est grand. Le graphique suivant montre comment varie les distributions
binomiales n´gatives quand p varie.
e
22
24. 0.4
0.35
0.3 p=0.1
p=0.2
0.25 p=0.3
p=0.4
P(X=k)
0.2 p=0.5
0.15
0.1
0.05
0
0 2 4 6 8 10 12 14
k
Figure 2.4: Loi binomiale n´gative pour diff´rentes valeurs de p. Plus p
e e
augmente plus la loi est surdispers´e
e
2.1.6 Loi de Pascal
Une va qui suit une loi de pascal peut prendre une infinit´ de valeurs. On
e
dit que la va X suit une loi de Pascal de param`tre p si
e
P (X = k) = p (1 − p)k−1 , k = 1, 2, ...
Pour illustrer son utilisation, reprenons l’exemple de la dysplasie de la hanche
chez le CN. Supposons que l’´cole a une chance ´gale d’ˆtre choisie comme
e e e
centre de traitement par les propri´taires de CN ` dysplasie de la hanche.
e a
Notons p la pr´valence de cette anomalie et X le nombre de CN ` examiner
e a
23
25. avant d’en trouver un atteint, alors si on pose q = 1 − p, on a:
P (X = 1) = p, P (X = 2) = pq..., P (X = k) = pq k−1 .
Le nombre moyen de CN ` examiner avant d’en trouver un atteint est
a
1
IE(X) = ,
p
la variance de ce nombre est
q
V ar(X) = .
p2
2.2 Quelques lois de probabilit´ continues
e
2.2.1 Quelques d´finitions pr´liminaires
e e
Dans l’´tude des lois de proba continues, il apparaˆ une nouvelle quantit´ :
e ıt e
la densit´ de probabilit´.
e e
Pour bien comprendre ce dont il s’agit, imaginons que l’on s’interesse ` l’´tude
a e
de la distribution de la taille des Fran¸ais. Pour ´tudier cette distribution, on
c e
fait des classes de tailles, et on compte le pourcentage d’individus qui apparti-
ennent ` cette classe. Une repr´sentation graphique de cette distribution est
a e
donn´e par l’histogramme qui sera revu au chapitre suivant.Supposons main-
e
tenant que le nombre d’individus de la population d’int´rˆt (ici les Fran¸ais)
ee c
est infini. Un histogramme avec un nombre fini de classes nous donne une
pi`tre information sur la distribution de la taille. Pour ˆtre plus pr´cis on
e e e
augmente le nombre de classes et on diminue la taille de chaque classe. On
obtient ainsi un histogramme plus pr´cis. Que se passe t-il quand le nom-
e
bre de classes tend vers l’infini et que la taille de chaque classe tend vers z´ro ?
e
On obtient une courbe limite, cette courbe limite est en fait une repr´sentation
e
graphique d’une fonction (not´e f ) que nous appellerons densit´ de proba-
e e
bilit´.
e
Il est clair que par construction, cette fonction poss`de un certain nombre de
e
propri´t´s:
ee
- elle est positive ou nulle (en effet la valeur de cette fonction en un point x
24
26. repr´sente en quelque sorte le pourcentage d’individus qui mesure x)
e
- la surface totale sous cette courbe est ´gale ` 1 ; la surface sous la courbe
e a
repr´sente le pourcentage cumul´ de tous les individus (par d´finition il vaut
e e e
1).
La fonction de r´partition F est d´finie ` partir de la densit´ de proba de la
e e a e
fa¸on suivante :
c
x
F (x) = f (t)dt
−∞
La quantit´ F (x) repr´sente donc le cumul des pourcentages d’individus dont
e e
la taille est inf´rieure ` x. Ce constat nous permet de d´finir la fonction de
e a e
r´partition par
e
F (x) = P (X ≤ x).
Par d´finition F (x) est donc toujours un nombre compris entre z´ro et un,
e e
et la fonction x −→ F (x) est une fonction croissante (c’est un cumul de
pourcentages). De plus on a F (+∞) = 1 (on l’a d´j` dit) et F (−∞) = 0.
ea
Soit ∆x un accroissement infinit´simal de la taille, alors la quantit´
e e
F (x + ∆x) − F (x)
∆x
repr´sente en quelque sorte le pourcentage d’individus dont la taille est com-
e
prise entre x et x + ∆x, et en faisant tendre ∆x −→ 0 on obtient
F (x + ∆x) − F (x)
lim = f (x).
∆x→0 ∆x
En d’autres termes, la d´riv´e de la fonction de r´partition est la densit´
e e e e
de probabilit´.Tout comme dans le cas discret, il est possible de d´finir les
e e
moments d’une loi de probabilit´. Ce sont en g´n´ral ces quantit´s dont nous
e e e e
nous servirons en statistique pour travailler. Le moment d’ordre 1 d’une loi
de probabilit´ est d´fini quand il existe 3 par
e e
IE(X) = xf (x)dx
IR
3
Il existe certaines lois de proba dont les moments sont infinis par exemple la loi de
Cauchy
25
27. On reconnaˆ ici l’analogue continu de la d´finition donn´e dans le paragraphe
ıt e e
pr´c´dent. Il suffit en effet de changer le signe par le signe
e e pour retrouver
la mˆme formule. De mˆme, le moment centr´ d’ordre p est d´fini par
e e e e
mp = IE((X − IE(X))p ) = (x − IE(X))p f (x)dx
IR
Le moment centr´ d’ordre 2 est aussi appel´ variance, les moments centr´s
e e e
d’ordre 3 et 4 sont respectivement appel´s kurtosis et skewness.
e
2.2.2 Loi normale ou de Laplace Gauss
La loi normale joue un rˆle particuli`rement important dans la th´orie des
o e e
probabilit´s et dans les applications pratiques. La particularit´ fondamen-
e e
tale de la loi normale la distinguant des autres lois est que c’est une loi
limite vers laquelle tendent les autres lois pour des conditions se rencontrant
fr´quemment en pratique.On peut montrer que la somme d’un nombre suff-
e
isamment grand de va ind´pendantes (ou faiblement li´es) suivant des lois
e e
quelconques (ou presque), tend vers une loi normale et ceci avec d’autant
plus de pr´cision que le nombre de termes de cette somme est important.
e
La majorit´ des va que l’on rencontre en pratique, comme par exemple des
e
erreurs de mesures, peuvent souvent ˆtre consid´r´es comme des sommes
e ee
d’un nombre important de termes, erreurs ´l´mentaires, dues chacune ` une
ee a
cause diff´rente ind´pendante des autres. Quelque soit la loi des erreurs
e e
´l´mentaires, les particularit´s de ces r´partitions n’apparaissent pas dans la
ee e e
somme d’un grand nombre de celles-ci, la somme suivant une loi voisine de
la loi normale.
La loi normale est caract´ris´e par sa densit´ de probabilit´. Pour une loi
e e e e
2
normale de moyenne m et de variance σ , elle est donn´e par
e
1 (x−m)2
f (x) = √ e− 2σ2 .
2πσ
La courbe repr´sentative de la densit´ a la forme d’une courbe en cloche
e e
sym´trique. Le graphique 2.5 montre comment varie la densit´ d’une loi nor-
e e
male, quand la variance est fix´e, en fonction de sa moyenne (ici m1 m2 .)
e
26
28. Le graphique 2.6 montre comment varie la densit´ d’une loi normale ( `
e a
moyenne fix´e) quand la variance augmente : Les variances des lois I, II,
e
III sont de plus en plus ´lev´es.
e e
m1 m2
Figure 2.5: Un exemple de deux lois normales. Les deux lois ont la mˆme
e
variance. La moyenne m1 de la premi`re loi est inf´rieure ` celle m2 de la
e e a
seconde
La fonction de r´partition de la loi normale est d´finie ` partir de la densit´
e e a e
par :
x
1 (t−m)2
F (x) = √ e− 2σ2 dt = P (X x) = P (X ≤ x).
−∞ 2πσ
27
29. Loi I
Loi II
Loi III
Figure 2.6: Les trois lois ont la mˆme moyenne. Les variances des lois I, II,
e
III sont de plus en plus ´lev´es.
e e
Cette derni`re propri´t´ traduit g´om´triquement le fait qu’une probabilit´
e ee e e e
peut s’interpr´ter comme la surface sous la courbe densit´ comme l’indique
e e
le graphique 2.7:
Il n’existe pas d’expression alg´brique donnant l’aire sous la courbe en fonc-
e
tion de x. Il faut donc utiliser des valeurs tabul´es. Comme il est impossible
e
d’avoir autant de tables que de valeurs possibles de m et de σ 2 , on a recours
a l’astuce suivante :
supposons que X est une va suivant une loi normale de moyenne m et de
X −m
variance σ 2 (on note X ∼ N (m, σ 2 ), alors la quantit´ e suit une loi
σ
N (0, 1). On en d´duit que si F repr´sente la fonction de r´partition de la
e e e
28
30. F(x)=P(X@ x)
x
Figure 2.7: Une probabilit´ s’interpr`te comme la surface sous la courbe
e e
repr´sentant la densit´
e e
N (m, σ 2 ) et Φ la fonction de r´partition de la N (0, 1) alors :
e
P (a X b) = F (b) − F (a) = P (a − m X − m b − m)
= P ( a−m
σ
X−m
σ
b−m
σ
) = Φ( b−m ) − Φ( a−m ).
σ σ
remarque : Par d´finition Φ est une fonction croissante et on a Φ(+∞) = 1
e
et Φ(−∞) = 0.
2.2.3 Loi du χ2
Cette loi nous sera tr`s utile pour ´tudier la distribution des variances.
e e
Elle est construite ` partir de la loi normale de la fa¸on suivante : Soient
a c
29
31. X1 , X2 , . . . , Xn n va ind´pendantes de mˆme loi N(0,1), et soit
e e
n
2 2 2
K= X1 + X2 + ... + Xn = Xi2
i=1
alors, K suit une loi du Khi 2 ` n degr´s de libert´ (K ∼ χ2 ). On peut
a e e n
2
remarquer qu’une va qui suit une loi du χ est par construction toujours
positive ou nulle (c’est une somme de carr´s). La densit´ de probabilit´
e e e
2
d’une loi du χ est asym´trique (reportez vous aux tables que je vous ai
e
donn´es pour en avoir une id´e).
e e
2.2.4 Loi de Student
La loi de Student est construite ` partir de la loi normale et de la loi du Khi
a
2. Nous l’utiliserons intensivement pour faire des tests d’hypoth`ses.
e
2
Soient X une va de loi N(0,1), et K une va qui suit une loi du χn (Khi 2 ` na
degr´s de libert´). On suppose de plus que K et X sont ind´pendantes. Soit
e e e
X
Tn = ,
K
n
alors Tn suit une loi de student ` n degr´s de libert´.
a e e
2.2.5 Loi de Fisher
Tout comme la loi de student, la loi de Fisher sera tr`s utilis´e par la suite.
e e
Voyons en rapidement sa construction.
Soient K1 et K2 deux variables al´atoires ind´pendantes de loi respectives
e e
2 2
χn et χp , alors la quantit´
e
K1 /n
Fn,p =
K2 /p
suit une loi de Fisher ` n et p degr´s de libert´. Il faut faire tr`s attention `
a e e e a
l’ordre des degr´s de libert´. Le premier degr´ de libert´ (ici n) est le degr´
e e e e e
de libert´ du num´rateur, alors que le second (p) est celui du d´nominateur.
e e e
30
32. 2.3 Quelques remarques sur l’op´rateur IE
e
L’op´rateur IE est un op´rateur lin´aire en d’autres termes, si X et Y sont
e e e
des va avec de ”bonnes propri´t´s”, et si α, β et γ sont des r´els, alors
ee e
IE(αX + βY + γ) = αIE(X) + βIE(Y ) + γ
et ceci que les variables al´atoires X et Y soient ind´pendantes ou pas. En
e e
revanche, l’op´rateur variance (not´ Var) construit avec l’op´rateur IE de la
e e e
fa¸on suivante
c
V ar(X) = IE((X − IE(X))2 )
n’est pas un op´rateur lin´aire. On peut constater que par d´finition, c’est
e e e
un op´rateur positif. La condition n´cessaire et suffisante pour que V ar(X)
e e
soit nulle, est que X soit d´terministe c’est ` dire non al´atoire. On a de
e a e
plus des propri´t´s suivantes: si α ∈ IR, alors
ee
V ar(αX) = α2 V ar(X)
Si X et Y sont deux variables al´atoires ind´pendantes, alors
e e
V ar(X + Y ) = V ar(X) + V ar(Y )
et par cons´quent
e
V ar(αX + βY + γ) = α2 V ar(X) + β 2 V ar(Y ) + V ar(γ)
= α2 V ar(X) + β 2 V ar(Y ) + 0.
Si les variables al´atoires X et Y ne sont pas ind´pendantes, alors
e e
V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y )
o` Cov(X, Y ) = IE((X − IE(X))(Y − IE(Y ))) est la covariance entre X et Y .
u
On voit donc que lorsque les variables al´atoires ne sont pas ind´pendantes, il
e e
apparaˆ un terme suppl´mentaire dans le calcul de la variance. On pourrait
ıt e
ˆtre tent´ de prendre la covariance comme une mesure d’ind´pendance. Ceci
e e e
31
33. est en g´n´ral faux sauf dans le cas o` les va X et Y sont normalement
e e u
distribu´es. En r´sum´ :
e e e
si X et Y sont ind´pendantes alors Cov(X, Y ) = 0,
e
si Cov(X, Y ) = 0 et si X et Y sont des va gaussiennes alors X et Y sont
ind´pendantes.
e
La quantit´
e
Cov(X, Y )
ρ(X, Y ) =
V ar(X) V ar(Y )
est un nombre sans dimension appel´ coefficient de corr´lation
e e
lin´aire de Pearson. Nous voyons que si X et Y sont gaussi-
e
ennes et si ρ(X, Y ) = 0, alors les variables al´atoires X et Y
e
sont ind´pendantes. Nous l’utiliserons dans le paragraphe suiv-
e
ant consacr´ ` la loi normale ` 2 dimensions.
ea a
2.4 Lois ` deux dimensions
a
2.4.1 G´n´ralit´s
e e e
Tout comme dans le cas unidimensionnel, les lois ` plusieurs dimensions sont
a
caract´ris´es par leur
e e
- fonction de r´partition,
e
- densit´,
e
- moments.
On appelle fonction de r´partition du couple de va (X, Y ) la probabilit´
e e
de v´rification simultan´e des deux in´galit´s (X x) et (Y y):
e e e e
F (x, y) = P ((X x)(Y y)).
En interpr´tant le couple (X, Y ) comme un point al´atoire dans le plan, on
e e
voit que la fonction de r´partition F (x, y) n’est rien d’autre que la probabilit´
e e
pour que le point al´atoire (X, Y ) appartienne au quadrant de sommet le
e
point (x, y), situ´ ` gauche et en bas de celui-ci (cf fig 2.8).
ea
32
34. F(x,y)=P((X@ x) et (Y@ y))
y
x
Figure 2.8: La probabilit´ F (x, y) s’interpr`te comme la probabilit´ pour que
e e e
le point al´atoire (X, Y ) appartienne au quadrant de sommet le point (x, y),
e
situ´ ` gauche et en bas de celui-ci
ea
1) Cette interpr´tation g´om´trique, permet de voir que si x augmente, ou si
e e e
y augmente, la fonction F (x, y) augmente aussi.
2) Partout en −∞ la fonction de r´partition est ´gale ` z´ro :
e e a e
F (x, −∞) = F (−∞, y) = F (−∞, −∞) = 0.
Pour avoir cette propri´t´, il suffit de d´placer ind´finiment la limite sup´rieure
ee e e e
(ou la limite droite ) du quadrant de la figure pr´c´dente vers −∞; la prob-
e e
abilit´ de tomber dans ce quadrant tend alors vers 0.
e
3) Lorsque un des arguments vaut +∞, la fonction de r´partition du cou-
e
ple de va devient alors une fonction de r´partition correspondant ` l’autre
e a
33
35. argument :
F (x, +∞) = F1 (x), F (+∞, y) = F2 (y),
o` F1 (x), F2 (y) sont respectivement les fonctions de r´partition des vari-
u e
ables al´atoires X et Y . On peut facilement s’en rendre compte en faisant
e
x −→ +∞, ou y −→ +∞ ; ` la limite le quadrant devient un demi-plan,
a
la probabilit´ de tomber dans ce demi-plan est donn´e par la fonction de
e e
r´partition de la variable respective.
e
4) Si les deux arguments sont ´gaux ` +∞, la fonction de r´partition du
e a e
couple de va est ´gale ` 1 :
e a
F (+∞, +∞) = 1.
En effet, on obtient alors le plan tout entier et le point (X, Y ) s’y trouve
certainement. De fa¸on analogue, le point (X, Y ) peut se trouver dans un
c
domaine quelconque D dans le plan. La probabilit´ P ((X, Y ) ∈ D) ne
e
s’exprime alors pas simplement ` partir de la fonction de r´partition F sauf
a e
dans quelques cas tr`s particuliers sur lesquels nous reviendrons.Densit´ de
e e
probabilit´e
Soit un couple de va continues (X, Y ) interpr´t´ comme un point al´atoire
ee e
de ce plan. Consid´rons dans ce plan un petit rectangle R∆ dont les cot´s
e e
sont ∆x et ∆y avec un sommet au point x, y.
La proba de tomber dans ce rectangle est
P ((X, Y ) ∈ R∆ )
= F (x + ∆x, y + ∆y) − F (x + ∆x, y) − F (x, y + ∆y) + F (x, y)
En divisant la proba de tomber dans le rectangle R∆ par l’aire de ce rectangle,
on obtient
P ((X, Y ) ∈ R∆ )
lim
∆x−
∆y−
→0
→0
∆x∆y
34
36. P((X , Y )∈ R∆ ) = F(x + ∆x, y + ∆y)-F(x + ∆ x, y)
-F(x, y + ∆ y) + F(x, y)
y+ y
R
y
x x+ x
Figure 2.9: La densit´ s’obtient en faisant des accroissements infinit´simaux
e e
de la fonction de r´partition
e
F (x + ∆x, y + ∆y) − F (x + ∆x, y) − F (x, y + ∆y) + F (x, y)
= lim
∆x−
∆y−
→0
→0
∆x∆y
Si on suppose que la fonction F est d´rivable, le second membre de la
e
pr´c´dente in´galit´ est alors la d´riv´e partielle seconde mixte de F . D´signons
e e e e e e e
cette d´riv´e par f (x, y):
e e
∂ 2 F (x, y)
f (x, y) = = Fxy (x, y)
∂x∂y
La fonction f est la densit´ de proba du couple (X, Y ), en d’autres termes,
e
P ((X, Y ) ∈ D) = f (x, y)dxdy
(x,y)∈D
De toutes les distributions de couple de va, la plus fr´quemment utilis´e est
e e
la loi normale aussi nous contenterons nous d’´tudier la loi normale.
e
35
37. 2.4.2 Loi normale a deux dimensions
Dans la suite, nous supposons que le couple (X, Y ) suit une loi normale
` deux dimensions. La loi normale ` deux dimensions est d´finies par 5
a a e
param`tres :
e
sa moyenne (mx , my ) et sa matrice de variance-covariance :
2
σx Cov(X, Y )
V = 2
Cov(X, Y ) σy
2 2
avec mx = IE(X), my = IE(Y ) et σx = V ar(X), σy = V ar(Y ).
On voit donc que si les va X et Y sont ind´pendantes, la matrice de variance-
e
covariance est diagonale.
Si on note ρ le coefficient de correlation entre X et Y , la densit´ de la loi
e
normale ` deux dimensions s’exprime par la formule :
a
1
√
f (x, y) =
2πσx σy 1−ρ2
(x−mx )2 (y−my )2
1
exp − 2(1−ρ2 ) 2
σx
− 2ρ (x−mσx σy y ) +
x )(y−m
2
σy
Le graphe de cette fonction est repr´sent´ ` la figure 2.10.
e ea
En coupant la surface de r´partition par un plan parall`le au plan xOy, on
e e
obtient une courbe sur laquelle la densit´ est constante en chaque point. En
e
reprenant l’´quation de la densit´, on voit que la densit´ est constante si et
e e e
seulement si :
(x − mx )2 (x − mx )(y − my ) (y − my )2
2
− 2ρ + 2
= C2
σx σx σy σy
o` C est une constante. Vous reconnaissez l’´quation d’une ellipse de centre
u e
(mx , my ).
Si les va sont ind´pendantes (donc si ρ = 0), l’´quation de l’ellipse
e e
devient
(x − mx )2 (y − my )2
2
+ 2
= C2
σx σy
36
38. Figure 2.10: Densit´ de la loi normale ` 2 dimensions
e a
Ceci est l’´quation d’une ellipse dont les axes sont parall`les aux axes (x, y).
e e
2 2
Si de plus σx = σy on obtient alors l’´quation d’un cercle de centre (mx , my )
e
2
et de rayon Cσx .
Dans le cas g´n´ral o` ρ = 0, les axes de sym´trie de l’ellipse forme un angle
e e u e
θ avec l’axe Ox donn´ par
e
2ρσx σy
tg(2θ) = 2 2
.
σx − σy
En statistique, on s’interesse tr`s souvent ` des domaines dans lesquels on
e a
a un certain nombre de chances de trouver un point al´atoire donn´. On
e e
recherche par exemple des domaines D v´rifiant
e
P ((X, Y ) ∈ D) = 1 − α
37
39. o` α est un nombre fix´. Quand la loi du couple (X, Y ) est gaussienne, le
u e
plus simple est de rechercher le domaine D sous la forme d’une ellipse. On
recherche donc D tel que
P ((X, Y ) ∈ D) =1−α= (x,y)∈D
f (x, y)dxdy
1
√
= (x,y)∈D 2πσx σy 1−ρ2
2 (y−my )2
exp(− 2(1−ρ2 ) [ (x−mx ) − 2ρ (x−mσx σy y ) +
1
σ2
x )(y−m
2
σy
])dxdy
x
La recherche d’un tel domaine dans ce syst`me de coordonn´es est difficile
e e
aussi allons nous faire une rotation d’angle
1 2ρσx σy
θ = Arctg( 2 2
)
2 σx − σy
on obtient
1 1 (x − mx )2 (y − my )2
P ((X, Y ) ∈ D) = exp(− [ + ])dxdy
D 2π˜x σy
σ ˜ 2 ˜2
σx ˜2
σy
avec
σx = σx cos2 θ + ρσx σy sin2θ + σy sin2 θ
˜ 2
σy = σx sin2 θ − ρσx σy sin2θ + σy cos2 θ
˜ 2
apr`s un changement de variables trivial, en passant en coordonn´es polaires,
e e
on en d´duit que :
e
+π r0
1 −r 2
P ((X, Y ) ∈ D) = e 2 rdrdθ
2π −π 0
2 √
En conclusion il faut que α = e−r0 /2 soit r0 = −2 ln α.
L’ellipse ainsi obtenue est de centre (mx , my ) et fait un angle θ avec Ox et
la longueur des demi-axes est donn´e par r0 σx et r0 σy .
e ˜ ˜
38
40. Chapitre 3
Estimation
L’objet de ce chapitre n’est pas de donner une m´thode g´n´rale d’estimation,
e e e
mais plutˆt d’exposer quelques propri´t´s et d´finitions qui seront reprises
o ee e
par la suite.
3.1 G´n´ralit´s
e e e
L’estimation consiste ` rechercher la valeur num´rique d’un ou plusieurs
a e
param`tres inconnus d’une loi de probabilit´ ` partir d’observations (valeurs
e ea
prises par la v.a. qui suit cette loi de probabilit´). On utilise pour cela un
e
estimateur fonction de la v.a. ´tudi´e: quand la v.a. prend comme valeur
e e
l’observation, la valeur de l’estimateur est appel´e estimation. L’exemple
e
suivant illustre ces d´finitions. On s’interesse au GMQ des porcs . Sup-
e
posons que ce GMQ que nous noterons X est distribu´ normalement, en
e
2
d’autres termes que X suit une loi N(m, σ ), o` m repr´sente le GMQ moyen
u e
2
de toute la population de porcs et σ la variance de la distribution des GMQ.
Les param`tres m et σ 2 sont inconnus, l’objet de l’estimation est de trouver
e
une valeur “raisonnable” pour ces param`tres. Deux possibilit´s s’offrent `
e e a
nous:- soit on peut mesurer le GMQ de tous les porcs de la population et,
dans ce cas, les param`tres m et σ 2 seront parfaitement connus,- soit la pop-
e
ulation est trop grande, et, on est oblig´ de travailler sur un ´chantillon.Cet
e e
39
41. ´chantillon va nous donner des informations sur les vraies valeurs (celles de la
e
population) de m et σ 2 . Supposons que l’on ait ´tudi´ le GMQ (en grammes)
e e
sur un ´chantillon de taille n=10. Notons X1 , X2 ...X10 , le GMQ des porcs
e
N ◦ 1, N ◦ 2...N ◦ 10 de cet ´chantillon.
e
e ¯
La moyenne de l’´chantillon (not´e X) est une “approximation” de la moyenne
e
¯
m de la population. X = n n Xi est un estimateur de m.
1
i=1
Num porc 1 2 3 4 5 6 7 8 9 10
GMQ (g) 500 530 560 510 620 560 540 610 600 580
Table 3.1: Table des Gains Moyens Quotidiens observ´s sur un ´chantillon
e e
de 10 porcs
Le mot estimateur se r´f`re au proc´d´ de calcul utilis´ pour approximer
ee e e e
1 10
m.¯ = 10 i=1 xi = 561 est une estimation de m.
x
Le mot estimation se r´f`re ` la valeur num´rique utilis´e pour approximer.
ee a e e
En g´n´ral un estimateur est une variable al´atoire, en d’autres termes
e e e
l’estimation du param`tre d´pend des individus pr´sents dans l’´chantillon.
e e e e
Si un autre ´chantillon avait ´t´ consid´r´, une autre estimation du param`tre
e ee ee e
aurait ´t´ obtenue. Le choix de l’estimateur se fait selon des crit`res qui
ee e
mesurent sa proximit´ au param`tre inconnu. Nous allons dans ce qui suit
e e
pr´senter la liste des crit`res les plus souvent utilis´s pour d´finir les “qualit´s
e e e e e
” d’un estimateur.
3.2 Estimateur convergent
Une des propri´t´s ´l´mentaires que doit remplir un estimateur est d’ˆtre
e e ee e
convergent. En d’autres termes, lorsque la taille de l’´chantillon tend vers
e
l’infini, il faut que l’estimateur se “rapproche” du param`tre qu’il estime.
e
Il existe plusieurs fa¸ons de mesurer cette proximit´ qui donnent lieu ` la
c e a
d´finition de plusieurs types de convergence. Notre objectif n’´tant pas ici
e e
de faire un cours de statistiques fondamentales, nous nous bornerons ` citer
a
40
42. les principaux types de convergence et ` les illustrer ` l’aide des deux exem-
a a
ples suivants :
exemple 1 :
Soient X1 , . . . , Xn , n variables al´atoires de mˆme loi N (m, σ 2 ). On s’interesse
e e
` la convergence de la moyenne empirique X
a ¯ n = 1 n Xi vers m.
n i=1
exemple 2 :
Soit X une variable al´atoire distribu´e selon une loi B(n, p). On s’interesse
e e
` la convergence de pn = X/n vers p.
a ˆ
Dans un cadre plus g´n´ral, nous noterons Tn un estimateur du param`tre θ
e e e
obtenu ` partir d’un ´chantillon de taille n qui v´rifie pour tout n, IE(Tn ) = θ
a e e
(cf paragraphe suivant).
D´finition :L’estimateur Tn est convergent en moyenne quadratique si :
e
V ar(Tn ) −→ 0
quand n −→ ∞.
Rappelons que la variance d’une variable al´atoire est d´finie par V ar(Tn ) =
e e
2 2
IE(Tn −IE(Tn )) = IE(Tn −θ) . Dire que Tn converge en moyenne quadratique
signifie en fait que lorsque n tend vers l’infini la distance moyenne qui s´pare
e
Tn de θ tend vers 0.
¯ 2
Il est facile d’´tablir que V ar(Xn ) = σ . Par cons´quent lorsque n −→ ∞,
e e
n
¯
V ar(Xn ) −→ 0.
De mˆme V ar(ˆn ) = p(1−p) tend vers 0 quand n tend vers ∞.
e p n
D´finition :L’estimateur Tn est convergent en probabilit´ si : pour tout
e e
ε 0 fix´ la quantit´
e e
P ( Tn − θ ε)
tend vers 0 quand n tend vers ∞
Ce type de convergence peut s’interpr´ter de la fa¸on suivante : Supposons
e c
que l’on se fixe un intervalle de largeur 2ε centr´ sur θ. Supposons de plus
e
que nous disposons d’un grand nombre de r´alisations de Tn (obtenu avec
e
un grand nombre d’´chantillons de taille n). On s’interesse au pourcentage
e
de ces r´alisations qui “tombent” dans en dehors de cet intervalle. Alors,
e
l’estimateur Tn converge en probabilit´ vers θ si ce pourcentage tend vers 0
e
41