Introduction au statistiques inférentielle

Introduction ` la statistique
a
inf´rentielle
e

Didier Concordet
Unit´ de Biom´trie
e e
Ecole V´t´rinaire de Toulouse
ee

Sommaire

1 Statistiques descriptives 7
1.1 Description num´rique . . . . . . .
e . . . . . . . . . . . . . . . 7
1.1.1 Param`tres de position . . .
e . . . . . . . . . . . . . . . 8
1.1.2 Param`tres de dispersion . .
e . . . . . . . . . . . . . . . 10
1.1.3 Param`tres de forme . . . .
e . . . . . . . . . . . . . . . 11
1.2 Description graphique . . . . . . . . . . . . . . . . . . . . . . 12
1.2.1 Description de la densit´ . .
e . . . . . . . . . . . . . . . 12
1.2.2 Description de la fonction de r´partition
e . . . . . . . . 13

2 Le zoo des lois de probabilit´ e 17
2.1 Lois de probabilit´ discr`tes . . . . . . . . . . . .
e e . . . . . . . 18
2.1.1 Loi de Bernoulli . . . . . . . . . . . . . . . . . . . . . . 21
2.1.2 Loi binomiale . . . . . . . . . . . . . . . . . . . . . . . 21
2.1.3 Loi hypergóm´trique . . . . . . . . . . . .
e e . . . . . . . 23
2.1.4 Loi de Poisson ou loi des ´vńements rares
e e . . . . . . . 24
2.1.5 Loi binomiale n´gative . . . . . . . . . . .
e . . . . . . . 26
2.1.6 Loi de Pascal . . . . . . . . . . . . . . . . . . . . . . . 27
2.2 Quelques lois de probabilit´ continues . . . . . . .
e . . . . . . . 28
2.2.1 Quelques d´finitions pr´liminaires . . . . .
e e . . . . . . . 28
2.2.2 Loi normale ou de Laplace Gauss . . . . . . . . . . . . 30
2.2.3 Loi du χ2 . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.2.4 Loi de Student . . . . . . . . . . . . . . . . . . . . . . 34
2.2.5 Loi de Fisher . . . . . . . . . . . . . . . . . . . . . . . 34
2.3 Quelques remarques sur l’op´rateur IE . . . . . .
e . . . . . . . 35

1

2.4 Lois ` deux dimensions . . . . . . . . . . . . . . . . . . . . . . 36
a
2.4.1 Gń´ralit´s . . . . . . . . . . . . . . . . . . . . . . . . 36
e e e
2.4.2 Loi normale a deux dimensions . . . . . . . . . . . . . 40

3 Estimation 43
3.1 Gń´ralit´s . . . . . . . . . . . . . . . . .
e e e . . . . . . . . . . . 43
3.2 Estimateur convergent . . . . . . . . . . . . . . . . . . . . . . 44
3.3 Estimateur sans biais . . . . . . . . . . . . . . . . . . . . . . . 46
3.4 Estimateur de variance minimum . . . . . . . . . . . . . . . . 48
3.5 Une m´thode gń´rale d’estimation :
e e e
le maximum de vraisemblance . . . . . . . . . . . . . . . . . . 50
3.6 Une bricole sur le thór`me central limit .
e e . . . . . . . . . . . 52
3.7 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.7.1 Estimation des param`tres d’une loi
e normale . . . . . . 53
3.7.2 Estimation d’un pourcentage . . . . . . . . . . . . . . . 57

4 Tests d’hypotheses 61
4.1 Gń´ralit´s . . . . . . . . . . . . . . . . .
e e e . . . . . . . . . . . 61
4.2 Hypoth`se . . . . . . . . . . . . . . . . . .
e . . . . . . . . . . . 63
4.3 D´finition des risques . . . . . . . . . . . .
e . . . . . . . . . . . 64
4.4 Ce qu’il ne faudrait pas croire . . . . . . . . . . . . . . . . . . 67
4.5 Tests param´triques et non param´triques
e e . . . . . . . . . . . 68
4.6 Quelques remarques . . . . . . . . . . . . . . . . . . . . . . . . 68

5 Tests classiques 71
5.1 Comparaisons portant sur les variances . . . . . . . . . . . . . 71
5.1.1 Comparaison d’une variance ` une valeur d´terministe
a e 71
5.1.2 Comparaison de deux variances . . . . . . . . . . . . . 72
5.1.3 Comparaison de plusieurs variances . . . . . . . . . . . 72
5.2 Comparaisons portant sur les moyennes . . . . . . . . . . . . . 74
5.2.1 Comparaison d’une moyenne ` une valeur donné m0 .
a e 75
5.2.2 Comparaison de deux moyennes . . . . . . . . . . . . . 76
5.3 Comparaisons portant sur les proportions . . . . . . . . . . . . 79

2

5.3.1 Comparaison d’une proportion ` une valeur donné
a e . . 79
5.4 Comparaison de deux proportions . . . . . . . . . . . . . . . . 80
5.5 Test de conformit´ a une loi de proba . . . . . . . . . . . .
e . . 83
5.5.1 Test de Kolmogorov-Smirnov (KS) . . . . . . . . . . . 83
5.5.2 Test du χ2 pour une loi normale . . . . . . . . . . . . . 84
5.6 Comparaisons multiples . . . . . . . . . . . . . . . . . . . . . 85
5.6.1 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.6.2 Analyse de la variance . . . . . . . . . . . . . . . . . . 87
5.6.3 Estimation des param`tres . . . . . . . . . . . . . .
e . . 88
5.7 Tests d’hypoth`ses (param´triques) . . . . . . . . . . . . .
e e . . 91
5.7.1 M´thode des contrastes . . . . . . . . . . . . . . . .
e . . 92
5.7.2 Orthogonalit´ et ind´pendance . . . . . . . . . . . .
e e . . 93
5.7.3 Plus petite diff´rence significative (PPDS) . . . . .
e . . 94
5.7.4 M´thode de Bonferroni . . . . . . . . . . . . . . . .
e . . 96
5.7.5 M´thode de Newman-Keuls . . . . . . . . . . . . .
e . . 97
5.7.6 M´thode de Duncan . . . . . . . . . . . . . . . . .
e . . 99
5.7.7 M´thode de Tuckey . . . . . . . . . . . . . . . . . .
e . . 99
5.7.8 M´thode de Dunnett . . . . . . . . . . . . . . . . .
e . . 99
5.8 Quelques tests non parametriques . . . . . . . . . . . . . . . . 100
5.8.1 Tests sur ćhantillons appari´s . . . . . . . . . . . .
e e . . 101
5.8.2 Tests sur ćhantillons ind´pendants . . . . . . . . .
e e . . 102

3

Chapitre 1

Statistiques descriptives

L’objet de ce chapitre est de pr´senter bri`vement la premi`re ´tape de
e e e e
l’analyse des donnés : la description. L’objectif poursuivi dans une telle
e
analyse est de 3 ordres :
tout d’abord, obtenir un contrˆle des donnés et ´liminer les donnés aber-
o e e e
rantes ensuite, r´sumer les donnés (op´ration de r´duction) sous forme
e e e e
graphique ou num´rique, enfin, ´tudier les particularit´s de ces donnés
e e e e
ce qui permettra ´ventuellement de choisir des m´thodes plus complexes.
e e
Les m´thodes descriptives se classent en deux cat´gories qui souvent sont
e e
compl´mentaires : la description num´rique et la description graphique.
e e

1.1 Description num´rique
e
Avant de donner des d´finitions formelles de tous les indices, nous les cal-
e
culerons sur la s´rie de donnés suivante (GMQ de porcs exprim´s en g):
e e e

x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
737 630 573 615 718 620 820 763 786 529
Nous noterons n la taille de la s´rie de donnés, ici n = 10
e e

4

1.1.1 Param`tres de position
e
Les param`tres de position, aussi appel´s valeurs centrales, servent ` car-
e e a
act´riser l’ordre de grandeur des donnés.
e e
• moyenne arithm´tique :
e
Elle est plus souvent appelé moyenne, et est en gń´ral noté x, elle est
e e e e ¯
calculé en utilisant la formule:
e
n
1
x=
¯ xi
n i=1

Dans notre exemple,¯ = 679.
x
• moyenne góm´trique
e e
La moyenne góm´trique (¯g ) est toujours inf´rieure (ou ´gale) ` la moyenne
e e x e e a
arithm´tique. Elle est donné par:
e e

n 1/n

xg =
¯ xi
i=1

Dans notre exemple, xg = 672.6
¯
On peut remarquer que
n
1
log(¯g ) =
x log(xi )
n i=1

en d’autres termes, le log de la moyenne góm´trique est la moyenne arithm´tique
e e e
du log des donnés. Elle est tr`s souvent utilisé pour les donnés distribués
e e e e e
suivant une loi log normale (par exemple les comptages cellulaires du lait).
• moyenne harmonique
La moyenne harmonique (¯h ) est toujours inf´rieure (ou ´gale) ` la moyenne
x e e a
góm´trique, elle est en gń´ral utilisé pour calculer des moyennes sur des
e e e e e
intervalles de temps qui s´parent des ´vńements. Elle est donné par:
e e e e
n
xh =
¯ n 1
i=1 xi

5

Dans notre exemple,¯h = 666.05
x
On peut remarquer que
n
1 1 1
= .
xh
¯ n i=1
xi
• m´diane
e
La m´diane x est la valeur telle que la moiti´ des observations lui sont
e ˜ e
sup´rieures (ou ´gales) et la moiti´ inf´rieures (ou ´gales). Il est clair que
e e e e e
la m´diane existe pour toutes les distributions (ce qui n’est pas le cas de la
e
moyenne) de plus, elle est peu sensible aux valeurs extrˆmes.
e
Lorsque le nombre d’observations est pair, la m´diane n’est pas d´finie de
e e
fa¸on unique. La valeur usuellement retenue est la moyenne des observations
c
de rang n et de rang n + 1 Dans notre exemple x = 674.
2 2
˜
• les quartiles
Les quartiles sont au nombre de trois. La m´diane est le deuxi`me.
e e
Le premier quartile q1 est la valeur telle que 75% des observations lui sont
sup´rieures (ou ´gales) et 25% inf´rieures (ou ´gales).
e e e e
Lorsqu’il n’est pas d´fini de fa¸on unique, on utilise gń´ralement la moyenne
e c e e
des observations qui l’encadrent pour le calculer. Dans notre exemple, q1 =
615.
Le troisi`me quartile q3 est la valeur telle que 25% des observations lui sont
e
sup´rieures (ou ´gales) et 75% inf´rieures (ou ´gales).
e e e e
Lorsqu’il n’est pas d´fini de fa¸on unique, on utilise la moyenne des observa-
e c
tions qui l’encadrent pour le calculer. Dans notre exemple, q3 = 763.
• le mode
est la (ou les) valeur(s) pour laquelle les effectifs sont maximums, il est en
gń´ral assez difficile de l’´valuer (quand il existe) sur des ćhantillons de
e e e e
petite taille.
• les extrˆmes
e
Ce sont les minimum et maximum de l’ćhantillon qui ici valent respective-
e
ment 529 et 820.
La moyenne n’est pas toujours le meilleur indice pour d’ćrire la
e
position des donnés, tout d´pend de la forme de la distribution.
e e

6

En effet, pour des distributions non sym´triques ou multimodales,
e
il est souvent pr´f´rables de donner les percentiles qui sont plus
ee
facile ` interpr´ter.
a e

1.1.2 Param`tres de dispersion
e
Ces param`tres (comme leur nom l’indique) mesurent la dispersion des donnés.
e e
• la variance
Elle est d´finie comme la moyenne des carr´s des ćarts ` la moyenne, soit:
e e e a
n
1
ˆ2
σn = (xi − x)2
¯
n i=1

Il est aussi possible d’en donner la d´finition suivante:
e
n n
1
ˆ2
σn = (xi − xj )2
2n2 i=1 j=1

On voit donc, que la variance est proportionnelle ` la somme des carr´s de
a e
toutes les diff´rences possibles entre les observations.
e
Cette d´finition de la variance n’est pas utilisé en pratique pour une raison
e e
que nous verrons au chapitre suivant. En fait, on utilise la d´finition suivante
e
n
1
ˆ2
σn−1 =S = 2
(xi − x)2
¯
n−1 i=1

La variance s’exprime dans l’unit´ au carr´ des donnés ; dans notre exemple,
e e e
2 2
la variance vaut :ˆn−1 = 9664.989g
σ
• l’ćart type
e
est la racine carré de la variance. il vaut ici:ˆn−1 = 93.26g Utilisez le ` bon
e σ a
escient (cf TD)
• l’´tendue ou amplitude
e
est d´finie comme la diff´rence entre la maximum et le minimum, soit ici
e e
:820 − 529 = 291g
• la distance inter-quartile

7

est d´finie comme la diff´rence entre q3 et q1 , soit:763 − 615 = 148
e e
• le coefficient de variation
est d´finie comme le rapport entre l’ćart type et la moyenne.
e e

S2
CV =
x
¯

1.1.3 Param`tres de forme
e
Les logiciels de statistiques fournissent gń´ralement les param`tres Skewness
e e e
et Kurtosis construits ` partir des moments centr´s d’ordre 2,3 et 4 qui
a e
mesurent respectivement la sym´trie et l’aplatissement de la distribution dont
e
l’ćhantillon est issu.
e
Pour une loi normale centré r´duite, ces coefficients sont nuls.
e e
Les moments centr´s d’ordre 3 et 4 sont d´finis par:
e e
n
1
m3 = (xi − x)3
¯
n i=1

n
1
m4 = (xi − x)4
¯
n i=1

A partir de ces d´finitions, les param`tres Skewness et Kurtosis sont respec-
e e
tivement d´finis par:
e
m3
γ1 = 3
s
m4
γ2 = 4 − 3
s
Dans notre exemple,γ1 = −0.037 et γ2 = −1.339
Le param`tre γ1 est nul pour une distribution sym´trique. Le graphique
e e
suivant montre un exemple de distribution avec un γ1 positif et n´gatif. Le
e
param`tre γ2 est nul pour une loi normale. Le graphique suivant montre un
e
exemple de distribution avec un γ1 positif et n´gatif.
e

8

1.2 Description graphique
Les graphiques pr´sent´s dans ce paragraphe dćrivent d’une part la densit´
e e e e
de la distribution et d’autre part la fonction de r´partition de la distribution.
e

1.2.1 Description de la densit´
e
Histogramme (cf fig 1.1)

30 0.2

Proportion per Bar
20
Count

0.1

10

0 0.0
4 5 6 7 8
Variable à étudier

Figure 1.1: Histogramme d’une variable quantitative. La variable quan-
titative est dćoupé en classes repr´sentés en abscisse. Le pourcentage
e e e e
(et/ou le nombre) de donnés de l’ćhantillon appartenant ` chaque classe
e e a
est repr´sent´ en ordonné. L’inconvńient majeur de cette repr´sentation
e e e e e
graphique est l’arbitraire dans le choix des classes.

9

Stem and leaf
4 3
4 4445
4 666677
4 88888999999
5 H 0000000000111111111
5 22223
5 4444445555555
5 66666677777777
5 M 8888888999
6 000000111111
6 2222333333333
6 H 444444455555
6 6677777777
6 8889999
7 01
7 2223
7 4
7 67777
7 9
C’est un de mes graphiques pr´f´r´s. Il s’agit d’un histogramme fait avec
eee
des chiffres. Les donnés sont classés par ordre croissant. Le minimum de
e e
l’ćhantillon est 4.3 (premi`re ligne du stem). La deuxi`me ligne nous indique
e e e
que l’ćhantillon contient 3 valeurs qui apr`s arrondi valent 4.4 et une valeur
e e
´gale (apr`s arrondi) ` 4.5. Le maximum vaut 7.9. Les H nous indiquent
e e a
les classes qui contiennent respectivement les premier et troisi`me quartiles
e
tandis que le M nous donne la classe qui contient la m´diane. On en d´duit
e e
que 25% des donnés sont inf´rieures ` 5.0 ou 5.1, 50 % sont inf´rieures ` 5.8
e e a e a
ou 5.9 et 25% sont sup´rieures ` 6.4 ou 6.5.
e a

1.2.2 Description de la fonction de r´partition
e
Qplot (Quantile plot) ou encore fonction de r´partition empirique (cf fig 1.2)
e

10

1.0
0.9
Fraction of Data 0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
4 5 6 7 8
Variable étudiée

Figure 1.2: Ce graphique est homog`ne au graphique des fr´quences cu-
e e
mulés pour une variable qualitative. La variable ´tudié est repr´senté sur
e e e e e
l’axe des abscisses. L’axe des ordonnés donne le pourcentage de donnés de
e e
l’ćhantillon inf´rieures ou ´gales ` l’abscisse.
e e e a

Pplot (Probability plot) aussi appel´ dans le cas de la loi normale droite de
e
Henry. (cf fig 1.3). Toutes les fonctions de r´partition se ressemble, ce sont
e
des courbes croissantes en gń´ral sigmo¨
e e ıdale. En bref, elles ne permettent
pas facilement d’identifier une loi. L’idé des Pplot est de d´former l’axe
e e
des ordonnés de telle fa¸on que si la loi empirique est proche de la loi que
e c
l’on cherche ` identifier alors les points sont ` peu pr´s align´s. Le Pplot
a a e e
le plus courant est la droite de Henry qui permet de reconnaˆ la loi nor-
ıtre
male. Formellement voil` comment cela marche. Notons F
a ˆ (x) la fonction
de r´partition empirique construite avec notre ćhantillon. On pense que
e e
cette fonction de r´partition est proche de la fonction de r´partition de la loi
e e

11

normale N (m, σ 2 ) (cf paragraphe refgauss0 pour plus de d´tails). On pense
e
ˆ (x)
donc que F Φ σ x−m
o` Φ est la fonction de r´partition de la la loi
u e
ˆ
normale N (0, 1). Si F (x) Φ x−m alors Φ−1 F (x) ˆ x−m
. En d’autres
σ σ
ˆ
termes, si F (x) est proche de la fonction de r´partition de la loi normale
e
alors le graphique de Φ −1 ˆ (x) contre x devrait nous donner une droite
F
d’´quation x−m . Les points devraient donc se situer autour de cette droite si
e σ
la distribution est gaussienne (aux eﬀets de bords pr´s).
e

3
Expected Value for Normal Distribution

2

1

0

-1

-2

-3
4 5 6 7 8
Variable étudiée

Figure 1.3: Ce graphique nous montre clairement que cette distribution ne
peut pas ˆtre consid´r´e comme gaussienne, il y a trop de courbure.
e ee

12

Chapitre 2

Le zoo des lois de probabilit´
e

Une des notions fondamentales des statistiques est celle de variable alátoire.
e
On consid`re un ensemble d’individus qui sera appel´ Ω. Un individu de cet
e e
ensemble sera not´ ω. On note X(ω) une caract´ristique de l’individu ω. Par
e e
exemple, Ω est l’ensemble des bact´ries que l’on trouve dans du lait de mam-
e
mites, ω est une bact´rie particuli`re et X(ω) est type de la bact´rie ω. La
e e e
quantit´ X(.) est appelé variable alátoire (en gń´ral on note v.a.). Les
e e e e e
valeurs possibles que peut prendre X(ω) quand ω ∈ Ω d´termine la nature
e
1
de la variable alátoire. Ainsi, si X(ω) prend ses valeurs dans IR, on parlera
e
de variable alátoire continue, si X(.) prend ses valeurs dans un ensemble
e
fini ou dńombrable, X(.) sera alors appelé v.a. discr`te.
e e e
En r´sum´,
e e

X : Ω −→ E
ω −→ X(ω)

Quelques exemples de variables alátoires :
e
1) le nombre d’´tudiants pr´sents au cours de stat ;
e e
2) le nombre de vaches qui ont une mammite dans un ´levage ;
e
3) le pourcentage de rússite aux examens ;
e
4) le temps pendant lequel un animal est porteur d’une maladie ;
1
Pour simplifier les notations, on note gń´ralement X au lieu de X(ω). Par la suite,
e e
cet abus de notation sera abondamment utilisé

13

5) la temp´rature d’un chien;
e
6) les concentrations en fer et en cuivre dans le sang d’un animal sain.

Les trois premi`res v.a. sont discr`tes, et ne peuvent prendre que des
e e
valeurs qu’il est possible d’ńum´rer d’avance. En revanche, les v.a. 4),
e e
5), 6) sont continues. La variable alátoire 6) est une va ` deux dimen-
e a
sions. Nous adopterons dorńavant la convention suivante : les lettres ma-
e
juscules d´signeront les variables alátoires, les lettres minuscules d´signeront
e e e
les valeurs que peuvent prendre les variables alátoires.
e
L’´tude des lois de probabilit´ usuelles est en fait l’´tude de la distribution
e e e
des valeurs que peut prendre une variable alátoire.
e

2.1 Lois de probabilit´ discr`tes
e e
Pour compl`tement d´finir une loi de probabilit´ d’une va discr`te X, il suffit
e e e e
de d´finir la probabilit´ d’occurrence de chaque valeur k que peut prendre
e e
cette va. En d’autres termes, la donné des quantit´s P (X = k) et ceci pour
e e
toutes les valeurs k possibles d´terminent une loi de proba particuli`re. De
e e
fa¸on ´quivalente, pour compl`tement caract´riser une loi de proba, il suffit
c e e e
de d´finir sa fonction de r´partition , d´finie par :
e e e

F (n) = P (X ≤ k).
k≤n

Cette fonction s’interpr`te comme la probabilit´ que la va X soit au plus
e e
´gale ` n. C’est ´videmment une fonction positive et croissante (on ajoute
e a e
des probabilit´s qui sont des quantit´s positives ou nulles). Pour illustrer ce
e e
qu’elle repr´sente, prenons un petit exemple. Supposons que X est le nombre
e
de clients d’un v´t´rinaire le mardi matin. La va X est discr`te et ne peut
ee e
prendre que les valeurs k = 0, 1, . . . , 10. Supposons de plus que la distribution
de X est donné par
e

k 0 1 2 3 4 5 6 7 8 9 10
P (X = k) 0.01 0.03 0.09 0.14 0.17 0.17 0.15 0.11 0.07 0.04 0.02

14

alors la fonction de r´partition est donné par
e e

n 0 1 2 3 4 5 6 7 8 9 10
F (n) 0.01 0.04 0.13 0.27 0.45 0.62 0.77 0.88 0.94 0.98 1.00

Fonction de Répartition

1
0.9
0.8
0.7
0.6
F(n)

0.5
0.4
0.3
0.2
0.1
0
0 1 2 3 4 5 6 7 8 9 10
n

Figure 2.1: Fonction de r´partition du nombre de clients d’un v´t´rinaire le
e ee
mardi matin

Il est bien ´vident que si le nombre de valeurs que peut prendre la vari-
e
able alátoire est tr`s ´lev´, il peut ˆtre tr`s fastidieux (voire impossible)
e e e e e e
de donner toutes ces probabilit´s. Or, comme nous allons le voir, les lois
e
de proba usuelles sont en fait d´finies par un petit nombre de param`tres
e e
: les moments de la loi de proba. Pour d´finir les moments, nous avons
e
besoin d’un op´rateur appel´ esp´rance math´matique qui est not´ IE. Cet
e e e e e

15

op´rateur plac´ devant une variable alátoire, fournit la moyenne de cette
e e e
variable, ainsi la quantit´ IE(X) est d´finie par
e e

IE(X) = kP (X = k)
k

Dans notre exemple, le nombre de clients moyen du v´t´rinaire le mardi
ee
matin est donn´ par
e

IE(X) = 0 × 0.01 + 1 × 0.03 + 2 × 0.09 + 3 × 0.14 + 4 × 0.17 + 5 × 0.17 +
6 × 0.15 + 7 × 0.11 + 8 × 0.07 + 9 × 0.04 + 10 × 0.02 = 4.95

Plus gń´ralement, on peut d´finir l’esp´rance math´matique de n’importe
e e e e e
quelle fonction Φ (ayant de bonnes propri´t´s) de la va X ainsi,
ee

IE(Φ(X)) = Φ(k)P (X = k)
k

On peut maintenant d´finir le moment d’ordre p par :
e

IE(X p ) = k p P (X = k).
k

Le moment centr´ d’ordre p est d´fini par
e e

mp = IE((X − IE(X))p ) = (k − IE(X))p P (X = k).
k

Vous connaissez d´j` le moment centr´ d’ordre 2 qui est aussi appel´ vari-
ea e e
ance. Nous reviendrons un peu plus loin sur l’interpr´tation pratique de cet
e
indice ainsi que sur celle des moments centr´s d’ordre 3 et 4. Dans l’exemple
e
prć´dent, la variance du nombre de clients du mardi matin est donné par
e e e

IE((X − IE(X))2 ) = (0 − 4.95)2 × 0.01 + (1 − 4.95)2 × 0.03 + (2 − 4.95)2 × 0.09 +
(3 − 4.95)2 × 0.14 + (4 − 4.95)2 × 0.17 + (5 − 4.95)2 × 0.17 +
(6 − 4.95)2 × 0.15 + (7 − 4.95)2 × 0.11 + (8 − 4.95)2 × 0.07 +
(9 − 4.95)2 × 0.04 + (10 − 4.95)2 × 0.02 = 4.6275

Nous pouvons maintenant passer ` l’inventaire des lois de probabilit´s les
a e
plus courantes.

16

2.1.1 Loi de Bernoulli
C’est la loi de probabilit´ la plus simple: l’individu ω peut se trouver dans
e
deux ´tats (en gń´ral not´s 0 et 1).
e e e e
Exemple : Ω est l’ensemble des bact´ries dans du lait de mammite, ω est une
e
bact´rie particuli`re, X(ω) = 0 si la bact´rie ω est gram (-) et, X(ω) = 1
e e e
si la bact´rie ω est gram (+). La loi de probabilit´ de X est enti`rement
e e e
d´terminé par la seule donné du nombre P (X(ω) = 0) = p qui permet
e e e
de d´duire que P (X(w) = 1) = 1 − p. On dit alors que la v.a. X suit
e
une loi de BERNOULLI de param`tre p. On peut interpr´ter p dans notre
e e
exemple comme la probabilit´ qu’une bact´rie donné soit gram (-). La loi
e e e
de BERNOULLI nous sera essentiellement utile pour d´finir d’autres lois de
e
probabilit´.
e

2.1.2 Loi binomiale
Une v.a. qui suit une loi binomiale ne peut prendre qu’un nombre fini de
valeurs que nous noterons N . Pour illustrer l’utilisation de la loi binomiale,
prenons l’ exemple suivant : supposons que la pr´valence de la dysplasie de
e
la hanche chez le CN est de p (la proportion de CN non porteur de cette
anomalie est donc de 1 − p). A l’ćole v´t´rinaire, il passe par an N CN,
e ee
on note X le nombre de CN porteurs de la dysplasie de la hanche parmi les
N trait´s ` l’ćole. On suppose que l’ćole a une chance ´gale d’ˆtre choisie
e a e e e e
comme centre de traitement par les propri´taires de CN ` dysplasie de la
e a
hanche. Alors,

P (X = k) = CN pk (1 − p)N −k et ceci pour k = 0, 1...N.
k

k N!
CN = est le nombre de “paquets de k que l’on peut faire parmi
k!(N − k)!
N ”.
k
Une propri´t´ ´l´mentaire de CN est
e eee

CN = CN −k .
k N

17

Le nombre moyen de CN porteur de la dysplasie que l’on peut trouver au
cours d’une anné ` l’ćole v´to est donn´ par IE(X) = N p. En d’autres
e a e e e
termes si la pr´valence de la dysplasie de la hanche est de p = 0.1, et s’il passe
e
dans les cliniques de l’ćole N = 500 CN par an, on trouvera en moyenne
e
N p = 500 0.1 = 50 CN porteurs de cette anomalie. Il est bien ´vident que
e
le nombre de CN porteurs trouv´s sur les 500 examin´s par an ne sera pas
e e
toujours ´gal ` 50. Il y a donc des variations de CN porteurs qui seront
e a
observ´s ` l’ćole. Un indice mesure ces variations c’est la variance. La
e a e
variance d’une loi binomiale est donné par
e

V ar(X) = N p(1 − p).

Tr`s souvent la quantit´ 1−p est noté q ; ceci explique le fait que V ar(X) =
e e e
N pq.Quand X suit une loi binomiale de param`tre N et p on note
e

X ∼ B(N, p).

Le graphique 2.2 montre les formes caract´ristiques d’une loi binomiale en
e
fonction des valeurs du param`tre p.
e

Remarque Il existe une autre fa¸on de construire la loi binomiale. Voyons
c
sur l’exemple des bact´ries comment proc´der.
e e
On consid`re N bact´ries. Chaque bact´rie a une probabilit´ p d’ˆtre gram (-
e e e e e
), ` chaque bact´rie on fait correspondre une v.a. de Bernoulli de param`tre
a e e
p qui prend la valeur 0 si elle est gram (-) et 1 si elle est gram (+). On
appelle Xi la variable alátoire attaché ` la ii`me bact´rie. En supposant
e e a e
e
que les bact´ries sont ind´pendantes on a:
e e
n
X= Xi ∼ B(n, p).
i=1

X repr´sente ici le nombre total de bact´ries gram (+) parmi les N con-
e e
sid´rés.
ee

18

0.45

0.4

0.35
p=0.1
0.3 p=0.2
p=0.3
0.25 p=0.4
P(X=k)

p=0.5
0.2

0.15

0.1

0.05

0
0 1 2 3 4 5 6 7 8 9 10 k

Figure 2.2: Forme de la loi binomiale pour diff´rentes valeurs du param`tre
e e
p.

2.1.3 Loi hypergóm´trique
e e
Pour bien faire comprendre la loi hypergóm´trique prenons un petit exemple.
e e
Supposons que vous ayez ` ´valuer la pr´valence des mammites de la vache
ae e
en Midi-Pyrńés. On sait que dans cette r´gion il y a N vaches. Parmi ces
e e e
vaches N1 sont atteintes et N2 sont saines (on a ´videmment N1 + N2 = N.)
e
Vous ne pouvez pas contrˆler toutes les vaches de Midi-Pyrńés, vous ˆtes
o e e e
donc oblig´ de prendre un ćhantillon de taille n < N. On appelle X le nom-
e e
bre de vaches ` mammite que vous avez trouv´ dans votre ćhantillon. X 2
a e e
est une quantit´ alátoire, en effet, si vous faites plusieurs fois des ćhantillons
e e e
de taille n, vous ne retrouvez pas ` chaque fois le mˆme nombre de vaches
a e
atteintes. On s’interesse aux probabilit´s suivantes P (X = k) k varie entre
e
n
0 et N1 ∧ n. Il y a CN fa¸ons de tirer un ćhantillon de taille n parmi les N
c e
vaches de M.P.
2
X est ici mis pour X(ω). ω repr´sente un tirage de n vaches
e

19

k
CN1 est le nombre de fa¸ons de tirer k vaches ` mammites parmi les N1
c a
n−k
pr´sentes en M.P. et enfin CN2 est le nombre de fa¸ons de tirer n − k vaches
e c
saines parmi N2 pr´sentes en M.P.
e
On en d´duit que
e
cas probables k n−k
CN CN
P (X = k) = = 1
n
CN
2
si k ≤ N1 et n − k ≤ N2
cas possibles
= 0 sinon

La variable alátoire X suit une loi hypergóm´trique. Quand X suit une loi
e e e
hypergóm´trique de param`tres N, n, N1 on note,
e e e
N1
X ∼ H(N, n, ).
N
Sa moyenne est donné par
e
N1
IE(X) = n
N
et sa variance par
N1 N2 N − n
V ar(X) = n
N N N −1
On peut noter que lorsque N −→ ∞, si N1 −→ p (p est le pourcentage vache
N
atteintes pr´sentes parmi les N ` contrˆler) alors
e a o
N1
H(N, n, ) −→ B(n, p).
N
En d’autres termes, si le nombre total de vaches en MP est tr`s ´lev´, on peut
e e e
utiliser la loi binomiale (plus simple) ` la place de la loi hypergóm´trique.
a e e

2.1.4 Loi de Poisson ou loi des ´vńements rares
e e
Une va qui suit une loi de poisson peut prendre une infinit´ de valeurs.
e
On dit que la va X suit une loi de poisson de param`tre λ, et on note
e
X ∼ P(λ), si
λk
P (X = k) = e−λ , k = 0, 1, ...
k!

20

La moyenne d’une va qui suit une loi de poisson est ´gale ` IE(X) = λ, sa
e a
variance est V ar(X) = λ.
Le graphique ci-dessous montre les diff´rentes formes de distribution d’une
e
loi de poisson en fonction de la valeur du param`tre
e

0.4

0.35

0.3
¤¢
£ ¡
¦¢
¥ ¡
0.25
¨¢
§ ¡
P(X=k)

0.2 ¢¢
© ¡
¦¢
¡
0.15

0.1

0.05

0
0 2 4 6 8 10 12 14
k

Figure 2.3: Loi de poisson pour diff´rentes valeurs de λ
e

La loi de poisson est souvent utilisé pour approximer certaines lois discr`tes.
e e
On l’appelle aussi loi des ´vńements rares. En effet, si X est le nombre de fois
e e
o` apparaˆ un ´vńement de probabilit´ tr`s petite (p), alors la loi de X peut
u ıt e e e e
ˆtre approximé par une loi de poisson. Prenons un exemple pour illustrer ce
e e
phńom`ne. Soit une maladie dont la pr´valence est tr`s petite (p = 0.01) On
e e e e
tire un ćhantillon de taille 100 et on s’interesse ` la distribution du nombre
e a

21

de sujets atteints trouv´s dans l’ćhantillon (not´ X). En d’autres termes,
e e e
on veut calculer

(Bi) P (X = k) = C100 (0.01)k (1 − 0.01)100−k .
k

Il est bien ´vident que le calcul d’une telle probabilit´ n’est pas si facile `
e e a
k
cause du terme C100 (pour vous en convaincre essayez de calculer avec votre
50
calculette C100 ). L’idé est alors d’approximer la quantit´ (Bi) par une
e e
quantit´ plus facilement calculable:
e
(100 × 0.01)k
P (X = k) = C100 (0.01)k (1 − 0.01)100−k
k
e−100×0.01
k!
Plus gń´ralement, si X ∼ B(N, p), si N est grand, si p est petit et si N p
e e
est raisonnable on peut approximer la loi B(N, P ) par une loi de poisson de
param`tre λ = N p. Ces conditions sont ´videmment tr`s vagues. Les condi-
e e e
tions usuelles sous lesquelles on consid`re que la qualit´ de l’approximation
e e
est “raisonnable” sont les suivantes : N 30, et N p 5. D’autres valeurs
de ces param`tres peuvent ˆtre tout ` fait acceptables pour peu que vous ne
e e a
soyez pas trop regardant sur la qualit´ d’approximation de certaines proba-
e
bilit´s.
e
La loi de poisson est souvent utilisé pour mod´liser des quantit´s dont la
e e e
variance est ` peu pr´s ´gale ` la moyenne. Lorsque la variance est sup´rieure
a e e a e
` la moyenne, on utilise dans certains cas la loi Binomiale n´gative.
a e

2.1.5 Loi binomiale n´gative
e
Une va qui suit une loi binomiale n´gative peut prendre un nombre infini de
e
valeurs. On dit que la va X suit une loi binomiale n´gative de param`tre N
e e
et p si
k pk
P (X = k) = CN +k−1 , k = 0..
(1 + p)n+k
Sa moyenne est ´gale ` IE(X) = N p et sa variance V ar(X) = N p(1 + p). On
e a
peut remarquer que ces distributions sont d’autant plus surdispersés que
e
p est grand. Le graphique suivant montre comment varie les distributions
binomiales n´gatives quand p varie.
e

22

0.4

0.35

0.3 p=0.1
p=0.2
0.25 p=0.3
p=0.4
P(X=k)

0.2 p=0.5

0.15

0.1

0.05

0
0 2 4 6 8 10 12 14
k

Figure 2.4: Loi binomiale n´gative pour diff´rentes valeurs de p. Plus p
e e
augmente plus la loi est surdispersé
e

2.1.6 Loi de Pascal
Une va qui suit une loi de pascal peut prendre une infinit´ de valeurs. On
e
dit que la va X suit une loi de Pascal de param`tre p si
e

P (X = k) = p (1 − p)k−1 , k = 1, 2, ...

Pour illustrer son utilisation, reprenons l’exemple de la dysplasie de la hanche
chez le CN. Supposons que l’ćole a une chance ´gale d’ˆtre choisie comme
e e e
centre de traitement par les propri´taires de CN ` dysplasie de la hanche.
e a
Notons p la pr´valence de cette anomalie et X le nombre de CN ` examiner
e a

23

avant d’en trouver un atteint, alors si on pose q = 1 − p, on a:
P (X = 1) = p, P (X = 2) = pq..., P (X = k) = pq k−1 .
Le nombre moyen de CN ` examiner avant d’en trouver un atteint est
a
1
IE(X) = ,
p
la variance de ce nombre est
q
V ar(X) = .
p2

2.2 Quelques lois de probabilit´ continues
e
2.2.1 Quelques d´finitions pr´liminaires
e e
Dans l’´tude des lois de proba continues, il apparaˆ une nouvelle quantit´ :
e ıt e
la densit´ de probabilit´.
e e
Pour bien comprendre ce dont il s’agit, imaginons que l’on s’interesse ` l’´tude
a e
de la distribution de la taille des Fran¸ais. Pour ´tudier cette distribution, on
c e
fait des classes de tailles, et on compte le pourcentage d’individus qui apparti-
ennent ` cette classe. Une repr´sentation graphique de cette distribution est
a e
donné par l’histogramme qui sera revu au chapitre suivant.Supposons main-
e
tenant que le nombre d’individus de la population d’int´rˆt (ici les Fran¸ais)
ee c
est infini. Un histogramme avec un nombre fini de classes nous donne une
pi`tre information sur la distribution de la taille. Pour ˆtre plus prćis on
e e e
augmente le nombre de classes et on diminue la taille de chaque classe. On
obtient ainsi un histogramme plus prćis. Que se passe t-il quand le nom-
e
bre de classes tend vers l’infini et que la taille de chaque classe tend vers z´ro ?
e
On obtient une courbe limite, cette courbe limite est en fait une repr´sentation
e
graphique d’une fonction (noté f ) que nous appellerons densit´ de proba-
e e
bilit´.
e
Il est clair que par construction, cette fonction poss`de un certain nombre de
e
propri´t´s:
ee
- elle est positive ou nulle (en effet la valeur de cette fonction en un point x

24

repr´sente en quelque sorte le pourcentage d’individus qui mesure x)
e
- la surface totale sous cette courbe est ´gale ` 1 ; la surface sous la courbe
e a
repr´sente le pourcentage cumul´ de tous les individus (par d´finition il vaut
e e e
1).
La fonction de r´partition F est d´finie ` partir de la densit´ de proba de la
e e a e
fa¸on suivante :
c
x
F (x) = f (t)dt
−∞

La quantit´ F (x) repr´sente donc le cumul des pourcentages d’individus dont
e e
la taille est inf´rieure ` x. Ce constat nous permet de d´finir la fonction de
e a e
r´partition par
e
F (x) = P (X ≤ x).
Par d´finition F (x) est donc toujours un nombre compris entre z´ro et un,
e e
et la fonction x −→ F (x) est une fonction croissante (c’est un cumul de
pourcentages). De plus on a F (+∞) = 1 (on l’a d´j` dit) et F (−∞) = 0.
ea
Soit ∆x un accroissement infinit´simal de la taille, alors la quantit´
e e
F (x + ∆x) − F (x)
∆x
repr´sente en quelque sorte le pourcentage d’individus dont la taille est com-
e
prise entre x et x + ∆x, et en faisant tendre ∆x −→ 0 on obtient
F (x + ∆x) − F (x)
lim = f (x).
∆x→0 ∆x
En d’autres termes, la d´rivé de la fonction de r´partition est la densit´
e e e e
de probabilit´.Tout comme dans le cas discret, il est possible de d´finir les
e e
moments d’une loi de probabilit´. Ce sont en gń´ral ces quantit´s dont nous
e e e e
nous servirons en statistique pour travailler. Le moment d’ordre 1 d’une loi
de probabilit´ est d´fini quand il existe 3 par
e e

IE(X) = xf (x)dx
IR
3
Il existe certaines lois de proba dont les moments sont infinis par exemple la loi de
Cauchy

25

On reconnaˆ ici l’analogue continu de la d´finition donné dans le paragraphe
ıt e e
prć´dent. Il suffit en effet de changer le signe par le signe
e e pour retrouver
la mˆme formule. De mˆme, le moment centr´ d’ordre p est d´fini par
e e e e

mp = IE((X − IE(X))p ) = (x − IE(X))p f (x)dx
IR
Le moment centr´ d’ordre 2 est aussi appel´ variance, les moments centr´s
e e e
d’ordre 3 et 4 sont respectivement appel´s kurtosis et skewness.
e

2.2.2 Loi normale ou de Laplace Gauss
La loi normale joue un rˆle particuli`rement important dans la thórie des
o e e
probabilit´s et dans les applications pratiques. La particularit´ fondamen-
e e
tale de la loi normale la distinguant des autres lois est que c’est une loi
limite vers laquelle tendent les autres lois pour des conditions se rencontrant
fr´quemment en pratique.On peut montrer que la somme d’un nombre suff-
e
isamment grand de va ind´pendantes (ou faiblement liés) suivant des lois
e e
quelconques (ou presque), tend vers une loi normale et ceci avec d’autant
plus de prćision que le nombre de termes de cette somme est important.
e
La majorit´ des va que l’on rencontre en pratique, comme par exemple des
e
erreurs de mesures, peuvent souvent ˆtre consid´rés comme des sommes
e ee
d’un nombre important de termes, erreurs ´l´mentaires, dues chacune ` une
ee a
cause diff´rente ind´pendante des autres. Quelque soit la loi des erreurs
e e
´l´mentaires, les particularit´s de ces r´partitions n’apparaissent pas dans la
ee e e
somme d’un grand nombre de celles-ci, la somme suivant une loi voisine de
la loi normale.
La loi normale est caract´risé par sa densit´ de probabilit´. Pour une loi
e e e e
2
normale de moyenne m et de variance σ , elle est donné par
e
1 (x−m)2
f (x) = √ e− 2σ2 .
2πσ
La courbe repr´sentative de la densit´ a la forme d’une courbe en cloche
e e
sym´trique. Le graphique 2.5 montre comment varie la densit´ d’une loi nor-
e e
male, quand la variance est fixé, en fonction de sa moyenne (ici m1 m2 .)
e

26

Le graphique 2.6 montre comment varie la densit´ d’une loi normale ( `
e a
moyenne fixé) quand la variance augmente : Les variances des lois I, II,
e
III sont de plus en plus ´levés.
e e

m1 m2

Figure 2.5: Un exemple de deux lois normales. Les deux lois ont la mˆme
e
variance. La moyenne m1 de la premi`re loi est inf´rieure ` celle m2 de la
e e a
seconde

La fonction de r´partition de la loi normale est d´finie ` partir de la densit´
e e a e
par :
x
1 (t−m)2
F (x) = √ e− 2σ2 dt = P (X x) = P (X ≤ x).
−∞ 2πσ

27

Loi I
Loi II
Loi III

Figure 2.6: Les trois lois ont la mˆme moyenne. Les variances des lois I, II,
e
III sont de plus en plus ´levés.
e e

Cette derni`re propri´t´ traduit góm´triquement le fait qu’une probabilit´
e ee e e e
peut s’interpr´ter comme la surface sous la courbe densit´ comme l’indique
e e
le graphique 2.7:

Il n’existe pas d’expression alg´brique donnant l’aire sous la courbe en fonc-
e
tion de x. Il faut donc utiliser des valeurs tabulés. Comme il est impossible
e
d’avoir autant de tables que de valeurs possibles de m et de σ 2 , on a recours
a l’astuce suivante :
supposons que X est une va suivant une loi normale de moyenne m et de
X −m
variance σ 2 (on note X ∼ N (m, σ 2 ), alors la quantit´ e suit une loi
σ
N (0, 1). On en d´duit que si F repr´sente la fonction de r´partition de la
e e e

28

F(x)=P(X@ x)

x

Figure 2.7: Une probabilit´ s’interpr`te comme la surface sous la courbe
e e
repr´sentant la densit´
e e

N (m, σ 2 ) et Φ la fonction de r´partition de la N (0, 1) alors :
e

P (a X b) = F (b) − F (a) = P (a − m X − m b − m)
= P ( a−m
σ
X−m
σ
b−m
σ
) = Φ( b−m ) − Φ( a−m ).
σ σ

remarque : Par d´ﬁnition Φ est une fonction croissante et on a Φ(+∞) = 1
e
et Φ(−∞) = 0.

2.2.3 Loi du χ2
Cette loi nous sera tr`s utile pour ´tudier la distribution des variances.
e e
Elle est construite ` partir de la loi normale de la fa¸on suivante : Soient
a c

29

X1 , X2 , . . . , Xn n va ind´pendantes de mˆme loi N(0,1), et soit
e e
n
2 2 2
K= X1 + X2 + ... + Xn = Xi2
i=1

alors, K suit une loi du Khi 2 ` n degr´s de libert´ (K ∼ χ2 ). On peut
a e e n
2
remarquer qu’une va qui suit une loi du χ est par construction toujours
positive ou nulle (c’est une somme de carr´s). La densit´ de probabilit´
e e e
2
d’une loi du χ est asym´trique (reportez vous aux tables que je vous ai
e
donnés pour en avoir une idé).
e e

2.2.4 Loi de Student
La loi de Student est construite ` partir de la loi normale et de la loi du Khi
a
2. Nous l’utiliserons intensivement pour faire des tests d’hypoth`ses.
e
2
Soient X une va de loi N(0,1), et K une va qui suit une loi du χn (Khi 2 ` na
degr´s de libert´). On suppose de plus que K et X sont ind´pendantes. Soit
e e e

X
Tn = ,
K
n

alors Tn suit une loi de student ` n degr´s de libert´.
a e e

2.2.5 Loi de Fisher
Tout comme la loi de student, la loi de Fisher sera tr`s utilisé par la suite.
e e
Voyons en rapidement sa construction.
Soient K1 et K2 deux variables alátoires ind´pendantes de loi respectives
e e
2 2
χn et χp , alors la quantit´
e
K1 /n
Fn,p =
K2 /p
suit une loi de Fisher ` n et p degr´s de libert´. Il faut faire tr`s attention `
a e e e a
l’ordre des degr´s de libert´. Le premier degr´ de libert´ (ici n) est le degr´
e e e e e
de libert´ du num´rateur, alors que le second (p) est celui du dńominateur.
e e e

30

2.3 Quelques remarques sur l’op´rateur IE
e
L’op´rateur IE est un op´rateur lináire en d’autres termes, si X et Y sont
e e e
des va avec de ”bonnes propri´t´s”, et si α, β et γ sont des réls, alors
ee e

IE(αX + βY + γ) = αIE(X) + βIE(Y ) + γ

et ceci que les variables alátoires X et Y soient ind´pendantes ou pas. En
e e
revanche, l’op´rateur variance (not´ Var) construit avec l’op´rateur IE de la
e e e
fa¸on suivante
c
V ar(X) = IE((X − IE(X))2 )
n’est pas un op´rateur lináire. On peut constater que par d´finition, c’est
e e e
un op´rateur positif. La condition nćessaire et suffisante pour que V ar(X)
e e
soit nulle, est que X soit d´terministe c’est ` dire non alátoire. On a de
e a e
plus des propri´t´s suivantes: si α ∈ IR, alors
ee

V ar(αX) = α2 V ar(X)

Si X et Y sont deux variables alátoires ind´pendantes, alors
e e

V ar(X + Y ) = V ar(X) + V ar(Y )

et par cons´quent
e

V ar(αX + βY + γ) = α2 V ar(X) + β 2 V ar(Y ) + V ar(γ)
= α2 V ar(X) + β 2 V ar(Y ) + 0.

Si les variables alátoires X et Y ne sont pas ind´pendantes, alors
e e

V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y )
o` Cov(X, Y ) = IE((X − IE(X))(Y − IE(Y ))) est la covariance entre X et Y .
u
On voit donc que lorsque les variables alátoires ne sont pas ind´pendantes, il
e e
apparaˆ un terme suppl´mentaire dans le calcul de la variance. On pourrait
ıt e
ˆtre tent´ de prendre la covariance comme une mesure d’ind´pendance. Ceci
e e e

31

est en gń´ral faux sauf dans le cas o` les va X et Y sont normalement
e e u
distribués. En r´sum´ :
e e e
si X et Y sont ind´pendantes alors Cov(X, Y ) = 0,
e
si Cov(X, Y ) = 0 et si X et Y sont des va gaussiennes alors X et Y sont
ind´pendantes.
e

La quantit´
e
Cov(X, Y )
ρ(X, Y ) =
V ar(X) V ar(Y )
est un nombre sans dimension appel´ coefficient de corr´lation
e e
lináire de Pearson. Nous voyons que si X et Y sont gaussi-
e
ennes et si ρ(X, Y ) = 0, alors les variables alátoires X et Y
e
sont ind´pendantes. Nous l’utiliserons dans le paragraphe suiv-
e
ant consacr´ ` la loi normale ` 2 dimensions.
ea a

2.4 Lois ` deux dimensions
a
2.4.1 Gń´ralit´s
e e e
Tout comme dans le cas unidimensionnel, les lois ` plusieurs dimensions sont
a
caract´risés par leur
e e
- fonction de r´partition,
e
- densit´,
e
- moments.
On appelle fonction de r´partition du couple de va (X, Y ) la probabilit´
e e
de v´rification simultané des deux in´galit´s (X x) et (Y y):
e e e e

F (x, y) = P ((X x)(Y y)).

En interpr´tant le couple (X, Y ) comme un point alátoire dans le plan, on
e e
voit que la fonction de r´partition F (x, y) n’est rien d’autre que la probabilit´
e e
pour que le point alátoire (X, Y ) appartienne au quadrant de sommet le
e
point (x, y), situ´ ` gauche et en bas de celui-ci (cf fig 2.8).
ea

32

F(x,y)=P((X@ x) et (Y@ y))
y

x

Figure 2.8: La probabilit´ F (x, y) s’interpr`te comme la probabilit´ pour que
e e e
le point alátoire (X, Y ) appartienne au quadrant de sommet le point (x, y),
e
situ´ ` gauche et en bas de celui-ci
ea

1) Cette interpr´tation góm´trique, permet de voir que si x augmente, ou si
e e e
y augmente, la fonction F (x, y) augmente aussi.
2) Partout en −∞ la fonction de r´partition est ´gale ` z´ro :
e e a e

F (x, −∞) = F (−∞, y) = F (−∞, −∞) = 0.

Pour avoir cette propri´t´, il suffit de d´placer ind´finiment la limite sup´rieure
ee e e e
(ou la limite droite ) du quadrant de la figure prć´dente vers −∞; la prob-
e e
abilit´ de tomber dans ce quadrant tend alors vers 0.
e
3) Lorsque un des arguments vaut +∞, la fonction de r´partition du cou-
e
ple de va devient alors une fonction de r´partition correspondant ` l’autre
e a

33

argument :
F (x, +∞) = F1 (x), F (+∞, y) = F2 (y),
o` F1 (x), F2 (y) sont respectivement les fonctions de r´partition des vari-
u e
ables alátoires X et Y . On peut facilement s’en rendre compte en faisant
e
x −→ +∞, ou y −→ +∞ ; ` la limite le quadrant devient un demi-plan,
a
la probabilit´ de tomber dans ce demi-plan est donné par la fonction de
e e
r´partition de la variable respective.
e
4) Si les deux arguments sont ´gaux ` +∞, la fonction de r´partition du
e a e
couple de va est ´gale ` 1 :
e a

F (+∞, +∞) = 1.

En effet, on obtient alors le plan tout entier et le point (X, Y ) s’y trouve
certainement. De fa¸on analogue, le point (X, Y ) peut se trouver dans un
c
domaine quelconque D dans le plan. La probabilit´ P ((X, Y ) ∈ D) ne
e
s’exprime alors pas simplement ` partir de la fonction de r´partition F sauf
a e
dans quelques cas tr`s particuliers sur lesquels nous reviendrons.Densit´ de
e e
probabilité
Soit un couple de va continues (X, Y ) interpr´t´ comme un point alátoire
ee e
de ce plan. Consid´rons dans ce plan un petit rectangle R∆ dont les cot´s
e e
sont ∆x et ∆y avec un sommet au point x, y.

La proba de tomber dans ce rectangle est

P ((X, Y ) ∈ R∆ )

= F (x + ∆x, y + ∆y) − F (x + ∆x, y) − F (x, y + ∆y) + F (x, y)
En divisant la proba de tomber dans le rectangle R∆ par l’aire de ce rectangle,
on obtient
P ((X, Y ) ∈ R∆ )
lim
∆x−
∆y−
→0
→0
∆x∆y

34

P((X , Y )∈ R∆ ) = F(x + ∆x, y + ∆y)-F(x + ∆ x, y)
-F(x, y + ∆ y) + F(x, y)

y+ y
R

y

x x+ x

Figure 2.9: La densit´ s’obtient en faisant des accroissements infinit´simaux
e e
de la fonction de r´partition
e

F (x + ∆x, y + ∆y) − F (x + ∆x, y) − F (x, y + ∆y) + F (x, y)
= lim
∆x−
∆y−
→0
→0
∆x∆y
Si on suppose que la fonction F est d´rivable, le second membre de la
e
prć´dente in´galit´ est alors la d´rivé partielle seconde mixte de F . D´signons
e e e e e e e
cette d´rivé par f (x, y):
e e
∂ 2 F (x, y)
f (x, y) = = Fxy (x, y)
∂x∂y
La fonction f est la densit´ de proba du couple (X, Y ), en d’autres termes,
e

P ((X, Y ) ∈ D) = f (x, y)dxdy
(x,y)∈D

De toutes les distributions de couple de va, la plus fr´quemment utilisé est
e e
la loi normale aussi nous contenterons nous d’´tudier la loi normale.
e

35

2.4.2 Loi normale a deux dimensions
Dans la suite, nous supposons que le couple (X, Y ) suit une loi normale
` deux dimensions. La loi normale ` deux dimensions est d´finies par 5
a a e
param`tres :
e
sa moyenne (mx , my ) et sa matrice de variance-covariance :
2
σx Cov(X, Y )
V = 2
Cov(X, Y ) σy
2 2
avec mx = IE(X), my = IE(Y ) et σx = V ar(X), σy = V ar(Y ).
On voit donc que si les va X et Y sont ind´pendantes, la matrice de variance-
e
covariance est diagonale.
Si on note ρ le coefficient de correlation entre X et Y , la densit´ de la loi
e
normale ` deux dimensions s’exprime par la formule :
a
1
√
f (x, y) =
2πσx σy 1−ρ2
(x−mx )2 (y−my )2
1
exp − 2(1−ρ2 ) 2
σx
− 2ρ (x−mσx σy y ) +
x )(y−m
2
σy

Le graphe de cette fonction est repr´sent´ ` la figure 2.10.
e ea

En coupant la surface de r´partition par un plan parall`le au plan xOy, on
e e
obtient une courbe sur laquelle la densit´ est constante en chaque point. En
e
reprenant l’´quation de la densit´, on voit que la densit´ est constante si et
e e e
seulement si :
(x − mx )2 (x − mx )(y − my ) (y − my )2
2
− 2ρ + 2
= C2
σx σx σy σy
o` C est une constante. Vous reconnaissez l’´quation d’une ellipse de centre
u e
(mx , my ).

Si les va sont ind´pendantes (donc si ρ = 0), l’´quation de l’ellipse
e e
devient
(x − mx )2 (y − my )2
2
+ 2
= C2
σx σy

36

Figure 2.10: Densit´ de la loi normale ` 2 dimensions
e a

Ceci est l’´quation d’une ellipse dont les axes sont parall`les aux axes (x, y).
e e
2 2
Si de plus σx = σy on obtient alors l’´quation d’un cercle de centre (mx , my )
e
2
et de rayon Cσx .
Dans le cas gń´ral o` ρ = 0, les axes de sym´trie de l’ellipse forme un angle
e e u e
θ avec l’axe Ox donn´ par
e
2ρσx σy
tg(2θ) = 2 2
.
σx − σy

En statistique, on s’interesse tr`s souvent ` des domaines dans lesquels on
e a
a un certain nombre de chances de trouver un point alátoire donn´. On
e e
recherche par exemple des domaines D v´rifiant
e

P ((X, Y ) ∈ D) = 1 − α

37

o` α est un nombre fix´. Quand la loi du couple (X, Y ) est gaussienne, le
u e
plus simple est de rechercher le domaine D sous la forme d’une ellipse. On
recherche donc D tel que

P ((X, Y ) ∈ D) =1−α= (x,y)∈D
f (x, y)dxdy
1
√
= (x,y)∈D 2πσx σy 1−ρ2
2 (y−my )2
exp(− 2(1−ρ2 ) [ (x−mx ) − 2ρ (x−mσx σy y ) +
1
σ2
x )(y−m
2
σy
])dxdy
x

La recherche d’un tel domaine dans ce syst`me de coordonnés est difficile
e e
aussi allons nous faire une rotation d’angle
1 2ρσx σy
θ = Arctg( 2 2
)
2 σx − σy

on obtient
1 1 (x − mx )2 (y − my )2
P ((X, Y ) ∈ D) = exp(− [ + ])dxdy
D 2π˜x σy
σ ˜ 2 ˜2
σx ˜2
σy
avec

σx = σx cos2 θ + ρσx σy sin2θ + σy sin2 θ
˜ 2

σy = σx sin2 θ − ρσx σy sin2θ + σy cos2 θ
˜ 2

apr`s un changement de variables trivial, en passant en coordonnés polaires,
e e
on en d´duit que :
e
+π r0
1 −r 2
P ((X, Y ) ∈ D) = e 2 rdrdθ
2π −π 0

2 √
En conclusion il faut que α = e−r0 /2 soit r0 = −2 ln α.
L’ellipse ainsi obtenue est de centre (mx , my ) et fait un angle θ avec Ox et
la longueur des demi-axes est donné par r0 σx et r0 σy .
e ˜ ˜

38

Chapitre 3

Estimation

L’objet de ce chapitre n’est pas de donner une m´thode gń´rale d’estimation,
e e e
mais plutˆt d’exposer quelques propri´t´s et d´finitions qui seront reprises
o ee e
par la suite.

3.1 Gń´ralit´s
e e e
L’estimation consiste ` rechercher la valeur num´rique d’un ou plusieurs
a e
param`tres inconnus d’une loi de probabilit´ ` partir d’observations (valeurs
e ea
prises par la v.a. qui suit cette loi de probabilit´). On utilise pour cela un
e
estimateur fonction de la v.a. ´tudié: quand la v.a. prend comme valeur
e e
l’observation, la valeur de l’estimateur est appelé estimation. L’exemple
e
suivant illustre ces d´finitions. On s’interesse au GMQ des porcs . Sup-
e
posons que ce GMQ que nous noterons X est distribu´ normalement, en
e
2
d’autres termes que X suit une loi N(m, σ ), o` m repr´sente le GMQ moyen
u e
2
de toute la population de porcs et σ la variance de la distribution des GMQ.
Les param`tres m et σ 2 sont inconnus, l’objet de l’estimation est de trouver
e
une valeur “raisonnable” pour ces param`tres. Deux possibilit´s s’offrent `
e e a
nous:- soit on peut mesurer le GMQ de tous les porcs de la population et,
dans ce cas, les param`tres m et σ 2 seront parfaitement connus,- soit la pop-
e
ulation est trop grande, et, on est oblig´ de travailler sur un ćhantillon.Cet
e e

39

ćhantillon va nous donner des informations sur les vraies valeurs (celles de la
e
population) de m et σ 2 . Supposons que l’on ait ´tudi´ le GMQ (en grammes)
e e
sur un ćhantillon de taille n=10. Notons X1 , X2 ...X10 , le GMQ des porcs
e
N ◦ 1, N ◦ 2...N ◦ 10 de cet ćhantillon.
e
e ¯
La moyenne de l’ćhantillon (noté X) est une “approximation” de la moyenne
e
¯
m de la population. X = n n Xi est un estimateur de m.
1
i=1

Num porc 1 2 3 4 5 6 7 8 9 10
GMQ (g) 500 530 560 510 620 560 540 610 600 580

Table 3.1: Table des Gains Moyens Quotidiens observ´s sur un ćhantillon
e e
de 10 porcs

Le mot estimateur se r´f`re au proc´d´ de calcul utilis´ pour approximer
ee e e e
1 10
m.¯ = 10 i=1 xi = 561 est une estimation de m.
x
Le mot estimation se r´f`re ` la valeur num´rique utilisé pour approximer.
ee a e e
En gń´ral un estimateur est une variable alátoire, en d’autres termes
e e e
l’estimation du param`tre d´pend des individus pr´sents dans l’ćhantillon.
e e e e
Si un autre ćhantillon avait ´t´ consid´r´, une autre estimation du param`tre
e ee ee e
aurait ´t´ obtenue. Le choix de l’estimateur se fait selon des crit`res qui
ee e
mesurent sa proximit´ au param`tre inconnu. Nous allons dans ce qui suit
e e
pr´senter la liste des crit`res les plus souvent utilis´s pour d´finir les “qualit´s
e e e e e
” d’un estimateur.

3.2 Estimateur convergent
Une des propri´t´s ´l´mentaires que doit remplir un estimateur est d’ˆtre
e e ee e
convergent. En d’autres termes, lorsque la taille de l’ćhantillon tend vers
e
l’infini, il faut que l’estimateur se “rapproche” du param`tre qu’il estime.
e
Il existe plusieurs fa¸ons de mesurer cette proximit´ qui donnent lieu ` la
c e a
d´finition de plusieurs types de convergence. Notre objectif n’´tant pas ici
e e
de faire un cours de statistiques fondamentales, nous nous bornerons ` citer
a

40

les principaux types de convergence et ` les illustrer ` l’aide des deux exem-
a a
ples suivants :
exemple 1 :
Soient X1 , . . . , Xn , n variables alátoires de mˆme loi N (m, σ 2 ). On s’interesse
e e
` la convergence de la moyenne empirique X
a ¯ n = 1 n Xi vers m.
n i=1
exemple 2 :
Soit X une variable alátoire distribué selon une loi B(n, p). On s’interesse
e e
` la convergence de pn = X/n vers p.
a ˆ
Dans un cadre plus gń´ral, nous noterons Tn un estimateur du param`tre θ
e e e
obtenu ` partir d’un ćhantillon de taille n qui v´rifie pour tout n, IE(Tn ) = θ
a e e
(cf paragraphe suivant).
D´finition :L’estimateur Tn est convergent en moyenne quadratique si :
e

V ar(Tn ) −→ 0

quand n −→ ∞.
Rappelons que la variance d’une variable alátoire est d´finie par V ar(Tn ) =
e e
2 2
IE(Tn −IE(Tn )) = IE(Tn −θ) . Dire que Tn converge en moyenne quadratique
signifie en fait que lorsque n tend vers l’infini la distance moyenne qui s´pare
e
Tn de θ tend vers 0.
¯ 2
Il est facile d’´tablir que V ar(Xn ) = σ . Par cons´quent lorsque n −→ ∞,
e e
n
¯
V ar(Xn ) −→ 0.
De mˆme V ar(ˆn ) = p(1−p) tend vers 0 quand n tend vers ∞.
e p n
D´finition :L’estimateur Tn est convergent en probabilit´ si : pour tout
e e
ε 0 fix´ la quantit´
e e
P ( Tn − θ ε)
tend vers 0 quand n tend vers ∞
Ce type de convergence peut s’interpr´ter de la fa¸on suivante : Supposons
e c
que l’on se fixe un intervalle de largeur 2ε centr´ sur θ. Supposons de plus
e
que nous disposons d’un grand nombre de rálisations de Tn (obtenu avec
e
un grand nombre d’ćhantillons de taille n). On s’interesse au pourcentage
e
de ces rálisations qui “tombent” dans en dehors de cet intervalle. Alors,
e
l’estimateur Tn converge en probabilit´ vers θ si ce pourcentage tend vers 0
e

41

Introduction au statistiques inférentielle

Introduction au statistiques inférentielle

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to Introduction au statistiques inférentielle

Similar to Introduction au statistiques inférentielle (20)

More from Taha Can

More from Taha Can (20)

Introduction au statistiques inférentielle