Ce support de cours est largement inspiré du livre de Lafaye de Micheaux et al. (De Micheaux, Drouilhet, and Liquet 2011) ainsi que du cours de Statistique de Bernard Ycart de l’Université de Grenoble Alpes.
Si la série de valeurs est qualitative on fera un diagramme en barres : voir un exemple avec la figure 1.
Si la série de valeurs est quantitative :
Pour les variables quantitatives, on peut aussi représenter la fonction de répartition (empirique) notée \(\hat{F}(x)\): pour cela on calcule pour chaque point de l’axe des \(x\) ainsi : (voir exemple figure 4) \[\begin{align*} \hat{F}(x)=\frac{ \text{nombre de valeurs dans la série}\leqslant x}{n} \end{align*}\]
Les modes sont les valeurs de la variable \(X\) qui apparaissent le plus fréquemment. Il peuvent se calculer pour une variable de n’importe quel type, bien que pour une variable continue, on parle de classe modale.
La médiane d’une série statistique est la valeur \(m_e\) de la variable \(X\) qui partage cette série statistique en deux parties (inférieure et supérieure à \(m_e\)) de même effectif. Cette quantité ne se calcule pas sur des variables purement qualitatives. Pour la calculer, on distingue deux cas :
L’effectif total \(N\) est impair, alors \(m_e\) est la valeur située à la position \(\frac{N+1}{2}\)
L’effectif total \(N\) est pair, alors \(m_e\) est n’importe quelle valeur entre \(\frac N2\) et \(\frac N2 +1\).
Elle se calcule uniquement sur des variables quantitatives via la fonction mean().
Le fractile d’ordre \(p\) (\(0<p<1\)) est la valeur \(q_p\) de la variable \(X\) qui coupe l’échantillon en deux portions, l’une ayant un nombre d’éléments (inférieurs à \(q_p\)) égal à \(p\%\) du nombre total d’éléments et l’autre à \((1-p)\%\) étant supérieurs à \(q_p\). Il ne se calcule pas pour des variables purement qualitatives. Si on prend \(p=0.5\), on retrouve la définition de la médiane.
Ces résumés peuvent être calculés uniquement pour des variables quantitatives. Les principales sont :
La variable aléatoire \(X\) est discrète si et seulement si elle prend ses valeurs dans un ensemble dénombrable (pour faire simple, un ensemble fini ou \(\mathbb N\)).
On note \(X(\Omega)\), l’ensemble des valeurs prises par la variable aléatoire discrète. On appelle fonction de masse (de probabilités), la fonction suivante : \[\begin{equation} \forall k\in X(\Omega), \, P(X=k)=p_k \end{equation}\]
On a les propriétés suivantes :
\[\forall k\in X(\Omega), \, 0\leq p_k \leq 1\] et
\[\displaystyle\sum_{k\in X(\Omega)} p_k = 1\]
Exemple 1
On suppose que \(X\) suit une loi de Bernoulli de paramètre \(p\) : \(X\leadsto \mathcal B(p)\). \(X\) prend la valeur \(1\) avec la probabilité \(p\) et \(0\) avec la probabilité \(q=1-p\).
Exemple 2
On suppose que \(X\) suit une loi binomiale de paramètre \(n\) et \(p\), notée \(\mathcal B(n,p)\). Alors \(X(\Omega)=<0,n>=\{0,1,\ldots,n\}\), où \(n\in \mathbb N^\star\) et \(p\in[0,1]\). Les probabilités associées, notées \(p_k=P(X=k)\), sont :
\[ \forall k\in <0,n>, \, p_k=P(x=k)=C_n^k p^k (1-p)^{n-k} \]
On remarque que la somme des probabilités est égale à 1 (formule du binôme de Newton) :
\[ \sum_{k=0}^n p_k = \sum_{k=0}^n C_n^k p^k (1-p)^{n-k} = [p+(1-p)]^n = 1^n = 1 \]
Pour rappel, la formule du binôme de Newton est : \[ (a+b)^n = \sum_{k=0}^n C_n^k a^k b^{n-k} \] et où les coefficients du binôme (cf. triangle de Pascal) sont définis par :
\[ C_n^k = \dfrac{n!}{k!(n-k)!} \]
avec \(n!=n\times(n-1)\times(n-2)\times\ldots\times 2\times 1\) et par convention \(0!=1\).
On appelle fonction de répartition de \(X\) (f.d.r en français, c.d.f. en anglais pour cumulative density function) la fonction suivante \(F_X\) : \[ \forall x \in \mathbb R,\, F_X(x) = P(X\leq x) = \displaystyle \sum_{k:x_k\leq x} p_k \]
Remarquez que cette fonction est définie sur \(\mathbb R\).
Exemple
En reprenant l’exemple de la loi binomiale avec les paramètres, \(n=10\) et \(p=0.3\), on obtient :
curve(pbinom(x,size=10,prob = 0.3),type="S",from = -1,to=11,ylab="y",
main=" Fonction de répartition de la loi binomiale B(10,0.3)")
Remarque : Dans la figure ci-dessus, la représentation de la fonction de répartition laisse croire que cette fonction est continue, ce qui n’est pas du tout le cas. Par définition, cette fonction est une fonction en escalier, continue à droite, mais présentant des discontinuités en les modalités de la variable aléatoire.
Espérance de \(X\)
Soit \(X\) une variable aléatoire discrète de fonction de masse de probabilité \(\forall k\in X(\Omega),\, f(k)=p_k\). On appelle espérance de \(X\), que l’on note \(\mathbb E[X]\), la quantité suivante : \[ \mathbb E[X] = \sum_{k\in X(\Omega)} k p_k \]
Dans cette définition, on suppose que cette espérance est finie..
Exemple 1
On suppose que \(X\) suit une loi de Bernoulli de paramètre \(p\) : \(X\leadsto \mathcal B(p)\). On rappelle que \(X(\Omega)=\{0,1\}\) et \(P(X=1)=p\) et \(P(X=0)=1-p\).
L’espérance de \(X\) est : \[ \mathbb E[X] = \sum_{k\in X(\Omega)} k p_k = \sum_{k=0}^1 k p_k = 0*(1-p) + 1*p = p \] Exemple 2
On suppose que \(X\) suit une loi Binomiale de paramètre \(n\) et \(p\) : \(X\leadsto \mathcal B(n,p)\). On rappelle que \(X(\Omega)=\{0,1,\ldots,n\}\) et \(\forall k \in X(\Omega)\), \(P(X=k)=C_n^k p^k (1-p)^{n-k}\).
L’espérance de \(X\) est : \[ \begin{aligned} \mathbb E[X] &= \sum_{k\in X(\Omega)} k p_k = \sum_{k=0}^n k C_n^k p^k (1-p)^{n-k} \\ &=\sum_{k=0}^n k \frac{n!}{k!(n-k)!} p^k (1-p)^{n-k} \\ &=\sum_{k={\color{red} 1}}^n k \frac{n!}{k!(n-k)!} p^k (1-p)^{n-k} \\ &=\sum_{k=1}^n \frac{n!}{(k-1)!(n-k)!} p^k (1-p)^{n-k} \\ &=\color{red} n \sum_{k={\color{red} 0}}^{\color{red}{n-1}} \frac{(n-1)!}{{\color{red}{k!}}(n-({\color{red}{k+1}}))!} p^{{\color{red}{k+1}}} (1-p)^{n-({\color{red}{k+1}})}\\ &=np \sum_{k=0}^{n-1} \frac{(n-1)!}{k!(n-1-k)!} p^k (1-p)^{n-1-k}\\ &=np \sum_{k=0}^{n-1} C_{n-1}^k p^k (1-p)^{n-1-k}\\ &=np (p+1-p)^{n-1} = np \end{aligned} \] On aurait pu retrouver plus facilement cette formule, en se souvenant qu’une loi Binomiale est une somme de loi de Bernoulli indépendante et de même paramètre \(p\). Ainsi, si \(\forall i \in <1,n>\), \(X_i\) suivent une loi de Bernoulli, \(\mathcal B(p)\) et sont indépendants (et donc i.i.d.) alors \(X=\sum_{i=1}^n X_i\) suit une loi Binomiale, \(\mathcal B(n,p)\). Par conséquent, \[ \mathbb E[X] = \mathbb E[\sum_{i=1}^n X_i] = \sum_{i=1}^n \mathbb E[X_i] = \sum_{i=1}^n p = np \]
Exemple 3
On suppose que \(X\) suit une loi de Poisson de paramètre \(\lambda>0\) : \(X\leadsto \mathcal P(\lambda)\). On rappelle que \(X(\Omega)=\mathbb N\) et \[ \forall k\in\mathbb N,\, P(X=k) = e^{-\lambda} \frac{\lambda^k}{k!} \]
On peut vérifier que la somme des probabilités est égale à \(1\) : \[ \sum_{k=0}^{+\infty} p_k = \sum_{k=0}^{+\infty} e^{-\lambda} \frac{\lambda^k}{k!} = e^{-\lambda} \sum_{k=0}^{+\infty} \frac{\lambda^k}{k!} = e^{-\lambda} *e^{\lambda} = 1 \] L’espérance de \(X\) vaut : \[ \mathbb E[X] = \sum_{k=0}^{+\infty} k p_k = e^{-\lambda} \sum_{k=1}^{+\infty} k \frac{\lambda^k}{k!} = e^{-\lambda} \sum_{k=1}^{+\infty} \frac{\lambda^k}{(k-1)!} = \lambda e^{-\lambda} \sum_{k=1}^{+\infty} \frac{\lambda^{k-1}}{(k-1)!}= \lambda e^{-\lambda} * e^{\lambda} = \lambda \]
Variance
Soit \(X\) une variable aléatoire discrète de fonction de masse de probabilité \(\forall k\in X(\Omega),\, f(k)=p_k\). On appelle variance de \(X\), que l’on note \(\mathbb V[X]\), la quantité suivante : \[ \mathbb V[X] = \mathbb E[(X-\mathbb E[X])^2] =\mathbb E[X^2]-\mathbb E[X]^2 \] où \[ \mathbb E[X^2] = \sum_{k\in X(\Omega)} k^2 p_k \] en supposant que cette dernière somme est finie.
Exemple 1
En reprenant la loi de Bernoulli, on peut calculer le moment d’ordre \(2\) : \[ \mathbb E[X^2] = \sum_{k\in X(\Omega)} k^2 p_k = \sum_{k=0}^1 k^2 p_k = 0^2*(1-p) + 1^2*p = p \] La variance de \(X\) est donc : \[ \mathbb V[X] = \mathbb E[X^2] - \mathbb E[X]^2 = p - p^2 = p(1-p) \]
Exemple 2
En reprenant la loi Binomiale, \(\mathcal B(n,p)\), on peut calculer le moment d’ordre \(2\) : \[ \begin{aligned} \mathbb E[X^2] &= \sum_{k\in X(\Omega)} k^2 p_k = \sum_{k=0}^n k^2 p_k = \sum_{k=0}^n k^2 C_n^k p^k (1-p)^{n-k} \\ &= \sum_{k=1}^n k^2 \frac{n!}{k!(n-k)!} p^k (1-p)^{n-k} = \sum_{k=1}^n k \frac{n!}{(k-1)!(n-k)!} p^k (1-p)^{n-k} \\ &= \sum_{k=1}^n (k-1+1) \frac{n!}{(k-1)!(n-k)!} p^k (1-p)^{n-k} \\ &= \sum_{k=1}^n (k-1) \frac{n!}{(k-1)!(n-k)!} p^k (1-p)^{n-k} + \sum_{k=1}^n \frac{n!}{(k-1)!(n-k)!} p^k (1-p)^{n-k}\\ &= \sum_{k=2}^n \frac{n!}{(k-2)!(n-k)!} p^k (1-p)^{n-k} + \sum_{k=1}^n \frac{n!}{(k-1)!(n-k)!} p^k (1-p)^{n-k}\\ &= n(n-1) p^2 \sum_{k=2}^n \frac{(n-2)!}{(k-2)!(n-k)!} p^{k-2} (1-p)^{n-2-(k-2)} + np\sum_{k=1}^n \frac{(n-1)!}{(k-1)!(n-1-(k-1))!} p^{k-1} (1-p)^{n-1-(k-1)}\\ &= n(n-1) p^2 \sum_{k=0}^{n-2} \frac{(n-2)!}{k!(n-2-k)!} p^k (1-p)^{n-2-k} + np\sum_{k=0}^{n-1} \frac{(n-1)!}{k!(n-1-k)!} p^{k} (1-p)^{n-1-k}\\ &= n(n-1)p^2 (p+1-p)^{n-2} + np (p+1-p)^{n-1}\\ &= n(n-1)p^2 + np = np((n-1)p+1) \end{aligned} \] La variance de \(X\) est donc : \[ \mathbb V[X] = \mathbb E[X^2] - \mathbb E[X]^2 = np((n-1)p+1) - (np)^2 = np(np -p +1-np)=np(1-p) \] On aurait pu retrouver cette formule à partir des lois de Bernoulli. En reprenant les mêmes notations, on a \[ \mathbb V[X] = \mathbb V[\sum_{i=1}^n X_i] = \sum_{i=1}^n \mathbb V[X_i] = \sum_{i=1}^n p(1-p)=np(1-p) \] Attention, dans la formule ci-dessus, ne pas croire que la variance est un opérateur linéaire ce qui n’est pas du tout le cas ! En revanche, on rappelle que pour deux variables \(X\) et \(Y\) indépendantes, alors on a \(cov(X,Y)=0\) et donc : \[ \mathbb V[X+Y] = \mathbb V[X] + \mathbb V[Y] + 2 cov(X,Y) = \mathbb V[X] + \mathbb V[Y] \]
Exemple 3
En reprenant la loi de Poisson, on peut calculer le moment d’ordre \(2\) : \[ \mathbb E[X^2] = \sum_{k=0}^{+\infty} k^2 p_k = e^{-\lambda} \sum_{k=1}^{+\infty}k^2 \frac{\lambda^k}{k!} = e^{-\lambda} \sum_{k=1}^{+\infty}k \frac{\lambda^k}{(k-1)!} = e^{-\lambda} \sum_{k=1}^{+\infty}(k-1+1) \frac{\lambda^k}{(k-1)!} \]
\[ \mathbb E[X^2]=e^{-\lambda} \left [ \sum_{k=2}^{+\infty}(k-1) \frac{\lambda^k}{(k-1)!} + \sum_{k=1}^{+\infty}\frac{\lambda^k}{(k-1)!} \right ] = e^{-\lambda} \left [ \lambda^2\sum_{k=2}^{+\infty} \frac{\lambda^{k-2}}{(k-2)!} + \lambda \sum_{k=1}^{+\infty}\frac{\lambda^{k-1}}{(k-1)!} \right ] = \lambda^2+\lambda \] et donc \[\begin{equation} \mathbb V[X] = \mathbb E[X^2] - \mathbb E[X]^2 = \lambda^2+\lambda - \lambda^2 = \lambda \end{equation}\]
Définition de la loi jointe
On appelle la loi jointe, la loi du couple \((X,Y)\) définie par \[ P(X=x,Y=y) \]
Définition de la loi conditionnelle de \(Y\) sachant un évenement \(X=x\)
On appelle loi conditionnelle de \(Y\) sachant un évènement \(X=x\) (de probabilité non nulle), la loi suivante \[ P(Y=y|X=x) = \dfrac{P(X=x,Y=y)}{P(X=x)} \]
Définition de la loi marginale
On appelle loi marginale de \(X\), la loi de \(X\) que l’on peut calculer à partir de la loi jointe : \[ \forall x,\,P(X=x) = \sum_y P(X=x,Y=y) \]
Définition de la covariance
Soient \(X\) et \(Y\) deux variables aléatoires discrètes. On appelle covariance de \(X\) et \(Y\), notée \(cov(X,Y)\), la quantité suivante : \[ cov(X,Y)=\mathbb E[(X-\mathbb E[X])(Y-\mathbb E[Y]) ] \]
D’après la définition, on peut remarquer que la covariance est un opérateur bilinéaire. Voici les principales propriétés à connaître :
Propriétés de la covariance
- \(cov(X,a) = 0\)
- \(cov(X,Y) = cov(Y,X)\)
- \(cov(X,X) = var(X)\)
- \(cov(aX+bY,cZ+dT)=ac\, cov(X,Z)+ad \,cov(X,T) + bc \,cov(Y,Z) + bd \,cov(Y,T)\)
De ces propriétés, on peut en déduire que \[ var(X+Y) = var(X) + var(Y) + 2cov(X,Y) \]
Définition de l’indépendance en probabilités
On dit que \(X\) et \(Y\) sont indépendantes si \(\forall (x,y)\in \mathbb R^2\), \(P(X\leq x,Y\leq y) =P(X\leq x)P(Y\leq y)\)
Ainsi, si \(X\) et \(Y\) sont deux variables aléatoires indépendantes alors : \[ cov(X,Y)=0 \] Attention, la réciproque est fausse ! Un contre exemple facile est le suivant :
Exemple
Soit \(X\) une loi uniforme discrète sur \(\{-1,0,1\}\) : \[ P(X=-1)=P(X=0)=P(X=1)=1/3 \] L’espérance de \(X\) vaut \[ \mathbb E[X] = -1/3 + 0 + 1/3 = 0 \] Prenons maintenant \(Y=X^2\). On remarque facilement que \(Y\) suit une loi de Bernoulli de paramètre \(2/3\) : \[ P(Y=1) = P(\{X=-1\}\cup \{X=1\}) = P(X=-1)+P(X=1) = 2/3 \] et \[ P(Y=0) = P(X=0) = 1/3 \] L’espérance de \(Y\) est donc \[ \mathbb E[Y] = 2/3 \] La loi jointe de \((X,Y)\) est donnée par le tableau suivant (à faire vous même) :
(X,Y) | 0 | 1 |
---|---|---|
-1 | 0 | 1/3 |
0 | 1/3 | 0 |
1 | 0 | 1/3 |
Ainsi, on peut calculer l’espérance de \(XY\) : \[ \mathbb E[XY] = \sum_i \sum_j ij P(X=i,Y=j)= -1*1*1/3 +0*0*1/3+1*1*1/3 = 0 \] Ainsi, la covariance entre \(X\) et \(Y\) est nulle : \[ cov(X,Y)= \mathbb E[XY]-\mathbb E[X]\mathbb E[Y] = 0 - 0*2/3 =0 \] et pourtant les deux variables ne sont pas indépendantes : \[ P(X=1,Y=1) = 1/3 \not= P(X=1)P(Y=1)=1/3*2/3=2/9 \]
Proposition
si \(X\) et \(Y\) sont deux variables aléatoires indépendantes, on a \[ \mathbb E[XY] = \mathbb E[X] \mathbb E[Y] \] et \[ var(X+Y)=var(X)+var(Y) \]
La variable aléatoire \(X\) associée à une fonction \(f\) donnée et définie sur \(\mathbb{R}\), continue par morceaux, représente le fait de tirer un nombre au hasard avec la probabilité suivante :\[{\rm Proba}(X\leq t)=\int_{-\infty}^{t} f(x) dx = F(t)\] où \(t\) est un réel fixé.
Naturellement, cette écriture n’a de sens que si :
\(f\) est une fonction positive sur \(\mathbb{R}\)
\(\displaystyle\int_{-\infty}^{+\infty} f(x) dx=1\).
\(f\) est appelée “densité” de \(X\).
Cette probabilité est notée \(F(t)\) : \(F\), vue comme une fonction de \(t\) définie sur \(\mathbb{R}\), est appelée fonction de répartition de \(X\). La valeur \(F(t)\) peut être vue comme l’aire de la surface délimitée par la demi-droite \(]-\infty,t]\), la droite \(y=t\) et la courbe représentative de \(f\).
Définition de l’espérance mathématique
L’espérance de \(X\) (appelée aussi moyenne de \(X\)) correspond à la valeur suivante : \[E(X)=\int_{-\infty}^{+\infty} xf(x)\,dx.\]
Définition de la variance
La variance de \(X\) est : \[{\rm Var}(X)=\mathbb E\left[ (X-\mathbb E[X])^2 \right] = \mathbb E[X^2] - \mathbb E[X]^2 = \int_{-\infty}^{+\infty}x^2f(x)\,dx-\mathbb E[X]^2.\]
La fonction densité est : \[ \begin{array}{lrcl} f : & \mathbb R & \longrightarrow & \mathbb R\\ & x & \longmapsto & \left \lbrace \begin{array}{cl} 1 & \text{ si }x\in[0,1] \\ 0 & \text{ sinon} \end{array} \right. \end{array} \]
n<-10000
ech<-runif(n)
hist(ech,probability = T,main="Comparaison histogramme et densité")
curve(dunif,from = 0,to = 1,add = T,col ="red")
La fonction de répartition de cette loi est : \[ \begin{array}{lrcl} F : & \mathbb R & \longrightarrow & [0,1] \\ & x & \longmapsto & \left \lbrace \begin{array}{cl} 0 & \text{ si }x<0 \\ x & \text{ si }x\in[0,1]\\ 1 & \text{ si }x>1 \end{array} \right. \end{array} \]
n<-1000
ech<-runif(n)
plot(ecdf(ech),main="Comparaison Fonction de répartition empirique et théorique")
curve(punif,from = 0,to = 1,add = T,col ="red")
On appelle loi normale la loi d’une variable aléatoire réelle continue \(X\) dont la densité s’écrit : \[f(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\displaystyle\frac{1}{2}\frac{(x-\mu)^2}{\sigma^2}}\] où \(\mu\) est la moyenne de \(X\) et \(\sigma^2\) est la variance de \(X\). On dit que \(X\) suit la loi Normale de moyenne \(\mu\) et de variance \(\sigma^2\) et on note \(X\leadsto \mathcal N(\mu,\sigma^2)\).
Si \(\mu=0\), on dit que \(X\) est centrée.
Si \(\sigma^2=1\), on dit que \(X\) est réduite.
Une propriété importante sur la loi normale est la suivante :
Proposition Si \(X\leadsto \mathcal N(\mu,\sigma^2)\) alors \(\displaystyle \frac{X-\mu}{\sigma} \leadsto \mathcal N(0,1)\).
Remarque : Attention ! Cette propriété nous dit que pour centrer et réduire une loi normale, il faut lui retrancher sa moyenne et diviser par l’écart type (et non pas la variance).
Les figures suivantes nous donnent des exemples de densité de différentes lois normales.
curve(dnorm(x,0,1),from = -5,to = 7,col="red",main="Densités de lois normales",ylab="densité")
curve(dnorm(x,0,2),from = -5,to = 7,col="blue",add = TRUE)
curve(dnorm(x,2,2),from = -5,to = 7,col="green",add = TRUE)
legend(4,0.3,legend=c("N(0,1)","N(0,4)","N(2,4)"),col = c("red","blue","green"),lty=1)
Théorème
Soit \((X_n)_{n\geq 1}\) une suite de variables aléatoires indépendantes, et identiquement distribuées. Soit \[ \bar X_n = \dfrac{1}{n} \sum_{i=1}^n X_i \] et supposons que \(\mathbb E[X_1]<\infty\). Alors \[ \bar X_n \text{ converge vers }\mathbb E[X_1] \]
Ce théorème peut nous permettre par exemple de calculer une intégrale. Imaginons que nous voulions calculer \[ I=\int_0^1 f(x)\,dx \] où \(f\) est une fonction continue sur \([0,1]\). On peut se servir de la loi uniforme sur cet intervalle pour calculer \(I\). En effet, on a \[ I = \mathbb E[f(X)] \] où \(X\) suit une loi uniforme sur \([0,1]\). Ainsi, d’après la loi forte des grands nombres, on sait que \[ \frac{1}n \sum_{i=1}^n f(X_i) \text{ converge vers } \mathbb E[f(X_1)]=I \] où les \(X_i\) sont i.i.d. de loi uniforme sur \([0,1]\).
Application
On souhaite calculer l’intégrale suivante \[ I = \int_0^1 \sqrt{1-x^2} \,dx \] On sait que cette intégrale vaut \(\pi/4\). On se propose ici de retrouver cette valeur par la simulation. Ainsi, on peut être en mesure de proposer une approximation de \(\pi\). Ces méthodes sont appelés méthodes de Monte Carlo.
N<- 10000 # nombre de simulations
x<-runif(N) # échantillon iid de loi Uniforme sur [0,1]
res<-mean(sqrt(1-x^2))
4*res # Approximation de Pi
## [1] 3.155224
Le théorème central limite dit que, si un grand nombre de variables aléatoires indépendantes ayant la même loi sont ajoutées, leur somme suit approximativement une loi normale.
Si \(\{X_i\}_{i=1}^{\infty}\) est une suite de variables aléatoires indépendantes de même loi et de moyenne \(\mu\) et de variance \(\sigma^2\), alors \(\bar X_n=\frac{\displaystyle \sum_{i=1}^nX_i}{n}\) suit approximativement une loi normale \(\mathcal N(\mu,\sigma^2/n)\) pour \(n\) grand
ou, \(Z_n=\frac{\bar X_n-\mu}{\sigma/\sqrt{n}}\), variable centrée réduite issue de \(\bar X_n\), suit approximativement une loi normale \(\mathcal N(0,1)\) pour \(n\) grand.
Application
Pour des échantillons distribués suivant une loi binomiale, la loi binomiale \(B(n,p)\) se comporte comme la loi normale \(\mathcal N(np,np(1-p))\) pour \(n\) grand.
Simulons une loi quelconque, par exemple la loi exponentielle. On suppose donc que \(X_1,\ldots,X_n\) est un échantillon iid (de loi exponentielle de paramètre \(\lambda= 1\)). On va simuler ces \(n\) variables aléatoires et calculer la moyenne. Pour avoir une distribution de cette moyenne, on va répéter cette opération \(N\) fois et regarder la distribution de ces \(N\) moyennes. Le théorème centrale limite nous dit que la distribution converge vers une loi normale d’espérance \(\mu=1\) (moyenne de la loi exponentielle de paramètre \(1\)) et de variance \(\sigma^2/n = 1/n\) (car la variance d’une loi exponentielle de paramètre \(1\) est égale à \(1\)).
n<-500 # taille de l'échantillon i.i.d.
N<-100000 # Nombre de répétitions
donnees<-replicate(N,rexp(n,1))
hist(colMeans(donnees),freq=F,main="Distribution de la moyenne",xlab="x",nclass = 20)
curve(dnorm(x,1,sqrt(1/n)),add = T,col="red")
En probabilités, on travaille avec une loi connue. En statistique, cette loi est inconnue.
Le statisticien travaille sur des données (notes de qualité de pièces produites dans une usine, données météorologiques, résultats d’expériences médicales ou physiques,…). Il le fait à la demande d’un interlocuteur qui a des attentes plus ou moins précises. Ces attentes peuvent être de plusieurs types :
Il élabore un modèle et construit des outils pour répondre aux questions de son interlocuteur dans ce modèle. Il doit bien sûr garder un sens critique vis à vis du modèle qu’il a construit. Il est bien sûr crucial pour le statisticien d’estimer les paramètres au vu des données dont il dispose et d’avoir une idée de la précision de cette estimation. On introduit tout d’abord les estimateurs puis on verra enfin comment évaluer la précision des estimateurs au travers d’intervalles de confiance.
En résumé, voici les étapes de la statistique inférentielle :
Observation d’une variable \(X\) sur un groupe d’individus choisis d’une façon aléatoire et indépendante dans la population totale.
On obtient des observations \(x_1, \ldots,x_n\), réalisations de variables aléatoires indépendantes et de même loi \(X_1,\ldots,X_n\). On fait une étude descriptive de \(x_1, \ldots,x_n\) (histogramme, moyenne, \(\ldots\)).
Au vu de l’étude descriptive, trouver une loi de probabilité acceptable pour les variables \(X_1, \ldots,X_n\).
Inférence statistique : utiliser \(x_1, \ldots,x_n\) pour estimer les paramètres du modèle et en déduire des propriétés sur la population totale.
Avant que les données ne soient collectées, l’estimateur est une variable aléatoire
Une fois les données collectées, l’estimation est la valeur de l’estimateur pour ces données.
Dans ce cas, \(T\) sera appelé estimateur de \(\theta\), et, \(\tau(x_1,\ldots,x_n)\) sera une estimation de \(\theta\). (valeur numérique).
Biais=\(\mathbb E[T]-\theta\).
QE= \(\mathbb E[(T-\theta)^2]\).
L’estimateur \(T\) est :
Voici maintenant quelques exemples standards d’estimateurs
La fréquence empirique d’un évènement est un estimateur sans biais consistant de la probabilité de cet évènement.
La moyenne empirique d’un échantillon est un estimateur sans biais consistant de l’espérance théorique de ces variables : \[T(X_1,\ldots,X_n)=\bar X=\frac{1}{n}\displaystyle\sum_{i=1}^nX_i\]
La variance empirique notée \(S_n^2\) d’un échantillon (lorsque la moyenne est inconnue) est
\[ S_n^2=\frac{1}{n}\displaystyle\sum_{i=1}^n(X_i-\bar X)^2 . \]
Cet estimateur est biaisé. On peut montrer que
\[ \mathbb E [S_n^2] = \frac{n-1}{n} \sigma^2 \]
Ainsi, on obtient un estimateur sans biais en multipliant la variance empirique par \(n/(n-1)\) où \(n\) désigne la taille de l’échantillon, noté \({S_n^\prime}^2\) :
\[ {S^\prime_n}^2=\frac{1}{n-1}\displaystyle\sum_{i=1}^n(X_i-\bar X)^2 . \]
C’est cette dernière quantité qui est donnée dans le logiciel R via la fonction var(). Si l’on veut calculer la variance empirique d’un échantillon sous le logiciel R, il faudra donc faire le nécessaire : par exemple faire une nouvelle fonction que l’on pourra appeler var.pop().
Lorsque l’on estime un paramètre \(\theta\), on veut avoir une idée de la précision de l’estimation effectuée. C’est le rôle des intervalles de confiance.
Problème :
Peut-on trouver deux statistiques \(T_1\) et \(T_2\) telles que \[p(T_1\leq \theta\leq T_2)=1-\alpha\] avec \(0<\alpha<1\) fixé ? ou encore peut-on trouver deux statistiques \(T_1\) et \(T_2\) de manière à ce qu’on ait beaucoup de chance de trouver le paramètre inconnu entre ces deux statistiques ?
On suppose que \(X\) suit une loi normale \(\mathcal N(\mu,\sigma^2)\). On rappelle que la moyenne empirique et que la variance empirique sont données par \[\bar X=\frac{1}{n}\displaystyle\sum_{i=1}^nX_i\quad{\rm and}\quad S^2=\frac{1}{n}\displaystyle\sum_{i=1}^n(X_i-\bar X)^2.\]
Si \(\sigma^2\) est connue, un intervalle de confiance de niveau \(1-\alpha\) pour la moyenne \(\mu\) est \[\left[ \bar X - u_{1-\alpha/2} \frac{\sigma}{\sqrt{n}};\bar X + u_{1-\alpha/2} \frac{\sigma}{\sqrt{n}} \right]\] où \(u_{1-\alpha/2}\) est le quantile d’ordre \(1-\alpha/2\) de la loi normale \(\mathcal N(0,1)\).
Si \(\sigma^2\) est inconnue, un intervalle de confiance de niveau \(1-\alpha\) pour la moyenne \(\mu\) est
\[ \left[\bar X - t_{1-\alpha/2} \frac{S}{\sqrt{n}};\bar X + t_{1-\alpha/2} \frac{S}{\sqrt{n}} \right] \]
où \(t_{1-\alpha/2}\) est le quantile d’ordre \(1-\alpha/2\) de la loi de Student de paramètre \(n-1\).
Pour de grands échantillons, sans hypothèse de normalité, un intervalle de confiance de niveau \(1-\alpha\) pour la moyenne \(\mu\) est
\[ \left[\bar X - u_{1-\alpha/2} \frac{S}{\sqrt{n}};\bar X + u_{1-\alpha/2} \frac{S}{\sqrt{n}} \right] \] où \(u_{1-\alpha/2}\) est le quantile d’ordre \(1-\alpha/2\) de la loi normale \(\mathcal N(0,1)\).
On se place dans le cas où \(X\) suit une loi normale, \(\mathcal N(\mu,\sigma^2)\).
Un intervalle de confiance de niveau \(1-\alpha\) pour la variance \(\sigma^2\) est
\[ \left[ \frac{nS^2}{q^{n-1}_{1-\alpha/2}};\frac{nS^2}{q^{n-1}_{\alpha/2}}\right] = \left[ \frac{(n-1)(S^\prime)^2}{q^{n-1}_{1-\alpha/2}};\frac{(n-1)(S^\prime)^2}{q^{n-1}_{\alpha/2}}\right] \]
où \(q^{n-1}_{1-\alpha/2}\) est le quantile d’ordre \(1-\alpha/2\) de la loi du chi-2 de paramètre \(n-1\) et \(q^{n-1}_{\alpha/2}\) son quantile d’ordre \(\alpha/2\).
On suppose que l’on est en présence d’un échantillon de grande taille (en pratique \(n\geq 30\)). Un intervalle de confiance de niveau \((1-\alpha)\) pour une proportion \(p\) inconnue est
\[ \left[\hat p - u_{1-\alpha/2} \sqrt{(\frac{\hat p (1-\hat p)}{n})};\hat p + u_{1-\alpha/2} \sqrt{(\frac{\hat p (1-\hat p)}{n})} \right]. \]
où \(n\) est la taille de l’échantillon, \(\bar p\) la fréquence empirique et \(u_{1-\alpha/2}\) est le quantile d’ordre \(1-\alpha/2\) de la loi normale \(\mathcal N(0,1)\).