Introduction

Pour commencer, lisez la partie du cours relative aux intervalles de confiance.

Préambule

Préambule : La fonction ech.pollue(n,mu,sigma,sigmapollue,p) retourne un échantillon gaussien, \(\mathcal N(\mu,\sigma^2)\) (par défaut \(\mu=0\), \(\sigma = 1\), \(p=0.1\) ) avec une proportion \(p\) de données polluées (issues d’un échantillon gaussien de même moyenne mais de variance beaucoup plus grande : sigmapollue = 50 par défaut) :

ech.pollue<-function(n,mu=0,sigma2=1,sigma2pollue=50,p=0.1){
  tmp<-rbinom(n,1,p)
  return(tmp*rnorm(n,mu,sqrt(sigma2pollue))+(1-tmp)*rnorm(n,mu,sqrt(sigma2)))
}
ech.pollue(25)
##  [1] -1.4739850  1.3465558  0.7004950 -0.1461872  1.4100905 -1.2056065
##  [7] -0.4181504  0.3676346  0.4553671 -1.5241985 -6.0338100  1.4726274
## [13]  1.5067629  1.3788172 -0.3440378 -1.2027968 -0.4700502  1.2724677
## [19] -0.1955786  1.3408882 12.1579307 -0.4046370 -0.2437434 -1.4290700
## [25]  0.8775010

Exercices

Exercice 1

Première Partie

On considère \(N\) échantillons de taille \(n\) tirés d’une loi normale, \(\mathcal N(\mu,\sigma^2)\). On s’intéresse à l’intervalle de confiance de la moyenne. Pour cela, nous allons donner les trois intervalles suivants :

  • En considérant que la variance est connue et égale à \(1\).

  • En considérant que la variance est inconnue et donc en se servant du quantile de la loi de Student.

  • En considérant que la variance est inconnue mais en remplaçant le quantile de la loi de Student par celui de la loi normale.

Remplir le tableau suivant :

\(n=15\) \(n=30\) \(n=50\) \(n=100\)
\(IC(\mu)\) avec \(\sigma^2=1\)
\(IC(\mu)\) avec \(\sigma^2\) inconnue
et quantile de la loi de Student
\(IC(\mu)\) avec \(\sigma^2\) inconnue
et quantile de la loi Normale

Deuxième partie

On souhaite refaire la même chose mais cette fois-ci les échantillons sont pollués (comme c’est souvent le cas dans la vie réelle) par des données extrêmes. On suppose ici qu’il y a 1% de données polluées par échantillon.

Exercice 2

Dans cet exercice, on suppose que \(X\) suit une loi gaussienne, avec une variance connue et une espérance inconnue. Le résultat visuel de ce qui est demandé est visible sur le serveur shiny de l’Université Grenoble Alpes.

  1. Simuler un échantillon de taille \(n=50\) avec une espérance \(\mu=1\) et un écart-type \(\sigma=1\). Calculer la moyenne empirique \(\bar x\). Calculer l’intervalle de confiance de \(\mu\) au niveau de confiance \(0.95\).

  2. Ecrire une fonction confint.mean qui prend comme arguments, l’échantillon, l’écart-type (connu) et le niveau de confiance, et retourne les deux bornes de l’intervalle de confiance. Tester cette fonction avec l’échantillon simulé avec des niveaux de confiance \(0.90\), \(0.95\) et \(0.99\). Commenter.

  3. Un intervalle de confiance ne contient pas toujours la vraie valeur. Simuler 100 échantillons de taille \(n=50\) avec une espérance \(\mu=1\) et un écart-type \(\sigma=1\) et mettre cela dans une matrice notée \(X100\). Calculer les 100 intervalles de confiance au niveau \(0.95\) en utilisant votre fonction confint.mean. Faire une figure avec les 100 intervalles de confiance avec les vraies valeurs. On utilisera la fonction matplot. Tracer sur le même graphique la droite d’équation \(x=\mu\).

  4. Répéter la même procédure avec \(N=1000\), \(N=10000\) et \(N=100000\) et compter le nombre d’intervalles de confiance ne contenant pas la vraie valeur \(\mu\). Commenter.

  5. Simuler un échantillon de taille \(n=1000\). Pour chaque \(i=1,\ldots,n\), calculer les intervalles de confiance au niveau \(0.95\%\) pour la moyenne de l’échantillon. Représenter avec des points rouges les moyennes successives calculées et en bleus les bornes des intervalles de confiance. Commenter.

Exercice 3

Afin d’évaluer l’impact d’une campagne média anti-tabac, on s’est intéressé à la proportion de fumeurs menant des actions pour essayer d’arrêter de fumer (diminution de la consommation, achat de patchs anti-tabac, consultations médicales, …), c’est-à-dire à la proportion de fumeurs “actifs” pour arrêter.

Un sondage “avant campagne” a été effectué auprès de \(n_1=1000\) fumeurs, et un sondage “après campagne” a été effectué auprès d’un autre échantillon de \(n_2=1000\) fumeurs ; les deux échantillons sont donc indépendants. Le premier sondage donne une proportion de \(p_1=0,15\) de fumeurs “actifs”, alors que le deuxième sondage donne une proportion de \(p_2=0,17\) de fumeurs “actifs”. On veut savoir si la campagne a été efficace ; autrement dit si la proportion de fumeurs “actifs” a augmenté après la campagne.

  1. Déterminer un intervalle de confiance au niveau 95% de la proportion de fumeurs “actifs” avant la campagne.

  2. De façon analogue, donner un intervalle de confiance au niveau 95% de la proportion de fumeurs “actifs” après la campagne.

  3. Peut-on déduire de ces deux intervalles que la campagne a été efficace ?

  4. On suppose maintenant que \(p_2=0,20\). Que pouvez-vous conclure ?

  5. On suppose encore que \(p_2=0,20\) mais que cette proportion a été calculée sur un échantillon de \(n_2=500\) personnes. Que peut-on en conclure ?