Jacques van Helden
2019-09-20
Dans ce cours, nous aborderons un problème fondamental en statistique: comment estimer les paramètres d’une population à partir d’un échantillon ?
Mots-clés:
On s’intéresse à des propriétés mesurables d’une population (finie ou infinie) qu’il est impossible de couvrir de façon exhaustive (coût, temps, mesures destructives). On prélève un échantillon, sur lequel on peut mesurer des paramètres (moyenne, écart-type).
On estime les paramètres de la population (\(\mu\), \(\sigma\)) à partir des paramètres d’échantillon (\(\bar{x}\), \(s\)).
Problème général de l’estimation: si l’on avait choisi un autre échantillon, on disposerait de paramètres différents. Dès lors, comment évaluer la fiabilité de nos estimateurs ?
Moyenne: paramètre de tendance centrale
\[\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i\]
Variance: : paramètre de dispersion
\[s^2 = \frac{1}{n}\sum_{i=1}^n (x_i -x)^2\]
Ecart-type: : paramètre de dispersion (plus pratique que la variance, car mêmes unités que les observations, et que la moyenne).
\[s = \sqrt{\frac{1}{n}\sum_{i=1}^n (x_i -x)^2}\]
Les paramètres classiques (moyenne, variance) sont sensibles à la présence de valeurs aberrantes (“outliers” en anglais). En particulier, la variance est très affectée par la présence de quelques valeurs aberrantes, car ces valeurs sont prises au carré.
Alternative: se baser sur les quartiles.
\(\tilde{x}\): la médiane est la plus petite valeur supérieure ou égale à la moitié des valeurs observées. La médiane est un paramètre robuste de tendance centrale.
\(Q_1\): le premier quartile, la valeur supérieure ou égale à \(25\%\) des valeurs observées.
\(Q_3\): le troisième quartile, la valeur supérieure ou égale à \(75\%\) des valeurs observées.
\(\text{IQR} = Q_3 - Q_1\): l’écart inter-quartile (inter-quartile range): est un estimateur robuste de la dispersion.
Sur base des gènes dU 3ème chromosome (échantillon) on peut estimer la taille moyenne d’un gène de levure.
Questions:
La moyenne d’échantillon (chromosome III) permettait-elle de prédire la moyenne de la population (génome complet) ?
Cet échantillon peut-il être qualifié de “simple et indépendant” ?
Dans chaque cas, définissez la ou les populations, et posez-vous les questions concernant la validité de l’échantillonnage (simple, indépendant, représentatif, …).
Profils transcriptomiques de patients: 40 cas de leucémie myéloide aigue (AML) et 40 cas de leucémie lymphoblasique eaigue (ALL).
Etude d’association à échelle génomique: SNPs de 2000 cas (diabète de type 2) et 3000 contrôles (pas de diabète.
Par convention, nous utiliserons les symboles suivants pour les paramètres calculés sur la population entière.
Paramètre | Formule |
---|---|
Taille (nombre d’individus) | \(N\) |
Moyenne | \(\mu = \frac{1}{N}\sum_{i=1}^{N} x_i\) |
Variance | \(\sigma^2 = \frac{1}{N}\sum_{i=1}^{N} (x_i - \mu)^2\) |
Ecart-type | \(\sigma = \sqrt{\sigma^2}\) |
Par convention, nous utiliserons les symboles suivants pour les paramètres calculés sur un échantillon.
Paramètre | Formule |
---|---|
Effectif (nombre d’individus) | \(n\) |
Observations | \(x = \{x_1, x_2, \cdots, x\_n \}\) |
Moyenne | \(\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i\) |
Variance | \(s^2 = \frac{1}{n}\sum_{i=1}^{n} (x_i - \bar{x})^2\) |
Ecart-type | \(s = \sqrt{s^2}\) |
La barre au-dessus d’un symbole de variable dénote la moyenne.
Avant d’analyser les données réelles, jouons avec des jeux de données générés selon un modèle probabilise donné. Nous conrôlons ainsi tous les paramètres, et pouvons évaluer la fiabilité des estimateurs.
On prélève un échantillon d’effectif \(n=16\) (nombre d’éléments) dans une population de taille \(N=10^{4}\).
La population suit une distribution gaussienne de moyenne \(\mu=-0.0126825\) et d’écart-type \(\sigma=0.9967171\).
Répétons l’échantillonnage un grand nombre de fois (\(R = 10^{4}\)). Pour chaque échantillon, calculons la moyenne, et étudions la distribution de ces moyennes.
Non biaisée: l’espérance de la moyenne d’échantillon est égale à la moyenne d’échantillon: si on prélèvait un nombre infini d’échantillons et qu’on calculait leurs moyennes (\(\bar{X}\)), la moyenne de ces moyennes de la population (\(\mu\)).
\(<\bar{X}> = \mu\)
Dispersion: la variance de la moyenne d’échantillon diminue avec l’effectif.
\(\sigma^2_{\bar{X}} = \frac{\sigma^2}{n}\)
\(\sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}}\)
Quand la taille de l’échantillon augmente, la moyenne d’échantillon (\(\bar{X}\)) converge vers la moyenne de la population (\(\mu\)).
Cette convergence est d’autant plus rapide que l’effectif (\(n\)) est grand.
L’imprécision (qu’on peut mesurer par l’écart-type) diminue avec la racine carrée de l’effectif.
En pratique, ceci signifie que si l’on veut doubler la précision d’une estimation de moyenne, il faut quadrupler la taille d’échantillon !
Note: la moyenne d’échantillon (\(\bar{x}\)) converge plus rapidement que la médiane (\(\tilde{x}\)) vers la moyenne de population (\(\mu\)). De même, l’écart-type converge plus rapidement que l’espace interquartile.
Si l’on veut utiliser des paramètres robustes aux valeurs aberrantes (\(\tilde{x}\), \(\text{IQR}\)), il faut donc s’assurer qu’on dspose d’un échantillon d’effectif (\(n\)) suffisant.
Egalement appelée distribution gaussienne.
Densité de probabilité:
\[f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{1}{2}(\frac{x - \mu}{\sigma})^2}\]
** Distribution normale standard**
La distribution normale standard \(\mathcal{N}(1,0)\) est une normale de moyenne \(\mu=0\) et d’écart-type \(\sigma=1\).
Standardisation
La somme de variables aléatoires indépendantes et identiquement distribuées tend vers une distribution gaussienne.
Démo au cours
Variance d’échantillon.
\[s^2 = \frac{1}{n}\sum_{i=1}^{n} (x_i - \bar{x})^2\] La variance d’échantillon constitue-t-elle un bon estimateur de la variance de la population ? Non. Pourquoi ?
L’espérance de la variance d’échantillon diffère de la variance de la population.
\[<s^2> = \sigma^2 \cdot \frac{n-1}{n} < \sigma^2\]
\(s\) est un estimateur biaisé de \(\sigma\):
la variance d’échantillon sous-estime systématiquement la variance de la population;
le biais est d’autant plus important que l’effectif est faible.
Pour estimer la variance de la population, on effectue une correction du biais mentionné.
\[\hat{\sigma^2} = \frac{n}{n-1} s^2 = \frac{1}{n-1}\sum_{i=1}^{n} (x_i - \bar{x})^2\]
On dispose d’une moyenne d’échantillon \(\bar{x}\).
On ignore la moyenne de population \(\mu\), mais on saite que la distribution de moyennes d’échantillon prélevés dans cette population suit une certaine distribution.
Sur cette base, on peut calculer un intervalle de confiance, qui est limité par les valeurs au-delà desquelles, si \(\mu\) s’y trouvait, la probabilité d’obtenir la moyenne observée serait inférieure à une probabilité \(\alpha\) donnée (exemple: \(\alpha = 0.05\)).
Niveau de confiance: \(1 - \alpha\) (exemple: \(1-\alpha= 0.95\)).
Démo: forme de la distribution de Student en fonction de \(\nu\).