Mean comparison tests

Probabilities and statistics for modelling (CMB STAT1)

Jacques van Helden

2020-03-06

Contents

We provide here a brief summary (suppsedly reminder) of one ot the most popular applications of statistics: the mean comparison test.

This test is used in a wide number of contexts. We will apply it here to two data types.

  1. Artificial data generated by drawing samples from two normally distributed populations, having either equal (\(H_0\)) or different (\(H_1\)) means depending on the cases. The interest of this experiment is that we conrol all the parameters (we know whether there is or not a difference betwen population means).

  2. Trabscriptome data obtained from microarrays. We will test if a given gene presents a significant difference between two sets of biological samples (e.g. patients suffering from different cancer types).

    Note: microarray technologies have been widely replaced by next-generation sequencing (NGS) and RNA-seq has been used to study transcriptome. However, differential analysis with RNA-seq requires more advanced concepts, which will be treated in other courses.

L’hypothèse à tester

General principle:

Test bilatéral (two-tailed test)

Dans le test bilatéral (two-tailed test), on désire détecter une éventuelle différence indépendamment de son signe (\(\mu_1 > \mu_2\) ou \(\mu_2 > \mu_2\)).

\[H_0: \mu_1 = \mu_2 \\ H_1: \mu_1 \neq \mu_2\]

Test unilatéral (one-tailed test)

Dans le test unilatéral (one-tailed test), on s’intéresse spécifiquement à des différences allant dans une direction donnée. L’hypothèse nulle recouvre donc d’une part l’égalité, et d’autre part les différeences de signe opposé à celui qui nous intéresse.

Différences positives (right-tailed test):

\[H_0: \mu_1 \le \mu_2 \\ H_1: \mu_1 > \mu_2\]

Différences négatives (left-tailed test):

\[H_0: \mu_1 \ge \mu_2 \\ H_1: \mu_1 < \mu_2\]

Hypothèses de travail

Hypothèse de normalité

Les populations dont les échantillons sont tirés suivent-elles des distributions normales?

Hypothèse d’homoscédasticité (égalité des variances)

Pour les tests paramétriques, les populations ont-elles (vraisemblablement) la même variance?

Logigramme du choix d’un test de comparaison de moyenne

Test de Student

Hypothèses de travail: normalité (ou bien grands échantillons), homoscédasticité.

Statistique:

\[t_{S} = \frac{\hat{\delta}}{\hat{\sigma}_\delta} = \frac{\bar{x}_{2} - \bar{x}_{1}}{\sqrt{\frac{n_1 s_{1}^2 + n_2 s_{2}^2}{n_1+n_2-2} \left(\frac{1}{n_1}+ \frac{1}{n_2}\right)}}\]

Estimation du risque de faux-positif (P-value): probabilité d’obtenir, sous hypothèse nulle une statistique au moins aussi extrême que celle observée. Ce qu’on appellera “extrême” (la ou les queues de distribution à considérer) dépendra du sens du test.

Décision

Sens du test Critère de décision
Unilatéral à droite \(RH_0 \quad \text{if} \quad t_S > t_{1-\alpha}^{n_1 + n_2 -2}\)
Unilatéral à gauche \(RH_0 \quad \text{if} \quad t_S < t_{alpha}^{n_1 + n_2 -2} = - t_{1-\alpha}^{n_1 + n_2 -2}\)
Bilatéral \(RH_0 \quad \text{if} \quad \lvert t_S \rvert > t_{1-\frac{\alpha}{2}}^{n_1 + n_2 -2}\)

Pour le test bilatéral, on partage le risque de façon symétrique entre les deux queues en associant \(\frac{\alpha}{2}\) à chacune.

Exercice

Un chercheur a analysé, à l’aide de biopuces, le niveau d’expression d’un gène d’intérêt à partir d’échantillons sanguins prélevés chez 50 patients (\(n_p=50\)) et chez 50 sujets témoins (\(n_c=50\)). Il obtient

Afin de tester si la différence observée entre les moyennes est significative, le chercheur décide d’effectuer un test de Student.

  1. Le choix du test de Student vous semble-t-il approprié ? Justifiez le choix du chercheur. Quelles auraient été les alternatives envisageables ?

  2. Sachant qu’a priori on ne sait pas dans quel sens la maladie pourrait affecter le niveau d’expression du gène, préconisez-vous un test uni- ou bilatéral ?

  3. Formulez l’hypothèse nulle et expliquez-la en une phrase.

  4. Sur base de la formule ci-dessous, calculez la statistique \(t\) de Student.

  5. Indiquez, en vous basant sur les tables fournies, la p-valeur correspondante.

  6. Interprétez la p-valeur, et aidez le chercheur à tirer les conclusions de son étude.

Exercice

Un groupe de chercheurs a détecté l’association entre la résistance à la bilharziose et un taux élevé d’IgE spécifiques. D’autres chercheurs ont cherché à répliquer ce résultat dans une population indépendante exposée à la bilharziose. Les résultats obtenus sont indiqués ci-dessous.

  1. Quelle méthode préconisez-vous pour tester l’égalité des moyennes (justifiez)? Quelles sont les hypothèses de travail de ce test?

  2. En partant du principe que ces conditions sont remplies dans le cas présent, formulez l’hypothèse nulle et calculez le score t de Student (formule ci-dessous). Enfin, estimez P valeur à partir de la table fournie.

  3. A l’issue du test, quelle décision prenez-vous? Justifiez votre réponse.