Inférence sur une probabilité

Limites de l'approche par valeur $p$

En psychologie statistique, on cherche à rendre compte d'une expérience (par exemple l'expérience de la présentation des suspects) avec un modèle de probabilité. Comme ce modèle de probabilité exprime toujours une hypothèse psychologique, on cherche ensuite à juger de la qualité d'ajustement de ce modèle sur nos données, pour se faire une opinion de la valeur de l'hypothèse psychologique sous-jacente.

Si le modèle peut-être complètement défini (par exemple en fixant $\pi=\frac{1}{6}$ dans un modèle binomial), on utilise assez souvent la valeur $p$ (probabilité d'avoir des données au moins aussi extrêmes que celles observées). Cette méthode, inventée au début du XXème siècle, est certainement la plus utilisée en psychologie.

Elle a néanmoins quelques inconvénients :

  • D'abord elle s'appuie, pour juger de la qualité d'une hypothèse ou d'un modèle, sur des résultats qui ne se sont pas produits, ce qui n'est pas très naturel. Par exemple, le calcul de la valeur $p$ dans l'étude criminologique nous a fait additionner les probabilités non seulement de la fréquence observée 14/20, mais aussi 15/20 et supérieures.
  • Ensuite, elle nous oblige à définir pour chaque situation ce que signifie «extrême» : s'agit-il de résultats numériques plus élevés (hypothèse unilatérale à droite), plus faibles (hypothèse unilatérale à gauche), ou les deux (hypothèse bilatérale) ? Et ce n'est pas toujours simple à définir dans toutes les situations.
  • Enfin, cette approche nous oblige à définir assez arbitrairement un seuil de décision, ou seuil de rareté. La valeur $\alpha=0.05$ est consacrée par l'usage en psychologie, mais d'autres disciplines scientfiques prennent d'autres valeurs repère.

Si l'approche précédente est importante à connaître (et nous l'utiliserons), nous allons étudier dans cette partie une approche plus récente, et potentiellement plus puissante : l'approche par comparaison des vraisemblances de modèles.

Inférence par comparaison de vraisemblances

Atelier 1 : comparaison de vraisemblances

Lisez avec attention l'encadré ci-dessous sur la définition et le calcul d'une vraisemblance. Utilisez ensuite ce principe pour détecter le meilleur modèle dans la situation proposée en exercice.

Vraisemblance d'un modèle

On appelle vraisemblance d'un modèle la probabilité des données observées d'après ce modèle.

 

Symboliquement, on l'écrit $P(D|M)$, où $D$ désigne l'ensemble des données collectées et $M$ le modèle de probabilité qu'on veut évaluer.

 

En pratique, si les données obtenues sont bien des mesures indépendantes, on calcule la vraisemblance en multipliant simplement les probabilités de chaque résultat obtenu.

  • expand_moreSynthèse théorique

    La suite des 10 apparitions du 6 peut représenter de manière métaphorique des données comportementales que nous aurions collectées dans une expérience. Imaginons que nous ne nous intéressions dans cette expérience qu'à l'apparition de la face 6 et au nombre de fois où cela se produit. On appelle $X$ la variable aléatoire « nombre d'apparition de la face 6 ». L'hypothèse du dé régulier et celle du dé truqué représentent métaphoriquement deux théories concurrentes que nous voudrions tester.

    La méthode de décision par comparaison de vraisemblances consiste à :

    1. Définir en mots les théories pertinentes, en concurrence pour la situation étudiée. Les deux théories sont ici que le dé est régulier, ou bien qu'il est truqué selon un schéma défini.
    2. Traduire les théories en modèles : initialement formulées en mots, les théories se voient adjoindre un modèle de probabilité qui les traduit. On a ici : $$\begin{aligned} M_0:&\ X\sim \mathcal{B}\left(10,\frac{1}{6}\right) \\ M_1:&\ X\sim \mathcal{B}\left(10,\frac{2}{7}\right) \end{aligned}$$ c'est-à-dire l'opposition de deux modèles binomiaux qui ont des hypothèses différentes sur la probabilité élémentaire.
    3. Calculer les vraisemblances (ou qualités) $L_0$ et $L_1$ de chaque modèle. On a trouvé : $$\begin{aligned}L_0 &= P(D|M_0)=0.0000000165381717\\ L_1 &= P(D|M_1)=0.00000362509 \end{aligned}$$
    4. Les comparer pour détecter le modèle le plus vraisemblable. Ici on voit que $L_0 < L_1$  : nous retenons $M_1$ comme le meilleur modèle et affirmons qu'il est plus probable que ce soit le dé truqué qui a été utilisé.

    Le cheminement est donc en une boucle : de la théorisation psychologique, on fait un détour sur le terrain statistique, permettant d'incorporer l'aléa dans le raisonnement, puis on retourne au contenu psychologique pour la conclusion finale.

    D'un point de vue pratique, on note que les vraisemblances seront souvent des valeurs très faibles, car elles sont obtenues en multipliant de nombreuses valeurs comprises entre 0 et 1. Au-delà de la qualité du modèle, l'amplitude de la vraisemblance reflète donc en partie la taille de l'échantillon. Cela n'est pas un gros problème car les deux modèles que nous comparons sont testés sur le même échantillon et cet effet taille est donc le même pour les deux vraisemblances. En pratique cependant, pour ne pas manipuler de trop long nombres décimaux, on préfère présenter la décision sous la forme d'un rapport des vraisemblances :

    $$B_{10}=\frac{L_1}{L_0}=\frac{0.00000362509}{0.0000000165381717}=219.1957$$

    On dira ici que le modèle $M_1$ est 219 fois plus vraisemblable que le modèle $M_0$, ce qui est juste une autre manière de présenter la même conclusion que précédemment (avec moins de décimales). D'une façon générale, un rapport des vraisemblances au moins égal à 3 est considéré comme une évidence (au sens anglais de «niveau de preuve») convaincante en faveur de $M_1$. En pratique, on distingue les niveaux suivants d'évidence :

    Valeur du rapport Evidence
    1 à 3 Négligeable
    3 à 20 Positive
    20 à 150 Forte
    > 150 Très forte

Notion de vraisemblance intégrée

Les calculs précédents ne sont réalisables que si l'on peut remplacer la probabilité inconnue par une valeur numérique précise, ce qui n'est pas possible pour toutes les hypothèses. Par exemple, dans l'expérience de criminologie, si l'hypothèse psychologique à tester est qu'il y a un biais cognitif induit par la procédure, qui encourage la désignation du suspect n°2, elle peut être formulée, en nommant $\pi$ la probabilité de désigner le suspect n°2, selon l' hypothèse en probabilité : $$\pi>\frac{1}{6}$$ mais cela ne nous aide en rien à identifier la valeur réelle de $\pi$ car il y a une infinité de valeurs possibles entre $\frac{1}{6}$ et 1.

Cependant, nous pouvons essayer plusieurs valeurs pour $\pi$ et regarder quelle vraisemblance en résulte, compte tenu des données que nous avons ($f=\frac{14}{40}$). Par exemple, en essayant pour $\pi$ tour à tour les valeurs 0.25, 0.50 et 0.75 (et en notant $X$ la variable du nombre de désignations du vrai coupable), on obtient les vraisemblances : $$\begin{aligned} P(X=14|\pi=0.25) &= C_{40}^{14}0.25^{14}(1-0.25)^{40-14} \\ &= 0.04879448 \\ P(X=14|\pi=0.50) &= C_{40}^{14}0.50^{14}(1-0.50)^{40-14} \\ &= 0.02110658 \\ P(X=14|\pi=0.75) &= C_{40}^{14}0.75^{14}(1-0.75)^{40-14} \\ &= 0.00000009181542 \end{aligned}$$

On note que ces vraisemblances sont des probabilités conditionnelles, c'est-à-dire qu'elles ne valent que si une certaine condition est vraie. Une approche possible pour identifier $\pi$ serait de choisir pour elle la valeur qui donne aux données la probabilité maximale (c'est-à-dire qui donne au modèle une vraisemblance maximale). C'est ce que vous avez fait déjà dans l'atelier sur l'échantillonnage d'une proportion. On appelle cette approche l'estimation de la probabilité inconnue par maximisation de la vraisemblance et elle est très fréquente en statistiques.

Nous allons pour notre part adopter une autre approche, qui consiste à moyenner toutes les vraisemblances possibles quand on varie $\pi$, en donnant à cette moyenne des coefficients qui reflètent la plausibilité des valeurs de $\pi$. Par exemple, si nous savions par des réplications nombreuses de l'expérience de Busey & Loftus (2006) que seules les valeurs 0.25, 0.50 et 0.75 sont plausibles (acceptons cette simplification extrême pour l'instant), et que la valeur 0.5 apparaît néanmoins deux fois plus souvent, nous pourrions calculer la vraisemblance moyenne : $$\begin{aligned} L_1 &= \frac{1\times P(X=14|\pi=0.25)+2\times P(X=14|\pi=0.50)+1\times P(X=14|\pi=0.75)}{1+2+1} \\ &= \frac{0.04879448+2\times 0.02110658+0.00000009181542}{4} \\ &= 0.02275193 \end{aligned}$$

C'est l'approche dite de vraisemblance intégrée (car elle intègre toutes les valeurs que nous jugeons plausibles pour $\pi$). L'avantage de cette approche est qu'elle permet d'intégrer aussi une information a priori que nous pourrions avoir sur les valeurs candidates les plus plausibles pour $\pi$ (par exemple en invoquant des études antérieures). On parle alors d'a priori informatif. Si nous n'avons pas d'information préalable, nous calculons notre moyenne en donnant le même poids à toutes les valeurs (on parle d'a priori non informatif). Par exemple ici : $$\begin{aligned} L_1 &= \frac{1\times P(X=14|\pi=0.25)+1\times P(X=14|\pi=0.50)+1\times P(X=14|\pi=0.75)}{1+1+1} \\ &= \frac{0.04879448+0.02110658+0.00000009181542}{3} \\ &= 0.02330038 \end{aligned}$$

Naturellement, nous nous sommes restreints à seulement 3 valeurs plausibles pour l'exemple. Dans la pratique, on inclut toutes les valeurs possible de $\pi$ comprises entre 0 et 1 dans le calcul d'une vraisemblance totalement intégrée.

Atelier 2 : intuition d'intégrale

Dans cet atelier, on regarde ce qui se passe quand dans le calcul de la vraisemblance intégrée, on augmente le nombre de valeurs candidates pour $\pi$ vers l'infini (en pratique ici de 3 à presque 1000). La position horizontale de la ligne orange représente la valeur de la vraisemblance moyennée, et cette valeur s'affiche aussi numériquement en haut du graphique.

  • expand_moreEn résumé

    En répondant aux questions de cet exercice, vous avez découvert que la vraisemblance intégrée est une mesure de qualité de modèle qui ne dépend que de la taille de l'échantillon.

    On peut montrer mathématiquement (section A.4 du manuel de cours, p. 305) qu'avec un a priori non informatif (toutes les valeurs candidates ont le même poids dans la moyenne), elle est exactement égale à : $$L_1=P(D|M_1)=\frac{1}{N+1}$$ où $N$ est la taille de l'échantillon qu'on a interrogé.

    Par exemple, pour $N=9$ nous avons trouvé $L_1=\frac{1}{9+1}=0.10$ et pour $N=19$ $L_1=\frac{1}{19+1}=0.05$.

    Nous utiliserons directement cette mesure pour évaluer la qualité d'un modèle binomial dont on ignore la probabilité, en l'absence de toute information a priori.

Applications

Exercice 1 : la force de l'esprit sur la matière

Nous reprenons ici cet exercice de la section précédente, pour illustrer comment le même problème peut être traité avec l'approche par comparaison de modèles. Une personne affirme pouvoir agir sur la matière par la force de sa pensée. Elle se dit capable de faire en sorte que sur une série de lancers de pièce, l'une des faces (elle ne sait par contre dire laquelle à l'avance) apparaisse plus souvent que l'autre.

Pour nous le démontrer, elle lance 10 fois de suite une pièce qui tombe 7 fois sur le côté pile. Diriez-vous que cette personne est bien dotée du pouvoir qu'elle prétend ? Arbitrairement, on choisit pile comme événement cible et on note $\pi$ sa probabilité d'apparition.

  • expand_moreCorrection
    Famille de distribution

    Les données observées se présentent sous la forme d'un comptage, noté $X$, qui prend ses valeurs dans {0,...,10} (en l'occurrence 7 apparitions du même côté se sont réalisées). Ce comptage est binomial si on pense que les résultats d'un lancer donné ne peut influencer les lancers suivants, et que la probabilité d'apparition d'une face donnée reste constante au long des essais. A ces conditions, on peut calculer la vraisemblance des modèles grâce à la loi binomiale.

    Formulation des théories

    Les deux théories en concurrence ici sont : la personne a juste eu de la chance, ou bien elle a bien le pouvoir qu'elle prétend.

    Définition des modèles

    Le modèle binomial $M_0$ est basé sur l'hypothèse $H_0$ que la probabilité $\pi$ de tomber sur pile (que nous prenons arbitrairement comme événement de référence) est égale à la probabilité qui se déduit de la chance seule, c'est-à-dire $\pi_0=\frac{1}{2}$, soit : $$H_0:\pi=\pi_0$$Le modèle complet (intégrant l'hypothèse de distribution binomiale et l'hypothèse sur son paramètre $\pi$) peut s'écrire : $$M_0\ :\ X\sim \mathcal{B}(10,\pi_0) $$

    Le modèle binomial $M_1$ est basé sur l'hypothèse $H_1$ que la probabilité $\pi$ de tomber sur pile est différente de $\pi_0$ (c'est-à-dire soit supérieure soit inférieure, ce qui se traduira par des séries assez longues de piles ou de faces) : $$H_1:\pi\neq\pi_0$$Le modèle complet (intégrant l'hypothèse de distribution binomiale et l'hypothèse sur son paramètre $\pi$) peut s'écrire : $$M_1\ :\ X\sim \mathcal{B}(10,\pi) $$

    On note que cette comparaison implique un modèle contraint (imposant une valeur numérique sur $\pi$) et un modèle non contraint (au sein duquel $\pi$ peut prendre toute valeur). C'est précisément ces cas de modèles non contraints que la notion de vraisemblance intégrée nous permet de traiter.

    Comparaison des modèles

    Pour comparer les deux modèles, on calcule leurs vraisemblances. La vraisemblance de $M_0$ est obtenue directement sur le graphique pour $X=7$, où on lit $P(X=7|\pi=\pi_0)=0.1172$. La vraisemblance de $M_1$ est obtenue par la formule de la vraisemblance intégrée comme : $P(X=7|\pi\neq\pi_0)=\frac{1}{10+1}=0.0909$.

    Le rapport des vraisemblances (que nous noterons $B_{10}$) est : $$B_{10}=\frac{L_1}{L_0}=\frac{0.0909}{0.1172}=0.7756$$

    Décision statistique

    Le rapport de vraisemblance est inférieur à 1 : il penche donc en faveur de $M_0$. On note cependant que le poids de l'évidence est négligeable ($\frac{1}{3} < B_{10} < 1$). Dans ce contexte cependant, on voit que le rapport ne penche pas du côté de l'hypothèse d'un pouvoir psychique, plus difficile à fonder scientifiquement.

Exercice 2 : la reconnaissance des suspects

Nous reprenons ici cet exercice de la section précédente, pour illustrer comment le même problème peut être traité avec l'approche par comparaison de modèles. Le calculateur général ci-dessous fait désormais tous les calculs de vraisemblance (et leur rapport) pour vous, à partir de la saisie des informations suivantes :

  • nombre d'observations (par exemple nombre de sujets interrogés, ou nombre d'essais),
  • nombre de succès (la notion de « succès » est à définir selon les contextes),
  • probabilité théorique de référence sous $H_0$.

Pour répondre aux questions, saisissez dans l'interface les données de l'expérience de Busey & Loftus (2006).

  • expand_moreCorrection

    A partir de cet exercice et des ateliers précédents, on comprend les propriétés suivantes du rapport de vraisemblances (appelé aussi Facteur de Bayes) :

    • Le rapport de vraisemblances fonctionne comme les plateaux d'une balance : s'il est supérieur à 1 il révèle que le modèle dont la vraisemblance est au numérateur est plus vraisemblable. S'il est inférieur à 1, on donne la faveur à l'autre modèle.
    • On attend néanmoins une déviation suffisante à 1, dans un sens ou dans l'autre, pour conclure à un effet substantiel. En pratique, on juge que l'évidence est positive en faveur de $M_1$ (placé au numérateur) s'il est au moins égal à 3, et en faveur de $M_0$ s'il est au maximum égal à 1/3.
    • Le rapport de vraisemblance est capable d'exploiter directement la taille de l'échantillon pour rendre plus convaincante une décision : pour une même fréquence observée, l'évidence sera plus forte (pour l'un ou l'autre modèle) si la taille de l'échantillon est plus importante. Techniquement, la probabilité de choisir le bon modèle tend vers 1 quand la taille de l'échantillon augmente. On dit pour cette raison que le facteur de Bayes est une statistique consistante.
Exercice 3 : à la recherche du magnétisme animal

L'Observatoire Zététique a organisé à Revel (Isère) en 2004 une expérience avec un magnétiseur.

Celui-ci prétendait qu'il pouvait reconnaître la présence d'une personne par magnétisme, même à travers un écran, à condition de l'avoir rencontrée avant et d'avoir imposé les mains sur elle pour reconnaître son «signal».

Une expérience a été montée à l'Observatoire, en collaboration avec ce magnétiseur. Un casque anti-bruit sur les oreilles, il devait pendant 100 essais passer ses mains sur un écran parfaitement opaque et indiquer si un sujet cobaye se trouvait derrière ou non. Le sujet se trouvait derrière l'écran dans exactement 50 des essais, répartis aléatoirement sur l'ensemble de la séquence.

Pour les besoins de l'exercice, nous dirons que quelque chose d'extrasensoriel s'est passé dans cette expérience non seulement si le magnétiseur réussit étonnamment souvent, mais aussi s'il venait à échouer étonnamment souvent, ce qui signalerait une sensibilité « inversée ». Sur les 100 essais, le magnétiseur a correctement détecté la présence ou l'absence du sujet dans 44 cas. En utilisant le calculateur ci-dessus, diriez-vous que ce magnétiseur est sensible à la présence masquée du cobaye ?

  • expand_moreCorrection
    On a $L_{0}=0.03895256$ et $L_{1}=1/101=0.00990099$. Le modèle $M_{0}$ est donc près de quatre fois plus vraisemblable que le modèle $M_{1}$. Ces données ne permettent pas de soutenir les affirmations du magnétiseur.