Rappels de probabilités

1. Algèbre des événements

La psychologie statistique étudie le comportement humain à l'aide de probabilités. Le comportement humain est par nature riche et complexe, mais surtout changeant et fluctuant. Cela ne veut pas dire qu'il n'est pas étudiable scientifiquement. Il l'est dès lors que nous élaborons des modèles de probabilité pour en rendre compte.

Dans ce cours nous nous intéressons aux états de l'individu, ou à ses comportements, considérés comme des événements, qui peuvent ou non se produire, isolément ou en association avec d'autres comportements.

L'exercice qui suit a pour but de vous faire revoir 3 principales opérations sur les événements, pour pouvoir ensuite manipuler facilement les écritures et les probabilités sur les événements.

Atelier 1 : opérations sur des événements ou états

Dans cet atelier, on s'intéresse à la description de la population française sur deux critères seulement  : le genre et le statut tabagique (fumeur / non fumeur).

Cliquez sur les parties du diagramme pour répondre aux questions.

  • expand_moreEn résumé

    En répondant aux questions de cet exercice, vous avez revu 3 opérations élémentaires sur les événements $F$ ("être une femme") et $S$ ("être fumeur"). En notant en abrégé $N(F)$ le nombre de femmes et $N(S)$ le nombre de fumeurs, vous avez utilisé :

    • la conjonction : c'est l'apparition simultanée de deux événements. On parle de ET logique.

      Par exemple, en dénombrant le nombre d'individus qui sont des femmes ET qui fument, vous avez réalisé une intersection entre l'ensemble des femmes et l'ensemble des fumeurs, pour garder la partie commune aux deux ensembles. L'événement conjoint s'écrit : $F\cap S$ (on lit «F ET S»).

    • la disjonction : c'est l'apparition d'au moins l'un des événements considérés (et éventuellement tous). On parle de OU logique non-exclusif.

      Par exemple, en dénombrant le nombre d'individus qui sont soit des femmes soit des fumeurs (et éventuellement les deux), vous avez réalisé la réunion des deux ensembles femmes et fumeurs. L'événement combiné s'écrit : $F\cup S$ (on lit «F OU S»).

      Au passage, vous avez redécouvert la formule de Poincaré qui permet de quantifier cette réunion en additionnant d'abord les deux ensembles, puis en ôtant une fois leur partie commune : $N(F\cup S)=N(F)+N(S)-N(F\cap S)$.

    • la négation : c'est la non-apparition de l'événement. On parle de NON logique. On l'écrit avec une barre horizontale au-dessus du symbole de l'événement. Ne pas être fumeur s'écrit $\overline{S}$ (on lit «NON S»).

      Par exemple, pour déterminer le nombre d'hommes, vous avez essentiellement cherché les individus qui ne sont pas des femmes dans la population ($\overline{F}$).

      En dénombrant le nombre d'hommes qui ne fument pas, vous avez redécouvert la première loi de De Morgan : les individus qui sont hommes ($\overline{F}$) ET qui ne fument pas ($\overline{S}$) sont aussi ceux qui NE SONT PAS femmes OU fumeurs. Il y en a donc le même nombre : $N(\overline{F}\cap \overline{S}) = N(\overline{F\cup S})$.

2. Pourcentages et fréquences conditionnels

Dans la pratique, nous avons souvent besoin de quantifier l'importance d'un événément quand on sait qu'un autre est déjà réalisé. On peut le mesurer en pourcentage d'observations (sur une échelle de 0 à 100) ou en fréquence (sur une échelle de 0 à 1), non plus dans la popuation totale mais à l'intérieur d'une certaine sous-condition. On parle de pourcentages ou de fréquences conditionnels.

Atelier 2 : notion de conditionnement

Pour cet atelier, nous reprenons les mêmes données que dans l'atelier 1.

Cliquez sur les parties du diagramme pour répondre aux questions.

  • expand_moreEn résumé

    En répondant aux questions de cet exercice, vous avez compris qu'un pourcentage ou une fréquence mesurent la même chose. Le premier est sur une échelle de 0 à 100, tandis que la seconde est sur une échelle de 0 à 1.

    Mais vous avez aussi revu 3 formes différentes de fréquence (et de pourcentage) :

    • la fréquence conjointe : c'est la fréquence des cas où deux événements de nature différente sont réalisés conjointement (c'est-à-dire) simultanément. Par exemple : $f(F\cap S) = 44/200 = 0.22$ est la fréquence des individus qui sont à la fois des femmes et des fumeurs dans la population totale.
    • la fréquence marginale : dans le contexte où l'on étudie la conjonction de deux événements, c'est la fréquence de l'un d'entre eux pris isolément. Par exemple : $f(F)=100/200=0.5$ est la fréquence marginale des femmes. On l'appelle marginale car dans une représentation en tableau croisé (voir le tableau des fréquences conjointes de l'exercice suivant), elle est obtenue en reportant dans la marge la somme des fréquences des femmes fumeuses et des femmes non-fumeuses : $f(F)=f((F\cap S)\cup (F\cap \overline{S}))$.
    • la fréquence conditionnelle : c'est la fréquence d'apparition d'un événement à l'intérieur d'un autre (c'est-à-dire en se restreignant aux cas où ce second événement est réalisé). Par exemple : $f(S|F)=44/100=0.44$ est la fréquence conditionnelle des fumeuses chez les femmes.

    Cet exercice doit vous inciter à bien distinguer ces 3 cas de figure. L'ambiguité est facilement levée en se posant à chaque fois qu'un calcul de proportion, de pourcentage ou de fréquence, est réalisé, la question suivante : quel est l'ensemble de référence qui sert de base au calcul ? Est-ce une population complète ou un sous-ensemble ?

3. Inversion de Bayes

Dans l'exercice qui suit, on présente le croisement du genre et du tabagisme sous la forme d'un tableau croisé, plutôt que sous forme d'ensembles. Cela permet de regarder plus en détail comment fréquences conjointes, marginales et conditionnelles sont numériquement liées, et peuvent être retrouvées les unes à partir des autres.

Atelier 3 : fréquences conditionnelles inverses
  • expand_moreEn résumé

    En répondant aux questions de cet exercice, vous avez revu les points suivants :

    • Dans un tableau d'effectifs croisés à deux entrées, on peut calculer deux types de fréquence conditionnelle, en divisant l'effectif conjoint soit par sa marge ligne, soit par sa marge colonne. Par exemple, la fréquence de fumeurs chez les hommes, notée $f(S|H)$, est calculée comme : $$f(S|H)=\frac{N(S\cap H)}{N(H)}=\frac{36}{100}=0.36$$

      On note qu'on peut la retrouver également en divisant les fréquences conjointes plutôt que des effectifs : $$f(S|H)=\frac{f(S\cap H)}{f(H)}=\frac{36/200}{100/200}=0.36$$ car la division par 200 en haut et en bas ne change rien.

    • On note que si l'on dispose d'une fréquence conditionnelle, on peut retrouver aussi à partir d'elle l'effectif ou la fréquence conjointe de départ de la case, en la remultipliant par sa marge de référence. Par exemple, le nombre d'hommes qui fument $N(H\cap S)$ peut être retrouvé à partir de la fréquence conditionnelle de fumeurs chez les hommes en calculant : $f(S|H)\times N(H)=0.36\times 100=36$. De la même façon on peut retrouver la fréquence conjointe par : $f(H\cap S)=f(S|H)\times f(H)=0.36\times 0.5=0.18$.
    • la fréquence conditionnelle en ligne n'est pas la même chose que la fréquence conditionnelle en colonne. Par exemple, la fréquence de fumeurs chez les hommes ($f(S|H) = 36/100=0.36$) n'est pas égale à la fréquence d'hommes parmi les fumeurs ($f(H|S)=36/80=0.45$). On dit que ces deux fréquences conditionnelles sont inverses l'une de l'autre (car les symboles $S$ et $H$ sont inversés autour de la barre verticale).
      Le nombre d'hommes qui fument (36) est dans un cas divisé par 100 (c'est le groupe des hommes qui représente l'ensemble de référence), et dans l'autre cas divisé par 80 (c'est le groupe des fumeurs qui sert de référence).
    • les deux fréquences inverses ont cependant pour élément commun le nombre d'hommes qui fument. On peut donc facilement retrouver une fréquence conditionnelle à partir de son inverse, en remultipliant celle-ci par son total de référence (par exemple $0.45\times 80$) puis en redivisant le résultat ainsi obtenu par l'autre total marginal (par exemple $0.45\times80/100=0.36$ ou bien $0.36\times 100 / 80=0.45$).
      C'est ce qu'on appelle la formule d'inversion de Bayes, qui pour cet exemple s'écrit symboliquement (sur les fréquences conjointes) : $$f(S|H)=\frac{f(H|S)\times f(S)}{f(H)}$$
    • Enfin, des fréquences totales d'événements (fréquence des femmes, ou fréquence de non-fumeurs...) peuvent être retrouvées en additionnant des fréquences par morceaux. Par exemple, la fréquence des femmes, c'est la fréquences des femmes qui fument ajoutée à la fréquence de celles qui ne fument pas : $$f(F) = f(F\cap S)+f(F\cap \overline{S})=0.22+0.28=0.5$$ En utilisant les remarques précédentes, on peut aussi réécrire cette addition de fréquences conjointes en les retrouvant à partir des fréquences conditionnelles, comme : $$f(F)=\left[f(F|S)\times f(S)\right]+\left[f(F|\overline{S})\times f(\overline{S})\right]=\left(0.55\times0.4\right)+\left(0.47\times0.60\right)=0.5$$

4. Probabilités

Pourcentages et fréquences sont des outils descriptifs pour résumer les résultats d'un enregistrement concret des apparitions d'un ou plusieurs événements. Mais il y a des cas où la fréquence apparente d'un phénomène est trompeuse, en particulier si on n'a pas accès à la population totale, et qu'on mesure la fréquence sur un petit échantillon de données. Dans l'exercice qui suit, on cherche à deviner quelle est la fréquence vraie d'apparition de la face 6 quand on lance un dé, à travers quelques essais.

Atelier 4 : notion de probabilité
  • expand_moreEn résumé

    En répondant aux questions de cet exercice, vous avez revu les points suivants :

    • la fréquence d'apparition d'un événement n'est pas la même chose que sa probabilité. La fréquence tend vers la probabilité (ou fréquence vraie) quand le nombre d'observations augmente, sans jamais y être complètement égale.
    • la probabilité d'un événement ne se mesure pas exactement sur un échantillon, mais peut parfois être déduite d'un raisonnement. Dans le cas du lancement d'un dé équilibré, elle peut se déduire du raisonnement qui dit que toutes les faces ont la même chance d'apparaître, sur les 6 résultats possibles, autrement dit une chance sur 6.
    • ce n'est pas parce qu'il y a 6 faces que cela donne une chance sur 6, mais bien parce que le tirage est équilibré et donne la même chance à toutes les valeurs (un dé à 6 faces pourrait en effet être truqué et faire apparaître l'une des faces plus souvent).

    Dans la pratique en psychologie, nous pourrons rarement établir la probabilité d'un comportement par raisonnement. On essaiera alors d'estimer cette probabilité inconnue en mesurant sa fréquence sur un nombre suffisant d'observations pour que ces estimations soient assez précises (comme vous l'avez fait en lançant le dé de nombreuses fois). On a naturellement intérêt dans cette situation à disposer d'un échantillon aussi grand que possible.