Quelle est la probabilité que deux personnes présentes au même conclave soient nées le 17 décembre 1936? Plus qu'on le croit. Photo Reuter.

Le paradoxe des anniversaires – vu par Excel et par Tableau Public

Combien faut-il d’enfants dans une classe pour que deux des anniversaires au moins tombent le même jour? Beaucoup moins qu’on ne le croit. Explication, démonstration, visualisation.

L’idée de ce billet m’est venue en en lisant un autre sur l’excellent blog World of Analytics. J’ai voulu développer un peu, en y mêlant Excel et Tableau Public :

  1. Qu’est-ce que le paradoxe des anniversaires? (où l’on comprend que l’intuition n’est pas la raison)
  2. Comment l’expliquer? (où je comprends que je ne serai jamais un matheux)
  3. Un détour par Excel (où l’on voit en vitesse quelques nouvelles fonctions)
  4. Et un détour par Tableau public (où l’on s’aperçoit que les bébés ne naissent pas les jours fériés)

1.  Le paradoxe des anniversaires.

Imaginez une classe d’enfants, auxquels on demande d’inscrire leur date d’anniversaire sur un bout de papier. En toute logique et si on ne tient pas compte des années bissextiles, 365 dates différentes sont possibles. A votre avis, combien faudrait-il d’enfants dans la classe pour que l’on ait au moins 50% de chances de voir deux d’entre eux fêter leur anniversaire le même jour? Vous avez répondu 182 ou 183? Tout faux, la réponse est… 23. Et à partir de 57 personnes dans le groupe, la probabilité est de 99%. Etonnant, non? En d’autres mots, le paradoxe des anniversaires est défini par Wikipedia comme « une estimation probabiliste du nombre de personnes que l’on doit réunir pour avoir une chance sur deux que deux personnes de ce groupe aient leur anniversaire le même jour. » Il ne s’agit donc pas d’un paradoxe au sens premier mais d’un paradoxe dans le sens où la raison contredit l’intuition.

Quelle est la probabilité que deux personnes présentes au même conclave soient nées le 17 décembre 1936? Plus qu'on le croit. Photo Reuter.
Quelle est la probabilité que deux personnes présentes au même conclave soient nées le 17 décembre 1936? Plus qu’on le croit. Photo Reuter.

 

2. Comment l’expliquer?

L’erreur vient du fait que l’on considère intuitivement les événements comme disjoints alors que ce n’est pas le cas. Imaginons ainsi un groupe de trois personnes : A, B et C. Si les trois enfants comparent deux à deux leurs dates d’anniversaire, ils n’auront qu’une chance sur 365 de préparer leur fête le même jour. Soit, pour les trois paires, 3 chances sur 365. Mais c’est oublier aussi que ces trois personnes sont en interaction et que leurs anniversaires à toutes les trois peut également, par chance, tomber le même jour.  Etendez cette réflexion à un groupe de 10, 20, 30 ou 50 personnes et vous commencez à comprendre l’explication de ce paradoxe. Pour l’écrire autrement, dans une classe de 23 personnes, il y a donc (23*22)/2=253 paires possibles.Etant donné que la chance que deux personnes fêtent leur anniversaire le même jour, quel que soit le groupe, est de 364/365, cette chance sera, dans un groupe de 253 paires, de (364/365)^253. Soit 0,4995

Le paradoxe des anniversaires, ai-je appris récemment, a ainsi des applications nombreuses en cryptographie.

3. Le calcul dans Excel

Il est visible ici et s’obtient par la formule suivante : =1-(PERMUTATION(365;E1)*(1/(365^E1)))
Où ^ introduit l’exposant (par exemple, 2^3=8) et où la fonction permutation est notamment décrite ici.
Sans utiliser la fonction Permutation, un tableau récapitulatif des probabilités est disponible ici.

Comme je n’ai pas sous la main de liste de dates d’anniversaire, essayons d’en créer une de manière aléatoire sous Excel (avec la fonction déjà vue dans ce blog de =alea.entre.bornes puis avec une concaténation pour obtenir des dates d’anniversaires du style 08-02). Un rapide examen de la feuille montre que sur les 50 entrées crées de manière aléatoire par Excel, il y a plusieurs doublons.
doublons

4. Le regard de Tableau public

Bien sûr, pour un calcul plus précis des probabilités, il faudrait tenir compte des années bissextiles, de la situation géographique (dans l’hémisphère nord, il y a plus de naissances de juin à septembre, mois d’été) mais aussi… des jours fériés légaux. En effet, comme le montre le tableau ci-dessous (les données sont fournies par Statbel), les jours où il y a eu le moins de naissances entre janvier 2008 et décembre 2014 en Belgique sont, par la force des choses, le 29 février mais aussi le 1er janvier, le 1er mai, le 21 juillet (fête nationale belge), le 15 août (Sainte-Marie, jour férié également), le 1er novembre, le 11 novembre et le 25 décembre.

 

Et voici, plus largement, une autre visualisation des données de naissance en Belgique, faite avec Tableau Public également.
On remarque ici que c’est le mardi qui fait le plein de cigognes et qu’il y a sensiblement plus de naissances au cours de juin à octobre, avec un pic au mois de juillet.
Une impressionnante et compréhensible chute du nombre de naissances est aussi observable au moment des deux Guerres mondiales.