Les biais statistiques

Retranscription de l’interview de Nicolas Gauvrit dans l’épisode #29

Alan : Nicolas, pour te présenter en quelques mots, tu es mathématicien et psychologue.

Nicolas Gauvrit : Oui, c’est à peu près ça. J’ai d’abord fait des études de mathématiques puis des études de psychologie. Mon diplôme le plus élevé concerne un machin intermédiaire : les sciences cognitives. J’ai une thèse de sciences cognitives sur un thème à cheval entre mathématiques et psycho, comme j’adore ! C’était sur la logique, donc un thème un peu différent des statistiques dont on va parler aujourd’hui. Mais toujours entre maths et psycho.

Alan : Peut-être des auditeurs reconnaîtront ta voix puisque tu co-animes avec Jean-Michel Abrassart le podcast Scepticisme Scientifique.

N.G. : Oui, je fais un numéro par mois.

Alan : Voilà. Co-animer n’est pas vraiment le terme, vous faites des numéros en alternance. Il en fait trois, tu en fais un.

N.G. : C’est à peu près ça. J’ai voulu le dépanner quand il était débordé.

Alan : En tout cas, tu le dépannes avec brio puisqu’on a bien accroché sur tes sujets. C’était vraiment intéressant et puis Matthieu est tombé raide dingue d’un des sujets que tu avais traité sur les statistiques. Il a eu l’idée de t’inviter pour que tu nous aides à défricher ce terrain particulier. Matthieu, tu as à peu près une tonne de questions ?

Matthieu : Oui ! Evidemment. Les statistiques, c’est un domaine très vague. A Podcast Science, on est tout à fait conscients de l’importance des statistiques dans les avancées scientifiques, c’est indéniable. Mais aujourd’hui on va s’arrêter sur une problématique un peu particulière des statistiques, qui sont les biais statistiques. Un biais, c’est une démarche qui engendre des erreurs dans les résultats d’une étude. Quand on parle de biais statistique, il y a différents types de biais. Nicolas, tu m’arrêteras ou tu me corrigeras si je me trompe, je vais en dire quelques uns en vrac et on s’arrêtera plus précisément sur certains d’entre eux.
Quand on parle de biais en statistiques, on peut avoir des biais de sélection, quand les personnes sondées ne sont pas représentatives de la population générale. On peut avoir des biais de mesure quand les techniques de mesure sont incorrectes. Des biais de publication quand les données sont davantage diffusées lorsqu’elles arrangent l’auteur de l’étude. Des biais de confusion, des biais d’un estimateur (peut-être s’arrêtera-t-on dessus plus tard, ça a l’air technique, je ne veux pas trop m’avancer là-dessus). On a des biais de suivi lorsque deux groupes de patients ne sont pas suivis de la même manière au cours de l’essai. Des biais d’attrition, c’est le retrait de certains patients lors de l’analyse. Des biais d’évaluation lorsque la mesure du critère de jugement n’est pas réalisée de la même manière dans les groupes de patients. Des biais d’interprétation dans le mode d’analyse des résultats. Bref, tout une série de biais, je ne les ai pas tous cités.

Alan : Une petite réflexion. Les statistiques sont faites par des êtres humains et les être humains sont biaisés. Enfin, pas tous, pas toujours… Finalement, c’est pas tellement surprenant. C’est pas une science exacte, contrairement à ce qu’on pourrait croire. En tout cas, c’est pas toujours appliqué avec la rigueur nécessaire. Je me réjouis d’en apprendre plus sur le sujet.

Matthieu : Justement l’objectif est de voir, à travers ces biais, à quel endroit l’on perd de la rigueur dans certaines analyses ou certaines méthodes statistiques.
On va commencer avec un des biais les plus évidents : le biais de sélection. Les personnes sondées ne sont pas forcément représentatives de la population générale. Ma première question pour Nicolas est la suivante. Je me demande souvent si les mesures d’audimat sont des méthodes fiables. Les échantillons utilisés sont-ils représentatifs ? Dommage qu’Antoine ne soit pas là, il avait tweeté il y a quelques semaines, un message dans lequel on se rendait compte que l’audimat télé (pour la France) est extrapolé à partir de 10.000 personnes dans 3.800 foyers. Ça fait tout juste 0,02 % de la population française. Je n’y connais rien en statistiques mais ça me paraît un chiffre très faible.

N.G. : La taille de l’échantillon n’est pas très faible. Ce n’est pas la proportion de la population générale qui compte. Il faut garder à l’esprit qu’à partir d’un échantillon, on fait des estimations et il y a des marges d’erreur. Pour un sondage, par exemple, si on trouve 52 %, les sondeurs savent que ce n’est pas exactement 52 % mais plus ou moins 3 %. Quand l’échantillon est plus petit (je ne parle pas de problèmes de sélection) changer la taille de l’échantillon va juste changer la précision de l’estimation. S’il y a plus de monde, on pourra dire que c’est 52 % plus ou moins 1 % au lieu de plus ou moins 3 %. Il n’y a pas de problème de taille d’échantillon si on n’a pas un besoin crucial d’avoir une estimation non seulement fiable mais restreinte. On peut très bien se contenter d’un échantillon de 10 personnes.

Matthieu : L’important ce n’est pas tant la taille de l’échantillon que la sélection de la population qui doit être représentative.

N.G. : On peut dire ça. Ou plutôt que la taille de l’échantillon va modifier la précision du résultat en termes de marge d’erreur. Ça ne fait pas qu’on se trompe plus souvent, ça fait que ce qu’on dit est plus ou moins flou. Au lieu de dire qu’on sait qu’entre 1 million et 1,1 millions de personnes regardaient l’émission, on pourra simplement dire que c’est entre 100.000 et 2 millions, on ne pourra pas être plus précis.

Alan : Si la quantité de l’échantillon est insuffisante, ça donne simplement un résultat moins précis, un peu plus flou.

N.G. : Voilà.

Alan : Par contre, si la qualité de l’échantillon n’est pas au rendez-vous ? Je pense à une étude récente de l’université de Colombie-Britannique qui a démontré qu’entre 2003 et 2007, 80 % des sujets d’étude dans 6 grands journaux de psychologie étaient des étudiants en licence et que nonante-six pour-cent (96%) de tous les échantillons proviennent de pays qui constituent 12 % de la population mondiale. Les auteurs de l’étude ont surnommé ces populations les «weird populations» (weird = bizarre) pour Western Educated Industrialised Rich Democratic et estiment que ce sont les moins représentatifs pour établir des généralisations sur les êtres humains. Ça laisse songeur. Tu confirmes, en tant que statisticien, le biais de représentativité qui est présenté dans cet exemple ?

N.G. : En psycho, il y a une blague récurrente. Quelqu’un avait dit que l’étude de la psychologie c’est l’étude de la psychologie des étudiants en psychologie.
Ça peut être problématique dans certains cas mais il ne faut pas non plus dramatiser. Ça peut être problématique si quelque chose est vrai pour les étudiants de psychologie et pas pour les autres. Heureusement, il y a des gens qui réfléchissent derrière. Quand il semble y avoir une raison pour laquelle les étudiants de psychologie pourraient ne pas se comporter comme les autres, par exemple si on les interroge sur leur vision de la psychologie des humains, on peut se dire qu’ils vont avoir une vision particulière. Ou sur ce qu’ils pensent des études supérieures ou de ce qu’est la science, des choses comme ça. Quand on a un tel thème dont on peut penser, pour de bonnes raisons, que les étudiants de psychologie ne répondront pas comme le reste de la population, on fait attention de ne pas prendre d’étudiants de psychologie ou pas seulement. Et si un auteur le fait, en général au bout d’un certain temps, un autre chercheur se dit qu’il va vérifier avec d’autres personnes. Un exemple frappant pour montrer qu’il y a un problème porte sur les préférences numériques. C’est un thème étudié depuis au moins 40 ou 50 ans en psychologie. Si on demande à n’importe qui, pas forcément un étudiant de psychologie, de choisir un chiffre entre 0 et 9, beaucoup de gens répondent 7. Au lieu d’avoir 10 % pour chaque chiffre, on a 30 % de gens qui disent 7. L’expérience a d’abord été faite aux Etats Unis et au Canada puis en Europe et un peu partout et à chaque fois c’est 7. Ce qui est marrant c’est que plus de trente ans après ces considérations sur la préférence du chiffre 7 (ça s’appelle même le «seven phenomenon», en psychologie), des gens ont commencé à faire des théories compliquées pour expliquer pourquoi c’était le 7, en s’appuyant notamment sur les propriétés des nombres. Griffith et Tannenbaum, deux psychologues très connus, assez orientés vers les mathématiques (ils aiment bien ce qui est compliqué en maths) ont voulu regarder dans les chiffres à quoi pensent les gens. Ils cherchent quelles propriétés ont les chiffres, par exemple 2 4 6 sont des nombres pairs, 5 est juste au milieu de l’intervalle, etc… quand on demande un chiffre au hasard à une personne, elle va chercher un chiffre qui a peu de propriétés. Et c’est le 7 qui en a le moins. Ils ont développé leur théorie là-dessus et bizarrement il a fallu plusieurs décennies avant que quelqu’un ait l’idée de faire la même expérience ailleurs que dans les pays riches démocratiques. On s’est alors aperçu que les nigérians préfèrent le 2, que les tunisiens préfèrent le 9 (je ne suis pas sûr de ce résultat) , etc… En gros, dans des pays différents, on trouve des préférences numériques différentes. Ce qui fait que toute la grande théorie sur les propriétés des chiffres et l’explication du 7 par ces propriétés, c’est n’importe quoi. Visiblement, c’est culturel et on peut même imaginer que ça vient de l’importance du chiffre 7 dans la bible.

Matthieu : C’est souvent considéré comme un chiffre un peu magique, aussi. C’est pour ça qu’on a tendance à le dire plus facilement.

N.G. : Donc là, on voit qu’effectivement il y avait un biais, un problème d’échantillonnage. On n’a pas pris les gens comme il fallait, ce n’était pas représentatif. Il a fallu des décennies avant qu’on s’en aperçoive. Mais on a fini par s’en apercevoir, c’est ce qui est rassurant !

Alan : Heureusement. C’est tout l’intérêt de la démarche perpétuelle de remise en question de la science. Cela permet de corriger ses propres erreurs. C’est un mécanisme d’autocorrection.

Matthieu : Un autre biais intéressant est le biais de publication. C’est lorsque les données sont davantage diffusées lorsqu’elles arrangent les auteurs d’une étude. Peux-tu nous en dire plus ? Est-ce que ça arrive souvent ?

N.G. : Je ne l’aurais pas défini comme ça. J’aurais plutôt dit que les résultats positifs sont plus souvent publiés que les résultats négatifs. Je ne suis malgré tout pas naïf et je sais que si ça arrange l’industrie pharmaceutique qu’on trouve qu’un médicament fonctionne bien, il y a des chances qu’il y ait des publications dans ce sens. Ils vont payer des gens pour publier et ils vont réussir à bloquer la publication d’articles qui iraient dans l’autre sens. C’est un peu simpliste et je ne voudrais pas tomber dans le complotisme. En général, si toute l’industrie essaie de faire croire qu’un médicament fonctionne alors qu’il ne fonctionne pas, il y aura de nombreuses publications contradictoires. Certaines qui disent que c’est bien et d’autres, dans de grandes revues, qui disent que c’est pas vrai. Les résultats ne sont pas homogènes pour une allégation fausse.
Pour moi le biais de publication est plus général. Si par exemple je m’amuse à tester tout et n’importe quoi pour savoir si ça donne le cancer (je reprends l’exemple inventé que j’ai mis dans mon livre)…

Matthieu : Tu as écrit un livre ? On ne savait pas…

N.G. : Oui. Il s’appelle «Statistiques, méfiez-vous» paru chez Ellipse. Je crois que c’était en 2007. J’y passe en revue pas mal de biais ou d’erreurs statistiques dans lesquels ont peut tomber assez facilement.
J’évoque ce biais de publication en lien avec autre chose. Si on teste plein de fois quelque chose de faux, par exemple plein de produits pour savoir s’ils sont cancérigènes ou pas (j’en mets sur un groupe de souris et pas sur d’autres) même si tout est très bien fait, avec les statistiques il y a toujours une marge d’erreur. Donc si je fais ça très très souvent, de temps en temps, j’aurai un résultat positif alors qu’il n’y a rien. Si vous envoyez un article à une grande revue de médecine en annonçant avoir testé le carton et conclu qu’il n’est pas cancérigène, évidemment ça n’intéresse personne. Tout le monde s’en fout parce que personne n’a jamais pensé que le carton pouvait être cancérigène. Du coup l’article est refusé. Mais si vous continuez vos tests avec de nombreuses substances, vous finirez par en trouver une, par exemple l’eau du robinet. Par hasard vous arrivez à démontrer qu’elle est cancérigène alors que ce n’est pas vrai. C’est seulement que vous avez fait tellement d’expériences qu’il finit par y en avoir une positive. Là par contre, il y a des chances que ce soit publié parce que ça a un intérêt pour la médecine.
On pense que c’est ce qui peut se passer avec la parapsychologie, bien qu’il y ait des contrôles maintenant. Quand ils testent à tire larigot la télépathie, par exemple, ils font des tests, des statistiques et une fois de temps en temps on a l’impression que ça marche. Mais c’est normal. Le tout est de savoir si ça marche plus d’une fois sur vingt, auquel cas ça veut dire quelque chose, dans le cas contraire ça ne voudra rien dire. Mais si on ne publie que les fois où ça marche, on a l’impression que ça marche à tous les coups évidemment.
Je disais dans mon livre, et je répète ici, qu’il y a quand même un contrôle qui se fait. Si par exemple, j’arrive à publier un papier disant que le carton ou l’eau du robinet sont cancérigènes, évidemment, plein de gens dans le monde qui vont se demander quel est ce délire et ils vont refaire l’expérience. Donc une fois que j’ai publié mon article, surtout si ça a fait du bruit, d’autres gens pourront publier un article qui dit le contraire. Il faut se méfier d’un résultat qui n’est publié qu’une fois à cause du biais de communication. C’est différent quand plein d’expériences vont dans le même sens. Au sens où je l’entends, le biais de publication ne joue plus après la première expérience.

Matthieu : Le peer reviewing est très important suite à une première publication, aussi. Non seulement pour revoir comment a été faite l’expérience mais aussi pour essayer de la reproduire et la valider.

N.G. : Oui, voilà.

Alan : Est-ce qu’il n’y a pas un autre danger aussi ? Lié au biais de publication, qui fait que toutes les hypothèses qui n’ont pas abouti ne sont pas publiées ? Du coup on passe à côté d’informations précieuses pour comprendre un phénomène, non ?

N.G. : Je ne suis pas sûr de bien comprendre la question.

Alan : Si on ne publie que les hypothèses qui se sont vérifiées, c’est un peu ce que tu disais, dans le biais de publication. C’est-à-dire que si l’hypothèse de départ n’intéresse personne ou si elle n’a finalement pas abouti, la publication ne se fait pas. Ou c’est moi qui ai mal compris ?

N.G. : Ça se fait si ça remet en question une idée reçue. Si tout le monde pense que le carton est cancérigène, je peux publier quelque chose qui montre le contraire mais on ne va pas publier un résultat négatif. Je veux dire prouver que quelque chose n’est pas cancérigène ou n’a pas d’effet ou qu’il n’y a aucun lien entre deux variables si jamais personne n’avait pensé qu’il pouvait y avoir un lien, ce n’est pas très intéressant.
Je ne crois pas qu’on passe à côté de grand chose là-dedans. Par contre, après, si je me rapproche de la définition que vous aviez, plus large, du biais de publication, la science est quelque chose d’humain alors il y a énormément d’effets de groupe. Ce qui fait que quand on a des phénomènes pour lesquels on a deux hypothèses, deux théories, qui ont la même qualité, et qu’on ne sait pas trop trancher, c’est souvent le groupe le plus puissant qui l’emporte, tout simplement. Indépendamment de la qualité intrinsèque des hypothèses. S’il n’y a pas de grosses différences, il y a des histoires de groupe, de facteur social qui peuvent jouer sur les publications.

Matthieu : Un autre biais. Celui-ci m’a interpelé parce que j’ai pas tout compris. Tu vas peut-être nous éclaircir. C’est le biais d’un estimateur. J’ai repris la définition qu’on trouve dans Wikipédia. Elle dit que le biais d’un estimateur, c’est la différence entre l’expérience de l’estimateur et la vraie valeur du paramètre qu’il est censé estimer. Toujours selon Wikipédia, ce qu’on appelle un estimateur en statistiques, c’est une valeur calculée sur un échantillon et que l’on espère être une bonne estimation de la valeur que l’on aurait calculée sur la population totale.

N.G. : Dans les exemples de biais que tu donnais en introduction, il y a un mélange entre ceux qui relèvent de la méthodologie (ce ne sont pas véritablement des statistiques), ceux qui relèvent de l’échantillonnage (la formation des groupes sur lesquels on va faire les études, la ça porte sur les statistiques). C’est un peu différent.
C’est pas difficile à comprendre. Si par exemple on veut estimer une moyenne. Prenons un exemple concret : on veut savoir combien mesure un adulte en moyenne. Comme je ne vais pas pouvoir mesurer tout le monde, je vais prendre dans l’idéal des gens au hasard (je suppose que c’est au hasard sinon c’est un problème d’échantillonnage). Je calcule la moyenne sur les 100 personnes que j’ai trouvées. Mettons 1,75m. Si je n’avais pas pris ces cent personnes-là mais cent autres, toujours par hasard, le résultat aurait été légèrement différent. J’aurais peut-être trouvé 1,76m ou 1,74m. Ce qu’on regarde de manière complètement théorique, c’est ce qui va se passer globalement. C’est à dire est-ce que je vais souvent trouver la bonne moyenne ou à peu près la bonne moyenne, etc… En fait, on peut considérer que la moyenne que j’ai trouvée (1,75m), je l’ai trouvée par hasard et que c’est une réalisation d’une variable aléatoire. C’est comme si j’avais jeté un dé en choisissant mon échantillon de 100 personnes. Mon dé m’a donné 1,75m. On regarde le lien entre ce qu’on trouve et la vraie moyenne qu’on ne connait pas. Quand tout se passe bien comme pour la moyenne, ce qu’on trouve en moyenne ça correspond à la vraie valeur. C’est à dire que si je prends des échantillons de cent, un coup je tombe sur 1,75 un coup je trouve 1,74, ça varie. Mais si je prends toutes les moyennes possibles que je peux observer, la moyenne de la moyenne donne la vraie valeur de la taille des adultes en France. Cela s’appelle un estimateur. C’est la grandeur d’un échantillon qui sert à estimer la grandeur de la population et le biais serait la différence entre ce que je trouve en moyenne sur un échantillon et la réalité. Pour la moyenne, ce n’est pas biaisé. Le résultat, en moyenne, tourne autour de la vraie moyenne que je cherche.
Pour d’autres choses, parce qu’on n’estime pas que des moyennes, il y a parfois des biais. Quand on arrive à les connaître, on peut les corriger. Dans la plupart des cas concrets, en statistiques, quand on utilise des estimateurs, ce sont des estimateurs non biaisés.

Matthieu : Un estimateur qui serait biaisé, par exemple, serait quoi ?

N.G. : Par exemple le maximum. Si je veux savoir la taille maximum des adultes en France et que je prends des échantillons de cent, j’aurai toujours des valeurs inférieures au maximum. De temps en temps, quand j’ai le plus grand, j’aurai la bonne valeur. Mais en moyenne, ça sera trop petit.

Matthieu : Un autre biais est celui d’interprétation. Tu me corrigeras au besoin, ce serait l’erreur dans le mode d’analyse des résultats.

Alan : Je me posais la question de la compréhension des journalistes quant aux statistiques, quand ils relaient des informations scientifiques ou non . Je pense par exemple à l’augmentation de la criminalité qui fait régulièrement les titres de manchettes. En Suisse, par exemple, on sait que les actes criminels augmentent en chiffres absolus mais on oublie en général de tenir compte de l’augmentation de la population. Alors qu’en chiffres relatifs, la criminalité a tendance à baisser. Ma question est : est-ce que les journalistes comprennent les statistiques ? Selon toi, en comprennent-ils bien les enjeux ?

N.G. : Je pense qu’en général, non. Pour avoir discuté avec quelques journalistes, je pense qu’ils n’ont pas de formation statistique suffisante pour comprendre. Mais il me semble aussi que même s’ils avaient cette formation, même s’ils comprenaient complètement, ils ne peuvent pas se permettre de détailler suffisamment pour que ce ne soit pas trompeur. C’est un vrai problème. Par exemple si on a des indices de criminalité ou autres, pour être bien rigoureux, il faudrait savoir exactement ce que c’est, ce qu’on mesure. Il faudrait donc détailler. En général, on dit que ça a été fait pour mesurer la criminalité donc on va identifier ça à ce qu’on entend par criminalité. Mais c’est un peu flou. On se contente de ça parce qu’on ne va pas, à chaque fois qu’on fait un article sur la criminalité, commencer par une introduction sur comment ça a été mesuré, ce que ça représente et comment ça peut varier. Le problème par exemple, pour cette histoire de criminalité, c’est qu’il s’agit souvent de regarder combien il y a eu de plaintes à la police. Ça peut varier parce que la criminalité varie mais ça peut aussi varier parce que les gens ont plus ou moins peur qu’avant d’aller porter plainte. Ou bien simplement parce qu’il y a un commissariat pas loin ou qu’il n’y en a pas. On peut imaginer que s’il y a des bandes organisées qui menacent de venir se venger si vous allez à la police, ça va faire baisser la criminalité puisque la plupart des gens n’oseront plus porter plainte. De même s’ils sont maltraités quand ils vont au commissariat. C’est d’ailleurs une explication pour des choses plus spécifiques comme le nombre de viols enregistrés. A une époque, on considérait que lorsqu’une fille était violée, c’était de sa faute donc elle n’allait pas se plaindre. Si c’est pour qu’on se foute de sa gueule en plus, ce n’est pas la peine. Et puis quand ça a enfin été reconnu, et qu’une fille violée est devenue une victime, ça a pu faire exploser le nombre de viols enregistrés mais c’est pas une augmentation du nombre de viols tout court.
Les indices sont toujours un peu différent de ce qu’ils sont censés mesurer. C’est pas propre aux statistiques, c’est comme ça dans toutes les sciences.
L’autre problème avec les statistiques, telles qu’elles sont rapportées dans les journaux, c’est que, pour les estimations par exemple, les marges d’erreur ne sont pas rapportées. J’avais pris un exemple pour mon livre, il commence à dater… j’avais pris les résultats d’un sondage pour une revue où l’on disait qui l’emporterait au deuxième tour. Au deuxième tour, il n’y a que deux candidats donc celui qui l’emporte c’est celui qui a plus de 50 %. Le sondage annonçait qu’untel aurait 51 % des voix. En lisant ça, on se dit que c’est machine qui va gagner (c’était Ségolène Royale). Après les résultats, la presse s’est déchainée en disant que les sondages disaient n’importe quoi. Sauf que la marge d’erreur était supérieure à 1 %. Ce qui fait que le 51 % annoncé correspondait plutôt à «un intervalle entre 49 et 53 %». Le statisticien aurait conclu qu’à partir de cela, on ne peut pas dire qui va gagner. On peut uniquement déduire que le candidat aura au dessus ou en dessous de 50, pas plus. Mais évidemment, on ne peut pas publier un article pour dire qu’on ne sait pas.
Soit on ne dit rien, soit on donne juste le résultat brut. C’est ce qui se fait habituellement. Ce genre de choses fait du tort aux statistiques. Ça laisse penser qu’il y a du flou. Evidemment, il y en a, c’est certain. Mais c’est encore plus flou quand on voit des sondages qui sont finalement faux. On s’en aperçoit après coup. Sauf que bien souvent, comme dans ce cas-là, ils n’étaient pas faux. C’est juste que la version du journal n’était pas la bonne.

Matthieu : C’est vrai que les marges d’erreur sont importantes. Quand je lis des résultats d’études, je ne vois jamais le résultat avec une marge d’erreur x ou y. C’est très rare de voir ça en lisant le journal ou des revues standards.

Alan : Dans toutes les publications grand public, ça n’apparait tout simplement jamais.

N.G. : il n’y a pas que la marge d’erreur. Il y a une double incertitude, s’il l’on veut, avec les estimations. Il y a la marge d’erreur mais aussi le risque d’erreur. C’est-à-dire le risque qu’on ne se trouve pas dans l’intervalle considéré. En général, le risque est fixé à 5 %. C’est à dire une fois sur vingt. Ça veut dire que si tous les sondages sont bien faits, on a à chaque fois une certaine marge d’erreur (c’est pas 51 % mais entre 49 et 53 %, par exemple) mais, en plus de ça c’est entre 49 et 53 avec 19 chances sur 20. C’est donc normal qu’une fois sur vingt on ne tombe pas dans l’intervalle.

Matthieu : c’est relativement important 5 %. On peut en tenir compte, c’est une valeur plausible qui peut se réaliser.

N.G. : Oui. Le 5 % a été choisi pour qu’on puisse quand même énoncer des résultats. Plus on veut réduire le risque, plus on augmente la marge d’erreur. Si on veut un risque de 1 %, au lieu d’être 49-53, l’intervalle sera 40-60.

Matthieu : Donc ce 5 % c’est une sorte de convention comme valeur de risque ?

N.G. : Oui c’est le risque habituellement utilisé, c’est vraiment une convention. La première publication de «je ne sais plus qui ça m’est sorti de la tête», du père fondateur des statistiques inférentielles, disait qu’il faudrait prendre comme risque un sur dix mille (0,01%). On en est loin, on a beaucoup assoupli ces préconisations parce que si on gardait ça, on ne trouverait jamais rien. Il faudrait des échantillons énormes.

Alan : En résumé, si on veut s’attendre à ce qu’un chiffre publié dans la presse qui parle de statistiques quelles qu’elles soient, soit fiable, il faut qu’on recherche également la marge d’erreur et le risque d’erreur à côté de ce chiffre. Sinon, on ne peut pas s’y fier. C’est ça ?

N.G. : Oui.

Alan : En gros, on peut rarement se fier aux allégations statistiques véhiculées par la presse grand public.

N.G. : Je te laisse responsable de tes paroles !
Mais il faut tenir compte de ça, oui. La marge d’erreur et le risque sur cette marge d’erreur.

Matthieu : On va continuer sur la même idée. Je voulais revenir sur un épisode que tu avais fait dans Scepticisme Scientifique, qui s’appelait «feeling the future». Tu expliquais deux notions qui sont assez complémentaires et que je trouve intéressantes. La première c’est la différence qu’il y a entre statistiques exploratoires et statistiques confirmatoires. Est-ce que tu peux nous expliquer la différence ?

N.G. : Oui. Pour bien comprendre, il faut que je dise un mot sur les tests statistiques. On a parlé d’estimation, c’est un peu lié mais ce n’est pas tout à fait la même chose. Je vais reprendre l’idée de l’article dont a parlé plus tôt. Daryl Bem, un psychologue qui versait pas mal dans la para-psychologie, prétendait avoir démontré qu’on pouvait savoir ce qui allait se passer dans le futur. Cela s’appelle la précognition. Il a utilisé une série d’expériences et de traitements statistiques. Pour faire simple, en général, ces expériences consistent à demander (là je simplifie un peu mais ça n’a aucune importance) aux gens de deviner où une image va apparaître, à gauche ou à droite. Ça paraît assez évident que en cas de précognition, les gens vont réussir plus d’une fois sur deux et sinon, ils vont réussir une fois sur deux.
Un test statistique est un test qui oppose deux hypothèses. Il y a en général l’hypothèse nulle, c’est à dire qu’il n’y a pas de précognition. Dans ce cas, les gens vont réussir une fois sur deux. Et l’hypothèse alternative qui dit le contraire, c’est à dire que les gens vont réussir plus qu’une fois sur deux. Normalement il devrait aussi y avoir moins d’une fois sur deux mais on va dire plus d’une fois sur deux. Ça fonctionne comme ça. Pour lancer l’expérience, ont fait, disons, une centaine d’essais. Mettons que quelqu’un ait trouvé 55 fois la bonne réponse (donc plus d’une fois sur deux). Est-ce que pour autant on peut conclure ? Ce n’est pas si évident car il pourrait avoir trouvé par hasard sans avoir aucun don de précognition 55 fois la bonne réponse. Alors on fait des calculs de probabilités pour savoir, en supposant l’hypothèse nulle vraie, c’est à dire en supposant qu’il n’y a pas de précognition, quelle est la probabilité de tomber par hasard 55 fois sur la bonne réponse. C’est cette probabilité-là qui va nous intéresser. Si elle est très faible (inférieure à 5 % puisqu’on a fixé le risque à 5%), on fera le raisonnement suivant : si l’hypothèse nulle était vraie, ce que je viens d’observer n’est pas crédible puisque c’est quelque chose qui n’arrive quasiment jamais. Ça veut dire que l’hypothèse nulle est fausse donc c’est l’hypothèse alternative qui est vraie, donc il y a la précognition. C’est le principe du test. Or, on l’a vu précédemment, si l’hypothèse nulle est vraie (s’il n’y a pas de précognition) alors une fois sur vingt, on va quand même trouver plus de 55 bonnes réponses puisque ça arrive une fois sur vingt.

Matthieu : Du au risque sur la marge d’erreur.

N.G. : Donc une fois sur vingt, on va se planter si l’hypothèse nulle est vraie. C’est un test statistique standard : si l’hypothèse nulle est vraie, ça rate une fois sur vingt. Ça conduit quand même à conclure que l’hypothèse nulle est fausse, donc que la précognition existe.
La différence entre les études confirmatoires et exploratoires est la suivante. Quand vous faites une étude exploratoire vous ne connaissez pas le résultat. C’est à dire que vous ne savez pas exactement s’il y a de la précognition ni dans quelles conditions. Peut-être la précognition existe-t-elle à condition d’avoir un bandeau sur les yeux ou d’écouter de la musique douce. Vous allez alors essayer avec plein de conditions différentes sans savoir, a priori, quelle est la bonne. Disons que vous allez essayer une centaine de conditions différentes. Avec musique, sans musique, dans le noir, avec une lumière rouge, etc… pour trouver dans quelles conditions il y a la précognition. Mais si vous faites les cent expériences, sachant que le test rate une fois sur vingt, évidemment, dans le tas, il y en a qui vont réussir (faussement). Cela va vous conduire à prétendre qu’il y a de la précognition alors que c’est le hasard qui est responsable. On ne peut pas utiliser un test pour conclure qu’il y a de la précognition dans une analyse exploratoire comme celle-ci où l’on ne sait pas à l’avance exactement ce qu’on cherche. Alors en général, ça se passe en deux temps. On fait d’abord une analyse exploratoire. On fait plein d’expériences et on s’aperçoit que le meilleur taux, par exemple, est obtenu avec une lumière rouge et de la musique. On se dit que si ça marche, ça marche probablement mieux quand il y a de la lumière rouge et de la musique. Mais on ne conclue rien du tout ! On dit juste que si ça marche, a priori, peut-être que ça marche mieux dans ces situations. Ensuite, quelqu’un d’autre ou la même personne mais avec d’autres sujets, poursuit l’expérience. Dans ce cas, c’est autre chose. C’est une analyse confirmatoire pour confirmer que ça marche effectivement dans ces conditions. Pour que ce soit concluant, évidemment, il faut faire une seule expérience dans les conditions qui ont été définies par l’analyse exploratoire (un seul test). Et on regarde si le test fonctionne ou pas. Là on peut conclure (toujours avec le même risque d’erreur).

Matthieu : Donc en général, il ne faut pas tirer de conclusions à la suite de statistiques exploratoires. Il faut toujours une analyse de statistiques confirmatoires pour pouvoir tirer des conclusions d’un test.

N.G.. C’est ça. Ça vient simplement de l’idée que comme un test rate une fois sur vingt, il faut en faire un seul. Je prends toujours l’image du dé avec mes étudiants (j’ai fait ça avec un jeu de cartes même si je ne suis pas assez magicien pour ne sortir que des 6). On vous donne un dé et on vous dit qu’il y a une chance sur deux qu’il soit truqué. Pour en être sûr, on va le tester. Pour ça, vous allez le lancer deux fois. Si vous tombez deux fois sur 6, vous direz qu’en effet, il est truqué. Mettons-nous dans la situation : on lance deux fois le dé et il fait 6 et 6. On est relativement convaincu que c’est un dé truqué (si on a des raisons de penser qu’il peut l’être). C’est assez convaincant. Par contre si on le lance une centaine de fois et que au bout de cent fois on a deux 6 de suite, évidemment, là c’est pas du tout convaincant ! Ce que ça illustre, c’est qu’une idée ne peut pas être testée 50 fois. Plus on teste, moins c’est convaincant. Sauf si on impose que tous les tests fonctionnent bien sûr. C’est ça que je critiquais. Parler d’analyse exploratoire ou confirmatoire, c’est une manière de dire la même chose, moi je le dirais spontanément comme ça. Je dirais que quand on a une hypothèse, on a le droit de la tester une seule fois. On fait une expérience, un test.

Matthieu : Parce que s’il y a plusieurs tests, il faut corriger la marge d’erreur, c’est ça ?

N.G. : Voilà. Mais il y a des techniques quand on veut tester plusieurs fois. C’est ce qu’a fait Bem. Il a fait, je crois, 9 expériences mais pour chacune il a fait de nombreux tests. Il a traité les données de plein de manières différentes. Il sépare en groupes différents. Au total, il a fait quasiment une centaine de tests. Dans son article, il a testé cent fois l’hypothèse de l’existence de la précognition. Il est donc normal qu’une partie de ces cent tests dise qu’elle existe puisque, comme le test échoue une fois sur vingt, sur cent fois, il y en a 5 qui fonctionnent.
Normalement, on ne doit pas faire ça ! On fait une seule expérience, un seul test.
Si on est obligé pour une raison ou une autre de faire plusieurs tests, dans ce cas, il faut corriger pour le nombre de tests. C’est à dire qu’en faisant un test deux fois, une correction très simple (un peu approximative et grossière) est de diviser le risque par deux. C’est à dire que si je fais deux tests pour tester la précognition, au lieu de faire chacun des tests au risque de 5 %, comme a fait Bem et comme on fait d’habitude, il faut imposer à chacun des deux tests un risque de 2,5 % pour que globalement la conclusion de l’article soit vraie au risque de 5 %.
Si on corrige l’article de Bem de cette façon, il n’y a plus rien de concluant. Tout ça revient à ces histoires de confirmatoire / exploratoire.

Matthieu : C’est clair. Tu as aussi fait une autre émission sur l’effet Barnum. Tu avais parlé de trois phénomènes. Il y avait l’effet Barnum, qui consiste dans le renforcement de croyances liées à sa personnalité. Tu avais aussi parlé de la pensée positive définie par Jean Piaget, un fameux pédagogue, qui dit qu’on a tendance à chercher des confirmations et non des infirmations sur la pertinence d’une description personnelle. Et enfin les corrélations illusoires qui sont la tendance que l’on a à voir des corrélations là où il n’y en a pas (mais pour cela, il faut une croyance initiale). Peux-tu nous expliquer ces effet ? Ce qui m’intéresse, c’est de savoir jusqu’à quel point un effet psychologique/cognitif peut introduire un biais sur des tests de personnalité, par exemple.

N.G. : L’effet Barnum n’est pas un problème statistique mais psychologique. C’est un biais humain lié à la perception. J’en parle brièvement parce que ce n’est pas en rapport avec les stats. L’effet Barnum est le fait que quand on vous lit une description complètement floue de votre personnalité qui pourrait s’appliquer à tout le monde on a tendance à s’y reconnaître. Ça c’est normal puisque ça s’applique à tout le monde. Ce qui est bizarre, c’est le principe de l’effet Barnum, c’est qu’on a tendance à trouver que ça nous décrit drôlement bien, c’est étonnant à quel point. C’est ce qui explique le succès de méthodes comme l’astrologie ou la graphologie, quand c’est utilisé pour décrire la personnalité. Pour la graphologie, Forer, le premier psychologue a l’avoir mis en évidence, a montré que ça ne fonctionnait pas. Il a fait de nombreuses expériences dans lesquelles il faisait croire aux gens qu’une méthode (peut importe laquelle : astrologie, graphologie…) permettait de trouver une propre description de leur personnalité. En réalité, il donnait la même description à tout le monde. C’est l’expérience la plus classique. On demande aux gens si ça les convainc et si la méthode utilisée est fiable. En général les gens, sont vachement épatés.

Matthieu : C’est pas un biais statistique mais est-ce que ça peut en engendrer un quand on demande à quelqu’un de faire un test de personnalité ? Est-ce qu’il aura tendance à répondre différemment à ce qu’il est réellement, dû à cet effet Barnum ?

N.G. : Non. Ce n’est plus le même effet. C’est un problème de sondage, quand on doit remplir un questionnaire de personnalité. C’est une autre problématique.

Matthieu : Tu peux peut-être en dire deux mots ?

N.G. : Oui. Il y a tout un ensemble de problèmes. Je les connais un peu moins bien que les biais statistiques. Il y a des biais bien connus des sondeurs dans les réponses que donnent les gens. Par exemple, le biais d’acquiescement. C’est une tendance à dire oui. Apparemment les gens ont tendance à dire oui. Par exemple en psychologie de la santé, ça se traduit par l’effet suivant : si vous posez la même question à l’endroit et à l’envers, ça donne des résultats contradictoires. Si vous demandez aux gens s’ils pensent bien à prendre leurs médicaments, ils vont répondre oui, disons, à 60 % (j’exagère un peu le trait). Et si vous leur demandez s’il leur arrive d’oublier leurs médicaments, ils vont répondre aussi oui à 60 %. C’est-à-dire que 20 % disent des choses contradictoires.

Matthieu : Ça tient compte de la formulation de la question. Il faut faire attention lorsqu’on formule la question pour ne pas avoir ce biais.

N.G. : Voilà. Quand on fait sérieusement des expériences ou des questionnaires en psychologie, en général chaque question est posée deux fois. Une fois à l’endroit, une fois à l’envers, pour annuler le biais d’acquiescement. Mais il y a plein d’autres biais qui interviennent. Notamment, si c’est en face à face, l’allure de la personne qui pose la question est très importante. Il y a aussi la différence éventuelle entre ce que les gens répondent quand c’est une version téléphonique, une version internet ou une version papier du même questionnaire. L’ordre des questions joue évidemment. Et puis la formulation.

Matthieu : On appellerait ça des biais cognitifs ? Comment ?

NG : Oui, des biais cognitifs.
Les sondeurs connaissent ça mais par contre, dans la plupart des sondages qui sont faits pour des revues grand public, on ne fait pas du tout attention à ça. Ou alors, si on fait attention, c’est pour obtenir le résultat qu’on avait décidé d’obtenir au départ !

Matthieu : On s’écarte des statistiques parce qu’on va entrer dans un domaine plus général. Ne sois pas surpris, Nicolas, quelque part les statistiques ont un petit rôle à jouer là-dedans… J’écoutais récemment une émission de la Tête au Carré, un podcast scientifique de France Inter, dans lequel on nous dit que d’une manière générale, on a l’habitude de trouver des conflits d’intérêt dans les agences d’expertise qui biaisent les résultats des études. Evidemment, ce sont des études dans lesquelles interviennent toutes sortes de choses, entre autres, j’imagine, des statistiques aussi. Dans cette émission, on nous dit que si on prend les études effectuées pour analyser la bAlance bénéfice/risque appliquée aux médicaments qu’on trouve sur le marché, on constate que 50 % des études financées totalement par l’industrie pharmaceutique démontrent une bAlance bénéfice/risque favorable aux médicaments. Après on constate que 30 % des études dont le financement est partiellement privé et public, démontrent une bAlance bénéfice/risque favorable aux médicaments et que seulement 15 % des études financées par d’autres sources totalement indépendantes de l’industrie pharmaceutique démontrent une bAlance bénéfice/risque favorable. Donc on voit que si une étude est financée par l’industrie privée, elle démontre qu’il y a moins de risques vis-à-vis des médicaments. Par contre si c’est fait de manière indépendante il y aurait plus de risques. Ça nous montre que la source de financement induit un biais majeur dans les résultats des études cliniques réalisées.
Ce phénomène de biais se retrouve dans de nombreux autres domaines. Dans les produits alimentaires, dans un certain nombre de compléments alimentaires comme l’aspartame, les OGM, le tabac, l’amiante, les ondes électromagnétiques, les substances chimiques… J’espère que ces chiffres ont été bien faits, Nicolas, on nous dit que 80 % des études, j’ai pas les marges d’erreur, 80 % des études indépendantes démontrent un effet nocif du bisphénol A sur la santé. Et 0 % des études présentant un conflit d’intérêt présentent une nocivité du bisphénol A sur la santé.
On constate que la méthodologie employée n’est pas la même selon la source de financement et induit un certain nombre de biais. On retrouve des biais dans l’élaboration du protocole, des biais de sélection, des biais sur la durée de l’étude, des biais sur l’analyse des données, des biais sur les hypothèses qui peuvent être variables, des biais dus à des données manquantes, des biais de publication, etc… Les agences d’expertise analysent le résultat finalement sans prendre en compte la source de financement de l’étude. Je me pose la question : comment résoudre ce problème ? On nous dit dans cette émission que les revues commencent à demander de plus en plus aux chercheur de déclarer les éventuels conflits d’intérêts lors de leur publication (ce n’est pas encore la pratique obligatoire mais c’est déjà une bonne chose). Les agences d’expertise ne devraient-elles pas analyser différemment les études provenant de financement public et celles provenant du financement privé ? Est-ce qu’il ne faudrait pas pondérer les études en fonction des conflits d’intérêts potentiels ? Finalement est-ce que ça ferait du sens d’introduire des normes plus rigoureuses ou essayer de définir une sorte de label de qualité sur des résultats d’études afin de certifier la méthode employée ? As-tu déjà été confronté à des conflits d’intérêts, qu’est-ce que tu penses de ces biais qui sont induits ?

N.G. : Non, personnellement, je n’ai jamais eu le problème dans la psychologie (encore que ça peut arriver en psychologie pour ceux qui travaillent dans le marketing communication). Moi les domaines qui m’intéressent sont la modélisation de la mémoire de travail et les compétences mathématiques chez les enfant. C’est pas sujet aux conflits d’intérêt.

Alan : Pas encore !

N.G. : En général c’est surtout en pharmacie que c’est le pire, parce qu’il y a un lobby très puissant.
J’avais lu un bouquin là-dessus où étaient présentés des témoignages. Des gens disaient qu’il arrive souvent aux industries pharmaceutiques qui veulent tester un médicament de passer des contrats avec des universités. Dans le contrat est indiqué qu’il est interdit de publier sans l’accord de l’entreprise. Ça veut dire qu’ils laissent les gens bosser mais si le résultat n’est pas en leur faveur ils interdisent la publication. Et ils ont le droit par contrat.
Je précise que j’ai un gros problème avec les conflits d’intérêts. Je connais plein de gens qui trouvent que c’est pas gênant. Ça ne les dérange pas que l’industrie finance la recherche. Moi je trouve ça très très problématique. Même s’il n’y avait pas de problèmes réels, ne serait-ce que pour la crédibilité, je trouve ça catastrophique. Je suis contre, notamment quant c’est une entreprise qui fabrique un médicament, qui peut gagner des milliards avec, qui finance les recherchent qui prouvent que le médicament n’est pas dangereux. Je trouve ça scandaleux.
On me dit : si tu critiques, il faut que tu aies une solution. Et bien j’en ai une ! Elle n’est pas parfaite mais elle réduirait le principe. Au lieu de dire, comme on fait maintenant, si vous voulez vendre votre médicament chez nous, il faut d’abord que vous prouviez qu’il n’est pas dangereux en faisant des études, on dirait si vous voulez vendre votre médicament, on va faire des études dessus pour voir s’il n’est pas dangereux. Comme ça nous coute de l’argent, vous allez nous donner un impôt qui servira de financement.

Matthieu : Le problème dans le public, c’est le financement. On n’a pas forcément l’argent pour faire des études. Toi tu proposerais un impôt. C’est pas une mauvaise idée…

N.G. : Ce serait toujours l’industrie qui finance mais ce serait indirect. Il n’y aurait pas de conflits d’intérêts aussi directs que maintenant.
Je voudrais quand même dire deux petites choses qui vont en sens inverse de ça. D’abord, souvent ce qui est appelé indépendant ne l’est pas forcément. C’est à dire que c’est indépendant de l’industrie mais c’est dépendant d’autres groupes de pression. Même s’ils sont moins puissant, il y a aussi des groupes de pression de l’autre côté. Des gens, des associations, des ONG… Ils ne sont pas tout à fait indépendants, ils sont influencés par autre chose.

Matthieu : Une précision : dans ce podcast, la personne qui parlait de ça avait justement précisé que quand on lui parlait de financement privé ça pouvait aussi venir d’une organisation type Greenpeace ou ONG, donc ça rentrait dans la même analyse que si c’était une société privée. Il ne faisait pas la distinction ONG/Société privée. C’était un financement qui pouvait venir d’une ONG aussi.

N.G. : C’est parce qu’il parle seulement de financement mais il peut y avoir des conflits d’intérêts sans qu’il y ait de financement. Si quelqu’un trouve que les OGM c’est super dangereux et qu’il fait partie d’une association contre les OGM, moi j’ai un doute à peu près égal à la situation inverse où c’est quelqu’un d’une entreprise qui fabrique les OGM qui me dit que c’est super.
Pour ces cas particuliers (même si ce n’est pas du tout mon domaine), j’avais regardé pour les OGM, pour l’aspartame et pour le bisphénol (c’était un peu différent). Ce qui m’a frappé, c’est que les conclusions ne sont pas si différentes que ça entre ceux qui disent que c’est dangereux et ceux qui disent que c’est pas dangereux. Quand ils sont sérieux, il ont les mêmes résultats. La seule différence est qu’il y en a un qui dit que ses résultats ne montrent pas de danger donc c’est bon, et l’autre qui dit que ses résultats ne montrent pas de danger mais on ne sait jamais. En gros, il y a toujours un danger potentiel. Sur la Bisphénol A, par exemple,, je n’ai trouvé aucune étude qui conclue que c’est dangereux. Il y a des études qui terminent, mais c’est une histoire d’interprétation plutôt qu’autre chose, en disant : dans le bisphénol il y a un machin qui peut interagir avec les hormones. Il est donc possible qu’à haute dose ça devienne dangereux. Je n’ai pas vu d’étude qui dise si on prend dans les doses habituelles même en comptant large, il y a un risque démontré pour la santé. On ne trouve pas de risque mais simplement un mécanisme qui pourrait être dangereux.

Matthieu : Finalement, c’est là que se trouve toute la confusion d’une étude. On nous dit «oui il y a un risque potentiel» et nous on l’interprète en tant que lecteur comme «il y a un risque». Mais finalement c’est un risque potentiel qui n’est pas avéré.

N.G. : C’est plus dans l’interprétation, oui.
Si je prends l’exemple de l’aspartame, j’ai justement vu un truc, très récemment, tiré d’une émission qui disait que l’aspartame est une catastrophe. Pour prouver que l’aspartame est dangereux, la réalisatrice du documentaire prenait pour preuve un homme politique américain qui buvait beaucoup de Coca Cola. Il s’est mis a avoir des tremblements, il se sentait mal, avait des nausées. Puis il est parti dans un pays où il n’a pas pu prendre de coca, il se sentait beaucoup mieux. Il est revenu aux Etats Unis et a repris du coca comme avant et il a re-eu des tremblements etc… Un célèbre neurologue qui l’a étudié a dit que c’est à cause de l’aspartame qui se trouve dans le coca. Ça a l’air très sérieux sauf qu’on nous dit dans l’émission que ce type buvait quatre litres de coca par jour ! Je veux bien croire qu’à cette dose-là l’aspartame soit dangereux ! C’est toute une question d’interprétation. Si on conclue de ça que l’aspartame est dangereux alors moi je peux dire que la café est dangereux parce que j’ai fait une intoxication au café. Il y a longtemps, j’avais bu presque trois litres de café et j’ai eu des nausées, des sueurs froides, j’étais très très mal. On peut aussi s’intoxiquer au café.

Matthieu : Est-ce que tu penses finalement d’une manière générale, qu’introduire une sorte de label de qualité pour les études qui montreraient qu’elles ont suivi une méthodologie, un certain protocole établi, ça pourrait être une solution pour essayer de mettre un peu d’ordre dans toutes ces études qui sortent, on ne sait pas très bien à quoi s’en tenir ?

N.G. : C’est ce qui se fait dans les méta-analyses. Les méta-analyses sont des articles qui reprennent tous les articles sur un sujet, pour faire des statistiques sur les résultats ou sur les expériences. En général ce qu’ils font c’est qu’ils prennent tout ce qui a été publié par exemple depuis 20 ans et ils regardent dans le détail, comment était faite l’expérience. Ils sélectionnent ensuite suivant des critères de qualité, justement. Dans la méta-analyse, on ne fait pas tout rentrer parce qu’il y a des trucs sans valeur comme des études de cas, par exemple. Une étude de cas n’a pas la même valeur qu’une expérience.

Matthieu : Donc une méta-analyse, c’est une sorte de compilation d’un certain nombre d’expériences qui ont été faites sur un certain nombre d’années. C’est dans ce cadre-là.

Alan : Une question d’ordre plus général. J’ai suivi des cours de statistiques en faculté de sciences sociales et politiques, à Lausanne. C’est la faculté qui abrite également la psycho. Ce cours était perçu à l’unanimité comme rébarbatif et inutile. C’était vraiment le passage obligé, le jeudi après midi, il fallait s’emmerder à aller suivre les cours de stats. A la réflexion, les enjeux des statistiques pour la recherche n’avaient jamais été exposés clairement. Je pense qu’il n’était pas compris par les étudiants. Je me demandais si selon toi cette incompréhension de l’importance des statistiques constitue un cas isolé ou bien est-ce que c’est une problématique réelle et récurrente ? Si c’est le cas, qu’est-ce qu’on peut faire pour y remédier ?

N.G. : Je vais parler de la psycho puisque c’est ce que je connais. J’ai enseigné les stats en psycho pendant huit ans. Les étudiants n’aimaient pas ça du tout. J’ai énormément progressé en huit ans mais à la fin, il y avait quand même une partie des étudiants qui aimaient bien. Je raconte un peu. J’espère qu’il n’y a pas trop de collègues qui m’écoutent sinon je suis grillé pour un poste ! Voilà ce que j’ai observé. Les gens qui font les cours de statistiques en psycho, en général sont des psychologues qui ont été formés par des psychologues etc. Ils ne comprennent pas les statistiques. Le type qui faisait les stats avant que j’arrive à Metz était un catastrophe ! Il ne comprenait absolument pas le principe des statistiques. Il acceptait par exemple que ses étudiants sélectionnent des sujets après coup. C’est à dire qu’ils font l’expérience puis ils éliminent ceux qui ne conviennent pas parce qu’ils n’ont pas trouvé ce qu’ils voulaient. Avec ce superbe argument : si je les avais choisis par hasard, j’aurais très bien pu tomber sur ceux-là. Lui ne voyait pas où était la faille, ça ne lui posait aucun problème.
C’est assez récurrent. Les statistiques sont enseignées par des gens qui ne comprennent pas les fondements des stats. Pour eux, c’est ce qu’ils transmettent ensuite aux élèves, l’idée c’est que les stats c’est une espèce de machin qu’on est obligés de mettre dans les articles pour faire sérieux. Donc on est obligé d’apprendre comment on fait parce qu’on va être obligés de le faire pour publier.
Dans certains cas, certains départements, on se dit que ça ne va pas, qu’il faudrait que quelqu’un reprenne les stats. Alors ils vont chercher au département de Maths un statisticien mais c’est assez rare, pour faire les cours. La plupart n’aiment pas du tout et j’ai compris pourquoi quand j’ai vu, toujours à Metz, ce que ça donnait. C’est un prof qui vient et qui fait exactement ce que j’ai fait la première année parce que je ne savais pas comment faire. C’est-à-dire qu’il fait un cours de maths. Théorème, démonstration, etc… Aucun rapport avec la choucroute, personne comprend à quoi ça sert. Il n’y a quasiment que ça comme prof. D’un côté des profs qui font des cours de maths qui n’expliquent absolument pas le rapport entre ce qui se passe et la réalité pour un psychologue. Et de l’autre des gens qui n’ont pas compris donc ne peuvent pas expliquer correctement.

Matthieu : Il faudrait que les enseignants en psychologie se spécialisent dans les statistiques. Ça serait la solution idéale.

N.G. : Voilà. Ou l’inverse ça me paraitrait mieux. Je pense qu’il est plus facile pour un mathématicien de se spécialiser en psychologie.
Pour le côté mathématiques, c’est assez amusant. J’ai eu des cours de statistiques à l’école normale supérieure et tous les exercices commençaient par la même phrase. «Soient x1, x2…xn une suite de variables aléatoires identiquement distribuées.» On ne m’a jamais dit pourquoi tous ces exercices commençaient par ça et j’ai jamais compris. C’est seulement très longtemps après, quand j’ai pu faire le lien avec ce qui se passe en vrai que j’ai compris ce que c’était que ces variables aléatoires identiquement distribuées. C’est simplement les valeurs qu’on obtient, par exemple la taille des adultes dans un pays, chaque fois qu’on choisit un adulte et qu’on le mesure. C’est la réalisation d’une variable aléatoire. Si on reprend un adulte, c’est à nouveau la même variable aléatoire avec une autre réalisation. Si tous les exercices de proba commencent par ça, c’est simplement parce que ça correspond à ce qui se passe quand on choisit un échantillon. En un an de cours, le prof ne nous a jamais expliqué ça. C’est assez hallucinant quand on y pense…

Matthieu : Pour revenir dans le cadre de la faculté de psychologie, les étudiants qui vont faire de la psychologie ont peut-être plus envie d’étudier des comportements humains que des chiffres et des statistiques. C’est peut-être aussi que ça peut paraître rébarbatif pour les étudiants parce qu’ils ne sont pas venus pour ça.

N.G. : C’était ce que je voulais dire après. C’était la suite de ma réponse. On avait fait un petit questionnaire pour les étudiants en psycho pour savoir pourquoi ils étaient là, ce qu’ils voulaient faire plus tard . Ce qui était frappant c’est que la plupart étaient là par dépit ou parce qu’elles avaient une copine (c’était presque toutes des filles) qui s’était inscrite en psycho, elles se sont dit qu’elle allaient faire pareil. La plupart ne savait pas trop pourquoi. Mais il y en avait qui venaient ici en se disant qu’au moins il n’y aurait pas de maths. Il y en a pas mal qui venaient ici avec une haine, avec un vrai blocage tenace des mathématiques. A la fin de mes huit années (je pense que c’est une pistes pour intéresser une partie des étudiants), pour les statistiques, je présentais d’abord les choses uniquement à partir d’articles de recherche en psychologie. Des trucs réels. J’allais chercher les données et on faisait comme dans l’article. Mais surtout, pour leur montrer l’intérêt, je leur ai fait faire une expérience. Le dernier exemple dont je me souviens est le suivant. Je leur avait dit que quand on demande aux gens de répondre soit oui soit non, au hasard, ils vont répondre en général oui un peu plus souvent que non. C’est toujours le biais d’acquiescement mais côté aléatoire. Mais on peut peut-être penser que si on est déprimé, on aura plus tendance à dire non, on ne sait pas. Ça c’est une hypothèse de psychologie. Si on est déprimé et qu’on essaye de répondre au hasard soit oui soit non, peut-être qu’on dira plus non que oui. C’est eux qui devaient faire l’expérience. Ils demandaient aux gens de remplir un mini questionnaire de dépression puis de dire oui ou non au hasard. A la fin, on avait un énorme tableau avec toutes les données. Il y avait 120 étudiants avec chacun deux personnes, ça faisait 240 lignes. Et on regardait, il y avait des oui, des non et des scores de dépression. Je leur disait voilà ce qu’on a trouvé dans notre expérience. Comment faire pour savoir si les dépressifs disent plus souvent non ? On est obligé de faire des statistiques. Pour ceux qui étaient suffisamment motivés, ça devait paraître évident que les statistiques étaient indispensables pour pouvoir répondre à la question psychologique qu’on s’était posée au départ et donc que c’était intéressant pour la psychologie. Ça a convaincu une partie mais pas tout le monde. J’étais un peu désespéré pour ceux qui n’étaient pas du tout convaincus et qui venaient me voir après en me disant qu’ils n’avaient toujours pas compris à quoi servent les stats en psycho. Je me suis creusé la tête pour savoir où était le problème et je crois qu’il y a une espèce de hiatus entre deux choses qu’on appelle psychologie. C’est la psychologie comme science (c’est à ça que je pense quand je parle de psychologie) mais il y a aussi la psychologie comme technique (psychothérarpie, psychologie clinique). Je suis obligé de reconnaître que connaître les statistiques, ça ne sert pas pour aider des gens dépressifs, ni pour comprendre les autistes. Ça aide à comprendre les articles qui en contiennent.

Matthieu : Ça aide à détecter certaines pathologies, non ?

N.G. : Non, même pas parce qu’il y a des chercheurs qui font des questionnaires, qui les testent, qui les valident. Ensuite on fait passer le questionnaire. On sait comment remplir, on calcule des coefficients et on regarde dans le manuel. C’est comme ça que ça marche.

Matthieu : D’ailleurs, vous utilisez des softwares dans le cadre de l’université ? Vos étudiants font beaucoup de statistiques à la main ou c’est assisté par ordinateur ? Est-ce qu’il y a des framework de travail ?

N.G. : C’est très bizarre aussi. J’ai jamais vu aucun chercheur en psychologie faire un calcul à la main. C’est débile, dans toutes les fac il y a des logiciels pour faire ça. Il y en a même des gratuits qui le font très bien. J’ai toujours dit que ça ne servait à rien même de connaître les formules. Il faut connaître le sens de ce qu’est un coefficient de corrélation, etc… je n’ai jamais demandé aux étudiants de calculer quoi que ce soit. Mais il y a plein de profs de stats qui sont très attachés aux calculs à la main, je ne sais pas pourquoi. Il sont convaincus que ça permet de mieux comprendre, moi je suis convaincu du contraire. On m’a appris quand j’étais au lycée à extraire les racines carrées à la main et je ne crois pas que ça m’ait fait mieux comprendre ce qu’était une racine carrée.

Matthieu : surtout pour les étudiants en sciences humaines qui sont assez peu emballés par les maths. Faut peut-être pas trop les pousser à faire ça par écrit mais plus par des outils informatiques.

Alan : Je parlais l’autre soir avec un ami qui conduit des projets de recherche dans un contexte d’hôpital universitaire, il me faisait remarquer qu’il constate une tendance de plus en plus marquée de la part des médecins à brandir les statistiques issues de recherches quantitatives comme des vérités. Le biais ici n’est pas tellement statistique hormis que l’on attend une vérité plutôt que des probabilités de la part de l’outil statistique. C’est plutôt le fait qu’on a tendance à considérer certaines études comme vraies. On induit une notion de vérité plus que de probabilité. Du coup, par définition, on considère comme faux tout le reste. Tout ce qui n’a pas encore été étudié ou n’est pas en attente, est faux. C’est quelque chose que tu constates aussi ? Est-ce que c’est pas un des risques de la démarche, plutôt au niveau des attentes des résultats que les statistiques peuvent fournir plutôt qu’au niveau des statistiques elles-mêmes ?

N.G. : Il y a peut-être une exagération de l’importance des statistiques. Mais tout ne peut pas se mesurer, en psychologie. Il y a par exemple des observations, des études de cas où il n’y a pas de chiffres du tout. C’est de l’interprétation, donc on peut toujours dire que ce qui est raconté à la fin, c’est une opinion, même si c’est l’opinion d’un expert. Je pense que ce qui est mesurable est traité dans les sciences humaines par les statistiques parce que, dès qu’on mesure dans les sciences humaines, on est obligés plus ou moins de faire des statistiques, c’est plus fiable. Par contre, c’est vrai aussi qu’il y a une espèce d’intimidation mathématique et qu’on utilise les statistiques pour impressionner, simplement. Ça se voit beaucoup en psycho où les gens sont très friands, surtout dans les grandes revues, de machins à la mode. A chaque fois qu’il y a un truc super compliqué qui sort en stats tout le monde essaie de l’utiliser pour montrer qu’ils sont très forts en stats.
Il y a des méthodes de plus en plus compliquées avec plein de chiffres partout. Des trucs qu’on comprend pas qui nous obligent à lire plein d’articles pour savoir ce que c’est. Et puis finalement, ça fait la même chose qu’avant. Mais ça a l’air mieux parce que c’est compliqué et que personne ne connait. Donc oui, il y a une espèce d’intimidation avec les chiffres.

Alan : A partir du moment où on peut coller un chiffre, ça a l’air d’être un peu plus vrai, c’est ça ?

N.G. : Oui c’est ça. Ça donne une impression de sérieux. Alors que les stats, c’est toujours probabiliste. Cela ne change pas les sciences humaines en sciences exactes. C’est pour ça qu’en sciences humaines, contrairement à ce qui se passe en maths en tout cas, on ne se contente pas d’une publication. Quand il y a une publication qui montre un résultat, ça veut pas dire grand chose. Il faut des réplications des expériences pour être convaincu.
J’ai oublié de dire un truc tout à l’heure. Je voudrais ajouter quelque chose sur les conflits d’intérêts. C’est pas forcément conscient. On ne se rend pas toujours compte, quand c’est inconscient, à quel point ça peut être important quand même. J’ai discuté avec beaucoup de gens concernés par des conflits d’intérêts en travaillant sur les OGM, par exemple. Ils sont financés par les amis de Monsanto et compagnie. Je suis absolument certain qu’ils sont très très honnêtes (je pense à une personne en particulier) et qu’ils font de leur mieux pour être absolument rigoureux. Ceci étant, même comme ça, quand on a une idée, même en dehors des aspects financiers, on est toujours influencé par elle. Ça a été illustré très bien il y a plus d’un siècle par Binet qui travaillait sur l’intelligence. C’est admirable parce qu’il s’est lui-même remis en cause à une époque où il n’était pas obligé de le faire. Il pensait que l’intelligence dépendait de la taille du crâne. Il allait voir des enfants, en mesurait le crâne et l’intelligence et il concluait à l’aide des statistiques. Il trouvait que, effectivement, les enfants intelligents avaient un plus gros crâne. Et puis, il avait un thésard, qui faisait la même chose dans d’autres classes, qui ne trouvait pas le même résultat. Il a trouvé ça bizarre. C’est là qu’il s’est dit qu’il faut le faire en aveugle. Il a dit : toi tu vas tester 100 étudiants, toi tu leur fais passer le test d’intelligence et tu me les envoies sans me dire s’ils sont intelligents ou pas. Et là, il n’y avait plus aucune relation. Il a écrit sur ce sujet en disant que même inconsciemment, il essayait de valider son hypothèse. Il trouvait ça incroyable et disait qu’il devait mesurer un peu différemment avec un mètre ruban peu fiable.

Matthieu : D’ailleurs, dans le podscast qui traitait de ce sujet des conflits d’intérêts, l’intervenant a clairement dit que les chercheurs qui travaillaient sur des études financées par le privé n’étaient pas du tout conscients qu’il pouvaient, à un moment ou un autre, biaiser l’étude.
On arrive au bout, merci bien.
Encore une ou deux petites choses. On peut t’écouter une fois par mois sur le balado de scepticismescientifique.blogspot.com. Tu maintiens aussi le blog psymath.blogspot.com, d’actualités psycologico-statistiques on va dire.

N.G. : C’est pas vraiment de l’actualité. C’est d’actualité de temps en temps, quand j’entends des choses, mais je ne cherche pas à être dans le vent. Je parle de manière très pointilliste de choses qui m’intéressent en psycho et en maths. Par exemple (pour dire à quel point c’est pas d’actualité) sur les singes et l’Insight Learning. C’est une expérience très connue, qui a déjà un siècle. On met des chimpanzés dans une pièce avec une banane au plafond et ils doivent empiler des caisses pour attraper la banane. Ils restent pensifs en regardant les objets pendant un certains temps puis d’un coup ils ont l’idée et ils empilent les caisses. Ça nous étonne beaucoup moins qu’à l’époque mais alors on pensait tellement que les animaux étaient débiles que ça a énormément surpris. On s’est dit que, finalement, ils arrivent à des représentations mentales de la situation, c’est formidable. J’ai fait un truc là-dessus, c’est pas du tout d’actualité. C’est un peu comme ça.

Alan : Tu as parlé de livres tout à l’heure. Tu en as écrit plusieurs ?

N.G. : Oui. Dans les livres grand public, il y a «Statistiques, méfiez-vous» qui passe en revue un certain nombre d’erreurs qu’on peut faire en faisant des statistiques. Ensuite j’ai publié chez Belin, c’est pas moi qui ai choisi le titre, «Vous avez dit hasard ?» sur le hasard en maths et en psychologie. C’est mon dada, tout ce qui est à cheval entre les deux. Et puis j’ai deux tout petits livrets publiés chez Book-e-Book. Un sur la numérologie «Quand les nombres font perdre la boule» où je me suis bien amusé avec la numérologie. Et un autre avec Jacques Van Rillaer sur les psychanalyses «Les Psychanalyses, des Mythologies du 20ème siècle ?». Jacques Van Rillaer c’est pas la même pointure que moi sur la psychanalyse. Il a participé au livre noir de la psychanalyse, un livre critique sur la psychanalyse qui s’est très bien vendu, qui a eu beaucoup d’échos. Il passe assez régulièrement à la télé pour parler de ça. Il connait vraiment très très bien le truc. Il a appris l’allemand pour pouvoir lire Freud dans le texte. Dans le petit livre qu’on a fait ensemble, j’étais très fier qu’il accepte, il a fait toute une partie sur la psychanalyse et moi j’ai fait une partie beaucoup plus dans l’esprit science et pseudo-sciences sur des thérapies un peu bizarres qui sont dérivées de la psychanalyse. Par exemple la nouvelle médecine germanique qui prétend que tous les cancers sont en fait des troubles d’origine psychique. C’est pas mal basé sur la psychanalyse au départ.

Matthieu : Dernièrement, Freud est malmené, j’ai l’impression.

N.G. : Il y a eu une émission sur le podcast de Jean-Michel Abrassard, là dessus.

Alan : Merci infiniment d’avoir accepté notre invitation, c’était formidable de pouvoir aborder en profondeur un thème aussi passionnant.
En préambule, on disait que les statistiques restent un outils très important pour faire avancer la science. Le but de l’émission d’aujourd’hui n’était pas de démolir les statistiques mais de rendre attentif au fait qu’elles peuvent parfois être malmenées. Pour ma part, j’ai l’impression que j’y verrai beaucoup plus clair à partir de maintenant. J’espère que ce sera également le cas des auditeurs. C’était vraiment instructif. Un tout grand merci.

N.G. : Merci à vous.

Podcast Science 506 – Divide, ergo sum, avec Liza Sarde

Podcast Science 505 – La Recherche clinique

Podcast Science 504 – Le Mètre

Podcast Science 503 – Explosion vapeur, avec Thibaud Sauvageon

Podcast Science 502 – Épisode Titanien, avec Sandrine Vinatier et Alice Le Gall

Il était une fois le microbiote : le dossier

LAP – leucémie aiguë promyélocytaire – Gaël Fortin

Internet pète un câble, partie 1

Les Thérapies Cognitivo-Comportementales

Retranscription : Le Lupus

“Tous les ingrédients doivent être à température ambiante pour réussir la mayonnaise – Info ou Intox ?”

Il faut éteindre son téléphone en avion : Info ou Intox ?

Les téléphones portables démagnétisent les cartes de crédit – info ou intox ?

Mettre de l’huile dans l’eau des pâtes les empêche de coller : Info ou Intox ?

Café + clope = caca, info ou intox ?

Merci !

Derniers épisodes

Podcast Science 506 – Divide, ergo sum, avec Liza Sarde

Podcast Science 505 – La Recherche clinique

Podcast Science 504 – Le Mètre