Les paralogismes et le théorème de Bayes


Les paralogismes et le théorème de Bayes


Ci-dessus, la formule de Bayes. Elle sera détaillée dans l'article.

On a tous appris à compter à l'école, mais nos raisonnements mathématiques ne sont pas toujours pertinents, notamment quand il s'agit d'évaluer subjectivement et instinctivement une probabilité a priori. Le présent article va illustrer cela par quelques exemples afin de faire comprendre l'ampleur des raisonnements intuitifs fallacieux.


Violence routière et état d'ivresse

  • On peut calculer la probabilité qu'un conducteur soit sévèrement ivre en cas d'accident mortel de la route, à partir de la probabilité d'accident lorsqu'un conducteur est trop ivre, et de la probabilité qu'un conducteur soit ivre. On suppose par exemple que la probabilité qu'il y ait accident mortel en état d'ivresse sévère vaut 1, donc 100 % (événement certain), et qu'il y a 1 conducteur sur 30 qui est ivre. On suppose qu'il y a 1800 accidents mortels annuels en France (non dus à l'alcool) pour une population de 67 millions d'habitant, soit une proportion de 0,0000269.

P(ivre si accident) = P(accident si ivre) * P(ivresse) / (P(accident si ivre) * P(ivresse) + P(accident si sobre)) * P(sobriété))

Ainsi, la probabilité qu'un conducteur soit fortement ivre en cas d'accident mortel de la route est :

P(ivre si accident) = 1 * (1/30) / (1 * (1/30) + 0,000447 * (1 – 1/30)) = 0,9992 = 99,92 %

Donc s'il y a un accident mortel, alors l'abus d'alcool par le conducteur est très probable. Vrai si un conducteur sur 30 est ivre. On n'est pas loin de la réalité : dans le monde, une personne sur 24 a des problèmes d'alcoolisme (4,1 % des plus de 15 ans), tandis que 31 % des étudiants américains montrent des signes d'abus d'alcool, et 6 % ont une dépendance à l'alcool.

Vous doutez du résultat de 99,92 % ? Voici un algorithme pour vous convaincre :

L'opérateur rand ci-dessous est un générateur de nombres pseudo-aléatoires. L'entier 37037 désigne la probabilité d'accident de 1 sur 37037 en cas de sobriété. L'entier 30 désigne la probabilité d'être un conducteur ivre qui est de 1 sur 30.

q = 0

accidents = 0.01 //(ici on ne met pas égal à zéro car la division ultérieure par zéro est très déconseillée)

boucle allant de essai = 1 jusqu'à essai inférieur ou égal à 1000000

{

probacrash = 1 + int(rand(37037))

probadrunk = 1 + int(rand(30))

si probacrash = 1 alors

{

accidents = accidents + 1

}

si probadrunk = 1 alors

{

probacrash = 1

}

si ((probacrash == 1) et ($probadrunk == 1)) alors

{

q = q + 1

}

} // fin de la boucle

imprimer "$q accidents sur 1 million avec alcool"

imprimer "$accidents accidents sur 1 million sans alcool"

$somme = $accidents + $q

$taux = $q divisé par $somme

imprimer "Probabilité qu'un conducteur soit ivre en cas d'accident mortel = $q / $somme = $taux"


Résultat du programme informatique issu de l'algorithme :

  • 33328 accidents sur 1 million avec alcool
  • 26 accidents sur 1 million sans alcool
  • 33328 / (33328+26) = 0,9992

On retrouve bien les 99,92 % donnés par le programme informatique que l'on avait auparavant trouvés par le calcul.


Fiabilité d'un test médical de dépistage

  • Imaginons que vous êtes directeur de cabinet du ministre de la santé. Une maladie est présente dans la population, dans la proportion d'une personne malade sur 10000. Un responsable d'un grand labo pharmaceutique vient vous voir pour promouvoir son nouveau test de dépistage : si une personne est malade, le test est positif à 99%. Si une personne n'est pas malade, le test est positif à 0,1%. Autoriseriez-vous la commercialisation de ce test ?

On calcule la probabilité qu'une personne soit réellement malade si le test est positif.

P(malade si test positif) = P(test positif si malade) * P(maladie) / (P(test positif si malade) * P(maladie) + P(test positif si pas malade) * P(pas de maladie))

Probabilité que la personne soit malade si test positif = 0,99 * 0,0001 / (0,99 * 0,0001 + 0,001 * (1 – 0,0001)) = 0,09 = 9 %

D'après le calcul, c'est catastrophique : la probabilité pour qu'une personne positive au test soit réellement malade est de 9 %. Le test engendre donc beaucoup de faux-positifs (personnes positives au test, mais qui sont saines en réalité). C'est tout le problème des maladies assez rares : les tests de dépistage doivent être extrêmement fiables.

Pour résumer, on peut tromper ceux qui ont des lacunes en théorie des probabilités (les politiciens mystifiés par des pseudo-experts, par exemple).


L'inférence bayésienne contre le «sophisme du procureur» dans l'affaire Sally Clark

C'est une histoire tragique que je vais raconter. Sally Clark eut une première grossesse. Le bébé est né, mais il mourut en décembre 1996 à l'âge de 11 semaines. Mme Clark eut une seconde grossesse, le deuxième bébé est né, mais il mourut lui aussi d'une mort subite en janvier 1998 à l'âge de 8 semaines.

Deux morts subites du nourrisson dans la famille Clark. Faute de preuves matérielles pour établir la culpabilité de la mère accusée, les autorités ont quand même des soupçons. L'expert auprès du tribunal, le Professeur Meadow, utilisa l'argument suivant : «La probabilité que les deux bébés soient morts d'une mort subite du nourrisson est très faible, 1 chance sur 73 millions (risque de mort subite dans une ”famille aisée” = 1 sur 8543 donc risque de deux morts subites : 1 sur 8543 au carré = 1 sur 73 millions)».

Sur la base de ce seul argument accablant, Sally Clark fut condamnée à perpétuité pour le meurtre de ses deux enfants…

Mais il y a un très gros problème : le calcul est fallacieux, il est incorrectement utilisé. Et ça, c'est horrible...

Le risque de 1 sur 8543 a mal été estimé. Les 2 décès ne sont pas des événements indépendants. Après une première mort subite dans la famille, le risque d’une seconde mort subite est plus élevé. Erreur gravissime : le jury a confondu la probabilité de rencontrer 2 morts consécutives sachant l’innocence de la mère (i.e. les deux morts sont des morts subites) et la probabilité de l'innocence de la mère sachant que l'on a rencontré 2 morts consécutives.

Démonstration de l'innocence probable de la mère quand il y a 2 décès consécutifs, en calculant la probabilité que la mort subite naturelle est la cause des deux décès infantiles :

P(D si non S) = probabilité de décès suspect = 30 nourrissons assassinés par an sur 650000 naissances par an au Royaume-Uni = 0,0000046.

P(S si D) = P(D si S) * P(S) / (P(D si S) * P(S) + P(D si non S) * P(non S))

P(S si D) = 1 * 0,00001 / (1 * 0,00001 + 0,0000046 * (1 - 0,00001)) = 0,685 > 2/3

Par conséquent, la probabilité de mort subite naturelle en cas de deux décès infantiles est élevée (0,685 donc un peu plus de deux tiers), on est alors bien loin du risque fallacieusement calculé de 1 risque sur 73 millions, ce qui impose un acquittement de l'accusée.

Bien que la condamnation de Mme Clark ait ensuite été annulée et qu'elle fut libérée après son deuxième jugement en appel, elle mourut malheureusement d'une intoxication alcoolique. Victime d'une affreuse erreur judiciaire, elle n'a pas pu supporter ça.

Cette histoire vraie montre que mal connaître ou mal utiliser les mathématiques peut avoir des conséquences très dramatiques.


Quelle est la probabilité pour que la surveillance de masse repère un dangereux terroriste ?

  • Sachant qu'un système de surveillance digne d'un État totalitaire vient de générer une alerte, quelle est la probabilité qu’il ait effectivement repéré un terroriste ?
  • Supposons que dans le pays massivement surveillé, il y ait 3000 terroristes parmi une population de 37,8 millions d'habitants âgés entre 20 et 64 ans. Ce qui correspond à une proportion de 0,00008, donc 0,008 %. On suppose aussi que l'efficacité de détection d'un terroriste (par déclenchement d'une alerte) est de 99 % (taux de vrais-positifs). Le taux d'erreur, qui est la probabilité pour qu'un innocent soit accusé à tort par les caméras, est de 1 % (taux de faux-positifs).

P(terroriste réellement identifié si détection) = 0,99 * 0,00008 / (0,99 * 0,00008 + 0,01 * (1 – 0,00008)) = 0,0078 = 0,78 %

Conséquence : sur 37,8 millions de gens filmés partout, de gré ou à leur insu, les caméras vont générer 380940 alertes dont 2970 vrais positifs et 377970 faux-positifs, tandis que 30 terroristes échapperont complètement à la détection et risqueront de commettre un crime.

  • Ce résultat démontre que l'efficacité absolue de la surveillance de masse en matière d’antiterrorisme est statistiquement impossible. Le véritable but inavoué des pays totalitaires n'est-il pas plutôt d'espionner les gens honnêtes qui n'ont rien demandé ?…


Cas du meurtrier gaucher

  • Supposons qu'un meurtre vient d’être commis, et que 10 personnes étaient présentes sur les lieux au moment du crime, et celles-ci sont arrêtées comme suspects. L’enquêteur affirme qu'au vu des circonstances, il semble clair que l’assassin doit être gaucher. Après réflexion, l'enquêteur précise sa pensée en affirmant que la probabilité que l’assassin soit gaucher est de 80%. Un gaucher fait partie des suspects. D'après vous, ce gaucher a-t-il du souci à se faire ?

On doit déterminer la probabilité que le suspect n°1 soit un meurtrier quand il est gaucher, dans le contexte de l'enquête.

P(G) = proportion de gauchers dans la population

P(D) = 1 – P(G) = proportion de droitiers dans la population

P(M si G) = P(assassin gaucher) * P(G) / (P(assassin gaucher) * P(G) + P(D) * P(assassin droitier))

P(M si G) = 0,8 * 0,1 / (0,8 * 0,1 + (1 – 0,1) * (1 – 0,8)) = 0,308

Un moyen plus simple d'analyser concrètement la problématique : si le criminel est parmi les 10 suspects, alors sur 10 suspects, il y a 10 % de gauchers donc 90 % de droitiers, donc 1 gaucher et 9 droitiers. Il y a 80 % de risque qu'un meurtrier soit gaucher, donc 0,8 gaucher parmi 10 suspects et donc 20 % de risque qu'un meurtrier soit droitier donc 1,8 droitier sur 10 suspects, par conséquent il y a un risque 1,8/0,8 = 2,25 fois plus élevé que le meurtrier parmi les suspects soit droitier que gaucher ! La probabilité pour que parmi les 10 suspects il y ait un gaucher qui soit meurtrier est 0,8/(0,8+1,8) = 0,308. Il apparaît qu'il est plus probable que le meurtrier soit droitier parmi les 10 suspects.

Les subtilités des statistiques échappent souvent aux journalistes et leur font interpréter n'importe quoi, et leur public lit alors des infos fausses...

Les statistiques bayésiennes sont très souvent contre-intuitives. Lorsqu'on veut quantifier un résultat de façon fiable, il ne faut jamais y impliquer l'intuition, car l'intuition se trompe fréquemment.


Cas du gagnant du Loto

  • Un mec joue au Loto, et gagne le gros lot avec les 6 numéros gagnants. Quand le mec tente de récupérer l'argent, on refuse de lui verser son gain en lui opposant l’argument selon lequel la probabilité de gagner sans tricher est infime, or le mec a gagné au Loto. Alors le mec est traité de tricheur et d'escroc. Cet argument est-il fondé ?

P(T) = proportion de tricheurs parmi les joueurs du Loto

P(G si T) = probabilité de gagner si on triche = 1 donc événement certain

P(G si non T) = probabilité de gagner si on ne triche pas = 1 chance sur 19068840

Probabilité de triche si on gagne au Loto :

P(T si G) = P(G si T) * P(T) / (P(G si T) * P(T) + P(G si non T) * (1 – P(T)))

P(T si G) = 1 * N / (1 * N + (1 / 19068840) * (1 – N))

Si la triche est impossible (cas des jeux de hasard car non prédictibles), alors la probabilité de triche si on gagne au Loto est nulle.

Si la proportion de tricheurs (quand le jeu est prédictible par moyens mathématiques ou par sabotage mécanique des boules numérotés au cours du tirage) est équivalente à la probabilité de gagner sans tricher, il est impossible de savoir si un gagnant est un tricheur (une chance sur deux). Et si un joueur sur 3 est un tricheur, alors la probabilité qu'un gagnant soit un tricheur est de 99,99998 %.

Comme je l'ai dit, il ne faut jamais se fier à l'intuition, car les calculs logico-mathématiques conduisent souvent à des résultats étonnants et contre-intuitifs. Le philosophe grec Aristote lui-même avait dit que la science commence avec l'étonnement.


Cas de l'équipage d'un navire

  • Un navire possède un équipage de 200 personnes dont 20 femmes, portant tous le même uniforme, si bien que de loin, rien ne les distingue, sauf éventuellement la silhouette. Alors qu'il était en pleine mer, le navire fait naufrage et menace de couler. Pendant que le bateau est en danger : rien ne permet de soupçonner a priori un membre de l'équipage plutôt qu'un autre, Et le seul indice dont il dispose est l'image de vidéo-surveillance reçue d'une silhouette humaine enregistrée par une caméra. L'image n'apporte qu'une seule information : la silhouette semble correspondre à celle d'une femme. Les opérateurs habitués à exploiter les images de vidéo-surveillance considèrent que l'information est fiable à 80% : autrement dit, on est capable d'identifier correctement un homme ou une femme à partir de ce genre d'images dans huit cas sur 10. Mais le capitaine a des soupçons, il affirme que c'est plus probablement un homme qu'une femme. Le capitaine a t-il perdu la raison ?

Probabilité pour que la silhouette captée soit effectivement celle d'une femme :

P = 0,8 * 0,1 / (0,8 * 0,1 + 0,2 * 0,9) = 0,3077

Il y a donc environ une chance sur 3 pour qu'une silhouette de femme corresponde réellement à une femme.

Concrètement : sur 200 personnes il y a 20 femmes et 180 hommes, et il y a alors 16 vrais-positifs (silhouettes de femme qui sont femmes) et 36 faux-positifs (silhouette de femme alors que ce sont des hommes), donc 16/(16+36) = 0,3077.



Les chiffres de la délinquance

  • Une étude statistique réalisée auprès d’adolescents américains appartenant à des gangs révèle que 40% de ceux qui se déclarent athées avaient déjà été condamnés pour des délits accompagnés d’actes violents. Les journalistes remarquent que cette proportion est plus de cent fois supérieure à celle des personnes condamnées pour des délits similaires au sein de la population totale. Les journalistes disent en conclusion que cette étude prouve clairement que l’athéisme conduit tout droit à la violence. Cet argument est-il correct ou fallacieux ?

Poser directement les équations peut parfois conduire à des erreurs, alors il existe un moyen alternatif de trouver efficacement la solution en développant un arbre des probabilités

La population totale des USA est de 325,7 millions d'habitants, dont 26,72 % d'ados américains mâles donc 43,51 millions d'individus. Je pars de l'hypothèse selon laquelle le taux d'athéisme (30 % aux USA) est le même partout, que les individus soient athées ou croyants. Ainsi, sur 43,51 millions d'ados mâles il y a 30 % d'athées, soit 13,053 millions dont 40 % (donc 5221200) sont athées, et 0,614 % de ces athées sont au nombre de 32058 (ados mâles délinquants athées) ont commis des délits violents. Ensuite, 30 % des 325,7 millions d'américains sont athées (donc 97,71 millions), et sachant qu'il y a une proportion d'environ 2 millions de délinquants aux USA (donc un taux de 0,00614) alors il y a 599939 américain(e)s athées délinquants et 1399859 américain(e)s non athées délinquants (en considérant qu'il y ait encore 30 % d'athées dans la population). Donc 0,61 % des américains sont délinquants. Par conséquent, le rapport de 40 % (les 5221200 délinquants mâles athées) divisé par 0,61 % est égal à 65,57. Cela est à peu près voisin du fait que la proportion est plus de cent fois supérieure à celle des personnes condamnées pour des délits similaires au sein de la population totale. Il est donc absolument fallacieux de raconter que l'athéisme favoriserait la délinquance, alors que la proportion d'athées est pourtant la même chez les jeunes délinquants et chez les délinquant(e)s américains de toute confession religieuse y compris les athées. D'ailleurs, un calcul montre qu'il y a 32058/9771000 = 0,0003 = 0,3 % d'ados mâles athées violents parmi la population totale d'athées aux USA, cette proportion est moitié moindre que la proportion nationale de délinquants. Donc 40 % des athées ados mâles qui sont violents tandis que 0,61 % de la population américaine est violente, ça ne signifie pas que l'athéisme conduit à la violence.


Conclusion : une erreur courante et impardonnable dans le journaliste consiste à utiliser des divisions entre les pourcentages (40 % divisé par 0,61 % = 65,57), cela est un non-sens et conduit à des interprétations aberrantes.


Qui est Thomas Bayes ?

  • Thomas Bayes (1702-1761) est un mathématicien britannique et pasteur de l'Église presbytérienne, connu pour avoir formulé le théorème de Bayes il y a plus de 250 ans.

Ses découvertes en probabilités ont été publiées à titre posthume dans les comptes-rendus de l'Académie royale de Londres (the Philosophical Transactions of the Royal Society of London)

Le fameux théorème de Bayes est aujourd'hui très utilisé dans de nombreux domaines : la lutte contre le spam dans les courriels par la méthode d'inférence bayésienne, l'intelligence artificielle, la recherche médicale et pharmaceutique, la détection de fraude par les compagnies d'assurance, la Justice, la police scientifique, la réfutation du principe anthropique fort en cosmologie, l'aide à la prise de décision dans l'industrie, le classement automatique d'objets selon une catégorisation algorithmique, les études épidémiologiques, etc...

En épistémologie, le bayésianisme prône l'usage de l'inférence bayésienne dans le raisonnement scientifique en en faisant un critère de démarcation entre la rationalité et l'irrationalité de manière générale : cela consiste à modéliser toute forme de croyance par un degré de crédibilité valant entre 0 (crédibilité nulle) et 1 (absolument crédible), et répondant aux axiomes des probabilités. 



Philip Tchelovek


-

Philip Tchelovek

Blogueur scientifique. Présent sur Skõp depuis le 19/03/2016. Articles sous copyright, mais vous pouvez partager les URL librement.

Rejoignez Skōp, c'est gratuit!

Le magazine collaboratif qui vous paye pour écrire, voter & partager.

  • Aucune publicité pour les donateurs
  • Auteurs rémunérés par les dons des lecteurs
  • Contenu exclusif et personnalisé
  • Publication facile de tous vos écrits