petit_gastéropode/Vulgarisation_promenades/quatrième_promenade

S'informer : science, discours, média

Cette promenade se compose de plusieurs chemins, initialement indépendants, mais qui finissent par se rejoindre…

Sommaire

S'informer : science, discours, média

Note de style : Quand un syntagme est souligné c'est qu'il s'agit d'une définition.

Chemin A : savoir

Étant donné une question, on peut faire plusieurs hypothèses sur sa réponse. L'hypothèse nulle est par définition celle qui est la plus facile à réfuter si elle est fausse.

La notion d'hypothèse nulle permet de mieux concevoir ce qu'est apprendre : à moyens mobilisés pour l'investigation égaux, je n'apprends pas grand chose si on a échoué à réfuter une hypothèse très dure à réfuter si elle est fausse (l'échec n'est pas surprenant, que je pense que l'hypothèse soit vraie ou fausse), j'apprends davantage si on a échoué à réfuter une hypothèse plus facile à réfuter si elle est fausse (l'échec est assez surprenant si je pense que l'hypothèse est fausse).

À la base du paradigme statistique dit fréquentiste, il y a le fait de privilégier le modèle considérant l'hypothèse nulle, et ce jusqu'à preuve du contraire, et en particulier dès le début, avant toute observation. Il ne s'agit pas d'une considération épistémologique (= dire que l'hypothèse nulle serait plus probable, alors même qu'on n'a rien observé) mais d'une considération méthodologique (= dire que ça permet mieux d'apprendre de considérer par défaut l'hypothèse nulle). C'est une version améliorée du principe de parcimonie, car cela permet de traiter d'autres cas que les questions d'existence.

[ philosophie des sciences 🤔 14 min ]

facteur de risque

Dans le cadre de modélisations probabilistes, le savoir vient des statistiques. La notion de base est alors celle de facteur de risque, particulièrement utilisée dans le domaine médical.

[ épidémiologie 🏥 14 min ]

taille d'effet

Risque relatif, rapport de cotes, nombre de personnes pour traiter… il existe différents indicateurs de taille d'effet pour comparer des facteurs de risque. Et en effet, tous les facteurs de risques ne se valent pas du tout.

[ statistiques 🎲 17 min ]

risque relatif, risque absolu et balance bénéfice-risque

Les tailles d'effet sont exprimées en risque relatif. Mais pour la prise de décision (balance bénéfice-risque) ce sont les risques absolus qui comptent.

[ statistiques 🎲 15 min ]

puissance, étude négative et preuve de l’absence

Lorsqu'une étude ne permet pas de mettre en évidence une taille d'effet non nulle, il se pourrait que ce soit parce que la taille d'effet réelle n'est pas nulle mais quand même trop petite pour que la proba de résultat positif soit importante. Autrement dit, ça peut être parce que la probabilité conditionnelle d'obtenir un résultat positif sachant qu'il y a un phénomène est trop faible. Cette probabilité s'appelle la puissance d'une étude. Elle croît notamment avec la taille de l'échantillon. Les résultat négatifs d'études de forte puissance réduisent la confiance qu'on peut avoir dans l'existence d'une taille d'effet d'une certaine ampleur.

[ statistique 🎲 16 min ]

paradoxe de Simpson et facteur de confusion

Quand on demande à leurs amis de comparer des pâtisseries qu'ils cuisinent, il ressort qu'en moyenne Alex fait de meilleurs pâtisseries que Charlie. Mais en moyenne, les forêts noires de Charlie sont meilleures que les celles d'Alex, et ses choux à la crème aussi sont meilleurs que ceux d'Alex. Comment est-ce possible, alors que Charlie et Alex ne savent cuisiner que des forêts noires et des choux à la crème ? Et surtout, qui cuisine le mieux ?

La voilà la limite fondamentale des études observationnelles dans la recherche de la causalité : les facteurs de confusion potentiels par lesquels on n'aurait pas contrôlé.

_{Réponse : Charlie cuisine bien plus de choux à la crème, qui sont intrinsèquement souvent moins bons que les forêts noires, mais c'est bien Charlie qui cuisine le mieux.}

[ statistiques 🎲 14 min ]

causalité et critères de Bradford-Hill

Maintenant qu'on est au clair sur les corrélations, leur ampleur (taille d'effet) et leur absence, quid de la causalité ? On peut la mettre en évidence par l'observation d'une corrélation dans une étude prospective contrôlée randomisée en double aveugle. Mais lorsqu'on ne peut pas faire d'étude prospective, c'est fichu ? Non, les critères de Bradford-Hill peuvent aider à conclure.

[ statistiques 🎲 31 min ]

régression à la moyenne

En moyenne, vous poivrez moyennement vos salades, et dans chaque salade le poivre est potentiellement réparti de façon inhomogène. Dans la salade que vous venez de prendre au hasard dans votre réfrigérateur, la première bouchée que vous avez prise est fort poivrée. À propos de la deuxième bouchée, vous pensez que :

(1) elle sera probablement moins poivrée que la première bouchée ? C'était juste pas de chance.
(2) elle a la même probabilité d'être plus poivrée que moins poivrée que la première bouchée ? Les deux tirages sont indépendants.
(3) elle sera probablement plus poivrée que la première bouchée ? Cette première bouchée était de mauvais augure.
(4) on ne peut rien dire par rapport à la première bouchée ?
(a) elle sera probablement moins poivrée que la moyenne de vos salades ? C'était juste pas de chance.
(b) elle a la même probabilité d'être plus poivrée que moins poivrée que la moyenne de vos salades ? Tout est aléatoire dans cette expérience.
(c) elle sera probablement plus poivrée que la moyenne de vos salades ? Cette première bouchée était de mauvais augure.
(d) on ne peut rien dire par rapport à la moyenne de vos salades ?

_{Réponse : (a) c'est le sophisme du joueur, mauvaise réponse ; (1) c'est la régression à la moyenne, bonne réponse ; (c) aussi c'est une bonne réponse, cette salade est probablement plus poivrée que la moyenne}

bonus : théorème centrale limite

[ statistiques 🎲 14 min ]

réalisme scientifique, réalisme métaphysique, réalisme structural, antiréalisme, instrumentalisme

Le réalisme métaphysique est la thèse selon laquelle il y a quelque chose d'autre que les données des sens : il y a une réalité en dehors des perceptions et elle les influence. C'est ça qu'on entend par réalité dans la suite.

La méthode scientifique conduit à produire des théories prédictives des données des sens (instrumentalisme). Les objets et mécanismes postulés par ces théories ont-ils pour autant une correspondance avec la réalité ? Plusieurs positions existent à ce sujet, dont voici la nomenclature :

réalisme scientifique : oui, ne serait-ce qu'en tant qu'approximation,
antiréalisme scientifique : non, il n'y a pas de raison,
réalisme structurale :
- concernant la nature des objets (par exemple : les quanta au sens de la mécanique quantique ça existe, et c'est ça la nature des électrons) non,
- mais concernant la structure des relations entre les objets (par exemple : il y a des trucs qui interagissent entre eux au moins approximativement comme la mécanique quantique décrit l'interaction des électrons – même si la nature de cette interaction, états quantifiés superposés, fonction d'onde et tout, n'a rien à voir avec la réalité – et ce sont ces interactions qui expliquent la chimie) oui, au moins pour les théories qui ont conduit à des prédictions correctes dans des conditions toutes autres que les observations qui ont conduit à les élaborer.

[ philosophie des sciences 🤔 17 min ]

probabilité et bayésianisme

Il y a plusieurs types de probabilités :

probabilité fréquentiste : une probabilité est une fréquence, une proportion d’occurrences,
probabilité épistémique : une probabilité est une confiance qu'on a en une affirmation. Pour une théorie, le terme technique employé est crédence de la théorie (comprendre crédibilité). Pour une observation, on parle simplement de probabilité (épistémique) de l'observation (c'est plus court que : crédence de la théorie "on fera telle observation").

Données et théories se croisent dans les probabilités conditionnelles :

vraisemblance de données : la probabilité fréquentiste d'observer telles données sachant une théorie,
plausibilité d'une théorie : la probabilité épistémique d'une théorie sachant qu'on a observé telles données.

Ces deux façons différentes de mêler observations et théories sont à la base de deux paradigmes statistiques : le fréquentisme et le bayésianisme.

[ statistiques 🎲 22 min ]

fréquentisme

L'inférence à la meilleure hypothèse (aussi appelée abduction) est un enjeu épistémologique majeur. Il s'agit de retenir comme modèle celui qui au vu des données est le meilleur. Dit comme ça, ça a pourtant l'air trivial. A-t-on vraiment avancé dans la formalisation d'une méthode scientifique avec cette présentation ? En fait oui, car formulé ainsi, on voit que pour spécifier une méthode statistique il suffit de spécifier :

une classe de modèles qu'on pourra prendre en compte,
une classe de données qu'on pourra prendre en compte pour discriminer les modèles,
une façon de déterminer le meilleur modèle d'un ensemble de modèles à partir desdites données.

Le fréquentisme est le paradigme statistique qui spécifie ces éléments ainsi :

modèles : modèles probabilistes dont les paramètres sont des probabilités fréquentistes,
données : la fréquence observée de chaque issue possible d'un phénomène, avec des hypothèses fortes sur lesdites observations, typiquement qu'elles soient indépendantes et identiquement distribuées,
discrimination : le meilleur modèle est celui dont la vraisemblance vis-à-vis des données est maximale (on parle de maximum de vraisemblance).

Les outils du fréquentisme sont très puissants mais les hypothèses fortes sur les données supposent des designs d'expérience rigoureux. Aujourd'hui il y a un enjeu à pouvoir extraire des connaissances de façon statistiquement rigoureuse :

de données moins contrôlées, voire carrément influencées par des agents agissant de façon stratégique vis-à-vis du traitement qu'on souhaite réaliser,
de sorte à prendre en compte des modèles dont les paramètres ne sont pas que des probabilités fréquentistes, afin de pouvoir modéliser d'autres phénomènes tout en bénéficiant de la rigueur des statistiques.

Le bayésianisme propose pour cela d'adopter un autre triptyque modèles-données-discrimination. Rendez-vous un peu plus loin dans le chemin A !

[ statistiques 🎲 17 min ]

test statistique

Ouvrons pour quelques épisodes la boîte à outils de læ statisticien⋅ne fréquentiste.

Une façon cheap et au rabais d'approcher l'abduction fréquentiste, c'est de pratiquer le rejet d'une hypothèse nulle peu vraisemblable en la soumettant à un test statistique qu'elle échoue à passer. Le rôle de læ statisticien⋅ne est alors de concevoir des ensembles composés de :

un design d'expérience,
la distribution des issues de l'expérience si l'hypothèse nulle est vraie,
un test statistique pour cette distribution : un test dans lequel, si l'hypothèse nulle est vraie, les données issues de l'expérience échouent à ce test avec probabilité (fréquentiste) au plus s (où s est un seuil fixé à l'avance, typiquement 5 % ou 1 %). Il s'agit d'une garantie qu'une proportion au plus s des hypothèses nulles vraies testées seront rejetées à tort.

Techniquement, le risque (probabilité fréquentiste) de rejet d'une hypothèse nulle vraie est nommé risque alpha. Ainsi, s est un majorant du risque alpha.

La vidéo prend l'exemple de la distribution hypergéométrique.

[ statistiques 🎲 10 min ]

p-valeur

Le test d'hypothèse de l'épisode précédent est le plus souvent de la forme suivante :

un design d'expérience,
la distribution des issues de l'expérience si l'hypothèse nulle est vraie,
une formule pour calculer la p-valeur de l'issue de l'expérience, c'est-à-dire la vraisemblance (vis-à-vis de cette distribution) d'obtenir une issue au moins aussi défavorables à l'hypothèse nulle que l'issue effective de l'expérience,
le test statistique par p-valeur associé à l'expérience consiste alors à voir si p est inférieur à un seuil s fixé à l'avance (typiquement 5 % ou 1 %). Si c'est le cas, le test échoue : l'hypothèse nulle est peu vraisemblable.

Propriété fondamentale des tests statistiques par p-valeur :

Si l'hypothèse nulle est vraie, les données issues de l'expérience échouent au test avec probabilité au plus s. Dit autrement, le s "p-valeur seuil" ce cet épisode est le même que le s "majorant du risque alpha" de l'épisode précédent.

Les principaux points d'attention concernant les tests statistiques par p-valeur sont :

leur interprétation, qui est trop souvent erronée, bien différente de la propriété ci-dessus (y compris chez les scientifiques amenés à les utiliser : il y a un enjeu de formation aux statistiques),
ne pas oublier les autres biais pour autant : ce n'est pas parce que l'étape de traitement statistique bénéficie d'une garantie – qui de plus ne porte que sur le risque de rejeter une hypothèse vraie (risque alpha) et pas du tout sur celui de ne pas rejeter une hypothèse fausse (risque bêta) – que le processus du labo à la publication (voire à la lecture) bénéficie d'une garantie du même ordre.

[ statistiques 🎲 14 min ]

intervalle de fluctuation, intervalle de confiance

TODO : teaser/résumé/commentaire

[ statistiques 🎲 13 min ]

essai randomisé contrôlé en crossover

On l'a dit, un des rôles des statisticien⋅ne⋅s et autre méthodologistes, c'est de mettre au point des designs d'expérience permettant des tests statistiques. L'enjeu n'est pas seulement de pouvoir tester de nombreux types d'hypothèse nulle différents, mais aussi pour chaque type d'hypothèse nulle de maximiser la puissance statistique et de minimiser les coûts de l'expérience.

[ statistiques 🎲 14 min ]

facteur de Bayes et rapport de cotes
(en anglais)

TODO : résumé/teaser/commentaire à base de "facteur de surprise"

problème de l'induction et principe d'uniformitarisme

TODO : résumé/teaser/commentaire

[ philosophie des sciences 🤔 15 min ]

théorie à la Solomonoff

Vous vous souvenez du triptyque modèles-données-discrimination ? En voilà la version bayésienne à la Solomonoff :

modèles : algorithme associant à chaque observation une probabilité épistémique (où une observation est assimilée à une suite finie de bits), ce qu'on peut appeler une théorie à la Solomonoff,
données : n'importe quelle observation (n'importe quelle suite finie de bits),
discrimination : on utilise l'induction de Solomonoff (issue de la théorie des probabilités algorithmique) pour calculer la crédence de chaque modèle et par abduction on retient le modèle ayant la plus grande crédence. L'induction de Solomonoff procède comme suit :
- a priori universel de Solomonoff : la crédence a priori d'un modèle est proportionnelle à exp(-l), où l est la longueur du code nécessaire pour décrire l'algorithme qu'est le modèle (aussi appelée complexité de Kolmogorov de l'algorithme) ; et même si cette longueur est dépendante du langage de programmation, cela n'affecte finalement que peu le résultat de l'induction de Solomonoff,
- on met à jour la crédence de chaque théorie grâce aux observations en appliquant les lois des probabilités, typiquement comme dans l'épisode sur les facteurs de Bayes.

Le principe de parcimonie consiste à privilégier les modèles les plus simples… mais dit comme ça c'est assez flou. Dans l'épisode 1 du chemin A, on a précisé ce principe dans un cadre fréquentiste en donnant une signification méthodologique de "simple" : peu coûteux (en temps et en moyens) à falsifier par l'expérience. L'a priori universel de Solomonoff est une façon bayésienne de préciser le principe de parcimonie, en donnant cette fois :

une signification algorithmique de "simple" : le modèle a une faible complexité de Kolmogorov,
une signification probabiliste épistémique de "privilégier" : la crédence a priori des modèles plus simples est plus grande.

bonus : a priori universel de Solomonoff

[ informatique théorique ✅ 23 min ]

complétude partielle de l'induction de Solomonoff

Le problème de l'induction de Solomonoff, c'est qu'il n'existe pas d'algorithme permettant de classifier les algorithmes entre ceux qui sont des théories à la Solomonoff et ceux qui ne le sont pas (on dit que le problème de décision des théories à la Solomonoff n'est pas calculable). Impossible de mettre en place la machinerie décrite à l'épisode précédent (ni même de l'approximer). C'est cependant possible pour un sous-ensemble des théories à la Solomonoff : celles qui décrivent l'univers comme un automate cellulaire (on parle de théories au temps de calcul constant). Précisons cela.

Étant donné une observation (par exemple : 01101) une théories à la Solomonoff lui affecte une certaine probabilité (01101 -> p). Les observations correspondant à la même observation mais récoltant une donnée supplémentaire (011010 et 011011) se partagent cette probabilité (011010 -> p0 ; 011011 -> p1 ; avec p0 + p1 = p). Une théorie au temps de calcul constant est une théorie à la Solomonoff qui calcule ce type de partage en un temps toujours plus petit qu'un certain temps forfaitaire (calculer 011010 -> p0 et 011011 -> p1 quand on a déjà calculé 01101 -> p ne prend pas plus de temps que le temps forfaitaire).

On en vient donc au triptyque modèles-données-discrimination bayésien suivant :

modèles : théorie au temps de calcul constant,
données : n'importe quelle observation (n'importe quelle suite finie de bits),
discrimination : on utilise l'induction de Solomonoff pour calculer la crédence de chaque modèle et par abduction on retient le modèle ayant la plus grande crédence.

Ce n'est pas parce qu'il est possible de mettre en place cette machinerie qu'il est possible de le faire efficacement. Tout l'enjeu ici pour les statisticien⋅ne⋅s, informaticien⋅ne⋅s et autres méthodologistes est donc de trouver des façons cheap d'approximer cette référence, tout comme le test d'hypothèse approxime l'abduction fréquentiste. Le champ de recherche porte le nom d'apprentissage statistique.

bonus : sophisme de l'omniscience logique

[ informatique théorique ✅ 10 min ]

valeur épistémique et modélisation
(le lien commence la vidéo au début de l'extrait)

Voilà essentiellement les trois objectifs (valeurs épistémiques) que peut viser une modélisation :

compréhension : c'est ce dont il s'agit quand on cherche à identifier les grands phénomènes prépondérants (quelques exemples de telles modélisations en physiques : les gaz parfaits, les approximations de faible amplitude à propos des pendules, à propos des ondes…),
réalisme : décrire avec le plus de détails tous les phénomènes, toutes les interactions (par exemple cartographier le système nerveux d'une drosophile jusqu'à l'échelle du neurone individuel),
prédiction : prédire les observables, identifier les paramètres sur lesquels agir et comment agir dessus pour influencer les observables (par exemple le réseau de neurone qui sur le réseau social de votre choix analyse votre comportement pour décider quoi vous recommander ou comment composer votre fil d'actualité, afin de vous y faire passer un maximum de temps et de maximiser votre engagement).

On l'a vu, les statistiques et la théorie des probabilité algorithmique ont poussé très loin les méthodes pour faire des prédictions. Pour nous, c'est l'occasion de sentir la difficulté d'optimiser conjointement ces différentes valeurs épistémiques : les meilleures méthodes prédictives sont des tambouilles statistiques qui n'ont que faire des mécanismes qui sous-tendent les phénomènes.

Typiquement un réseau de neurones :

peut être un très bon prédicteur : par exemple pour prédire la dynamique d'un fluide,
mais il n'est que peu compréhensible : parfois on parvient à identifier que l'activation d'un neurone correspond à l'identification d'une structure clef (par exemple la commissure des lèvres dans une tâche de reconnaissance de visage),
et il n'a absolument rien de réaliste : la dynamique d'un fluide n'est pas l'exécution d'un réseau de neurone.

Pur autant, ces valeurs épistémiques ne font pas que s'opposer. Comme on l'a vu dans l'épisode sur le réalisme structural, faire des prédictions correctes dans des conditions toutes autres que les observations qui ont conduit à élaborer la théorie (ou dans un langage plus proche de l'apprentissage statistique, faire des prédictions correctes hors du domaine d'entraînement), c'est un indice de compréhension.

[ philosophie des sciences 🤔 3 min ]

variance expliquée

La variance expliquée est une notion plus en phase avec la valeur épistémique de compréhension : elle permet par exemple d'évaluer à quel point un modèle est bon au sens de la valeur épistémique de compréhension. N'allez pas penser pour autant qu'il s'agit de la technique statistique la plus élaborée dans sa direction. Il existe par exemple l'analyse en composantes principales qui identifie dans un jeu de données les n paramètres indépendants expliquant ensemble la plus grande part de la variance. Zut ! On retombe sur les bases de l'apprentissage statistiques…

Ah, et sachez que l'héritabilité est une variance expliquée ! (C'est essentiel à comprendre pour interpréter correctement cet indicateur de biologie évolutive… mais certes, c'est une autre histoire.)

Après avoir terminé le chemin C, la suite est au chemin AB.

Chemin B : rhétorique

appel à la nature

La rhétorique s'intéresse aux effets des discours. Et certaines façons de discourir produisent des effets essentiellement indépendants de la valeur argumentative du propos. On parle de procédé rhétorique pour les désigner.

L'appel à la nature est le procédé rhétorique consistant à présenter une position morale (= "telle chose est bien" ou "faire telle chose est mal") comme étant justifiée par le fait que telle chose soit naturelle ou telle autre artificielle. L'effet est là : l'impression d'une argumentation (au lieu d'une affirmation semblant arbitraire). Dit autrement, on a augmenté la profondeur argumentative du discours, ce qui ne le rend pas forcément plus valide, mais en donne l'impression.

En fait :

l'association entre naturel et bien (respectivement artificiel et mal) devrait être argumentée et non laissée comme évidente, voire implicite,
la validité du concept même de nature n'est souvent pas discutée, et pourtant discutable,
et en particulier, une discontinuité ontologique entre le naturel et l'artificiel est souvent nécessaire à l'argument mais demeure implicite.

Bien entendu, les procédés rhétoriques n'ont pas à être cohérents entre eux du point de vue argumentatif. Ainsi on pourrait aussi bien se revendiquer de la modernité ou de la technologie et produire le même type d'effet. La structure importante à identifier, c'est l'utilisation d'une connotation comme argument. Précisons cela.

C'est le couple dénotation/connotation qui est en jeu :

d'abord, argumenter que A a une caractéristique C en utilisant la dénotation de C (la signification explicite de C),
ensuite, argumenter que A est bien en utilisant la connotation de C (la signification implicite de C).

Toute l'entourloupe réside dans le fait de donner l'impression d'un raisonnement argumenté (c'est-à-dire explicite) alors qu'il se fonde sur de l'implicite. C'est ça, utiliser une connotation comme argument.

bonus : guillotine de Hume

[ rhétorique 🗣️ 14 min ]

homme de paille

La reformulation des thèses et la discussion des conséquences sont des éléments essentiels aux discussions. C'est pourquoi elles sont porteuses d'effets rhétoriques… même lorsqu'elles sont effectuées de façon abusive.

bonus : pente glissante

[ rhétorique 🗣️ 5 min ]

appel à la pitié

TODO : résumé/teaser/commentaire

[ rhétorique 🗣️ 12 min ]

quelques procédés rhétoriques

Quitte à moins les détailler, voyons d'autres procédés rhétoriques et des exemple de mise en pratique pour avoir plus de facilité à les repérer et y réagir de façon adéquate.

Bref, le but du chemin B n'est pas de dresser une liste exhaustive des procédés rhétoriques, d'autant que ça ne permettrait pas de faire le tour de ce qui est trompeur ou ne l'est pas les concernant. Passons à autre chose.

bonus : quelques autres encore

[ rhétorique 🗣️ 24 min ]

contexte autour de l'image : montage et effet Kouleshov, micro-trottoir, extrait, légende…

Dans notre société où la communication n'est plus basée sur l'écrit mais sur l'image, celle-ci s'intègre au discours. Dans cette optique, la vidéo présente des situations où le contexte – ou l'absence de contexte dans le cadre des extraits – sert la rhétorique. Elle présente notamment les bases du montage, avec l'exemple du micro-trottoir.

Finalement, cacher des éléments permettant la vérification de l'information peut servir la rhétorique. La rencontre entre les chemins B et C ne saurait tarder.

[ rhétorique 🗣️ 36 min ]

introduction à la lecture d'image partie 1 et partie 2

Symbolique, ethnocentrisme, répétition, humour, saillance de la mort… les images sont tout autant sujettes aux procédés rhétoriques que les discours. Cela vient du fait qu'elles sont porteuse de signification, aussi bien par ce qui est explicitement montré à l'image (dénotation) que par l'imaginaire et les représentations qui sont mobilisés (connotation). Étudier comment la construction des images permet de leur donner une signification relève de la sémiologie.

[ sémiologie ⏯️ 13 + 17 = 30 min ]

Après avoir terminé le chemin C, la suite est au chemin BC.

Chemin C : de la diffusion de l'information à sa vérification

modèle socio-psychologique de la diffusion des informations

La diffusion médiatique des informations participe à la construction des représentations populaires, influençant à leur tour les témoignages qui pourront être repris dans la presse. La boucle est bouclée !

[ éducation aux médias et à l'information 📰 20 min ]

formation et diffusion de rumeur

En ligne, la structure de la propagation d'une information est un indicateur de sa véracité. De plus, la reproduction imparfaite aux différentes étapes de la propagation conduit à une distorsion de l'information. Cette distorsion n'est pas aléatoire, elle va dans le sens des représentation du groupe social dans lequel la rumeur se diffuse.

bonus : simplification et distorsion réduisant la dissonance cognitive lors de la diffusion de rumeur

[ psychologie sociale 👥 13 min ]

efficacité de la vulgarisation : insuffisance de la vulgarisation des résultats seuls et nécessité de souligner l'écart avec l'intuition
(en anglais)

TODO : résumé/teaser/commentaire

[ sciences de l'éducation 🧑‍🏫 8 min ]

chambre d'échos, effet de groupe et identité sociale

On parle de chambre d’échos lorsque la diversité de l'information à laquelle un individu est exposé est réduite. Plusieurs phénomènes expliquent les effets de chambre d'échos en ligne :

les bulles de filtre (effet le plus minime des trois) : conséquences de la personnalisation automatique des fils d'information et résultats de recherches,
les effets de groupe (principal phénomène) : on échange plus d'information avec des personnes ayant des opinions et centres d'intérêt proches,
les biais de confirmation : parmi les informations qui nous arrivent tout de même, on consulte d'avantage celles qui vont dans le sens de ce qu'on pense déjà.

Cette vidéo se concentre notamment sur les effets de groupe, qui sont la conséquence du phénomène d'identité sociale (construction d'une image de soi par les catégories sociales d'appartenance) et de la tendance à chercher à avoir une identité sociale valorisée. Avoir une identité sociale valorisée passe notamment par :

la mobilité sociale : rejoindre des groupes dont qu'on perçoit positivement et s'éloigner de ceux qu'on perçoit négativement,
la valorisation des groupes d'appartenance (en particulier des thèses qui leur sont associées) notamment en situation de conflit.

Finalement, certaines thèses sont davantage l'affirmation d'une identité sociale que d'une connaissance.

[ psychologie sociale 👥 24 min ]

remonter aux sources, croiser les sources

Vérifier une information consiste à :

reconstruire sa généalogie, c'est-à-dire remonter à ses sources,
chercher d'autres sources indépendantes.

Recherche par mots clefs, par image, par image similaire, sur un moteur de recherche spécialisé (journalistique, académique…)… C'est l'occasion de mettre à profit de multiples outils.

bonus : vérification d'image

[ éducation aux médias et à l'information 📰 21 min ]

dégradation de la qualité d'images

Une image de faible qualité est un signe de multiples compressions, et donc de distance à la source de l'information. De façon générale, la vérification de l'information peut comporter une dimension technique (consultation des métadonnées comme la date de création ou le lieu de prise de vue, faible qualité d'image indice qu'on n'est pas à la source de l'information, outil d'aide au repérage de retouche…).

bonus : détection de retouche d'image

[ éducation aux médias et à l'information 📰 6 min ]

lecture de graphique : choix de représentation de données

Avoir des données chiffrées représentées visuellement, c'est bien. Savoir les lire en temps réel et porter son attention sur les potentiels erreurs et aspects trompeurs, c'est mieux !

La vérification de données graphiques consiste à vérifier :

la cohérence des données,
la pertinence de la représentation pour visualiser les données,
la pertinence du choix des données à représenter pour l'argumentaire.

La vérification de graphique mêle donc une attention sur :

les données,
la rhétorique de leur présentation.

Les chemins B et C en viennent à se rencontrer.

bonus : lecture de graphique : choix de données à représenter

[ éducation aux médias et à l'information 📰 28 min ]

Après avoir terminé le chemin B, la suite est au chemin BC. Après avoir terminé le chemin A, la suite est au chemin AC.

Chemin AC : crise de la reproductibilité

pratique du test statistique par p-valeur partie 1 et partie 2

Mécompréhension, mésusages (p-hacking, biais de publication…) et focalisation sur certains enjeux (existence d'effet plutôt que taille d'effet, significativité statistique plutôt que prise de décision, étude de situation facilitant la mise en évidence d'effet plutôt qu'étude de situation de potentielle application, étude de questions se prêtant aux outils statistiques plutôt qu'étude des questions importantes). La pratique du test statistique par p-valeur conduit à une crise de la reproductibilité appelant un renouveau des standards des statistiques et de leur enseignement. La mise en avant du paradigme statistique bayésien participe de ce renouveau.

[ statistiques 🎲 16 + 20 = 36 min ]

crise de la reproductibilité

La crise de la reproductibilité est le fait que dans de nombreuses disciplines scientifiques, lorsqu'on réplique de façon systématique un ensemble d'études, une grande part des réplications (de l'ordre de plusieurs dizaines de pourcents avec des variations importantes entre les disciplines) aboutissent à une conclusion opposée à la publication originale.

bonus : la critique du test statistique par p-valeur et de sa pratique est consensuelle en statistiques

[ statistiques 🎲 14 min ]

expert⋅e non chercheur, méthodologiste, statisticien⋅ne
(le lien commence l'écoute au début de l'extrait)

Les scientifiques ne sont pas forcément des inconscient⋅e⋅s sans recul critique sur leur pratique ou les outils statistiques et méthodologiques qu'iels utilisent. Les organisations de recherche mettent même en place des statuts garants de la méthodologie. La crise de la reproductibilité est néanmoins le témoin que le système est largement imparfait.

[ sociologie 🏙️ 5 min ]

TODO

Après avoir terminé le chemin BC, la suite est au chemin ABC.

Chemin BC : médiatisation

désinformation

Le caractère faux ou trompeur d'informations provient de :

processus inintentionnels (mésinformation) comme on en a évoqués au début du chemin C,
processus intentionnels (désinformation).

La désinformation recouvre :

la sélection d'information pour correspondre à une ligne éditoriale,
le bullshit : information publiée sans souci de vérité (buzz ou publicité par exemple),
les fake news : information délibérément fausse.

Cette classification rencontre néanmoins des limites, car les dynamiques médiatiques mêlent profondément désinformation et mésinformation comme on va le voir dans la suite du chemin BC.

[ éducation aux médias et à l'information 📰 8 min ]

sondage et journalisme politique

Dans le champ politique on tire la légitimité de sa parole notamment des résultats aux élections. Mais le champ journalistique dispose désormais d'un outil pour prétendre à une légitimité du même ordre. Après micro-trottoir, parlons sondage d'opinion.

[ sociologie 🏙️ 14 min ]

opinion publique

TODO : résumé/teaser/commentaire

[ sociologie 🏙️ 17 min ]

effet de cadrage

Choix des sujets, des invité⋅e⋅s, des questions posées, des images et discours diffusés, des contextes pour les micro-trottoirs… tout au long de la boucle médiatique de diffusion de l'information, chaque étape résulte d'une analyse de la situation et à la fois influence en retour la situation et son analyse.

Vous noterez la similarité avec l'épisode 1 du chemin C. Incroyable… tout se déroule comme si cette promenade était organisée !

[ éducation aux médias et à l'information 📰 25 min ]

heuristique de disponibilité, exemple du syndrome du grand méchant monde

TODO : résumé/teaser/commentaire

[ psychologie sociale 👥 43 min ]

réseau social

S'exposer à de l'information sur un réseau social suppose à minima de connaître certains phénomènes façonnant l'information qui y circule : biais cognitifs, dynamiques collectives, gestion algorithmique de la visibilité et désinformation se mêlent pour semer le chemin d'embûches…

[ éducation aux médias et à l'information 📰 ?? min ]

Après avoir terminé le chemin AC, la suite est au chemin ABC.

Chemin ABC : informer, s'informer

sociologie de l'ignorance

Il n'y a pas que des mécanismes de diffusion de l'information (avec son lot de distorsion). Il y a aussi des mécanisme de non diffusion de l'information. Et ils ne se limitent pas à des questions de réception et de (non) transmission d'information par des individus (psychologie sociale). Il y a aussi des questions de statut social des différents acteurs, de cloisonnement des groupes sociaux qui fait que si l'information s'arrête en chemin elle n'arrivera pas au bout du chemin, d'organisation qui produit certains chemins pour certains types d'information… Bref, il y a des mécanismes proprement sociologique.

Quand les informations en question sont des connaissances, on peut parler d'une production sociale de l'ignorance. Et il y a justement une sociologie de l'ignorance qui étudie cela.

[ sociologie 🏙️ 28 min ]

régime épistémique et argumentation en conflit éditorial sur Wikipédia

On a donc discuté (sans être exhaustif) de méthode scientifique et de ce que sont les connaissances scientifiques dont les méthodologie scientifiques visent la production (chemin A), de ce que le milieu scientifique fait effectivement de ces prescriptions méthodologiques (chemin AC), de diffusion et vérification d'information (chemin C) et des enrobages et modelages rhétoriques (chemin B) et médiatiques (chemin BC) de l'information.

Étant acté que s'informer n'est pas produire soi-même de la connaissance scientifique, comment obtenir de la connaissance en s'informant ? (car ça n'a rien d'automatique !) Philosophiquement, c'est le sujet de l'épistémologie sociale : qu'est-ce que l'expertise ? comment la reconnaître ? etc. Wikipédia est une pratique pleinement confrontée à ces enjeux.

Un régime épistémique est une conception de ce qu'est la connaissance, en lien avec des valeurs. Sur Wikipédia, lorsqu'il s'agit d'argumenter dans le contexte d'un conflit éditorial, les régimes épistémiques et valeurs correspondantes mobilisés sont principalement :

régime encyclopédiste et légitimité,
régime wiki et collectivité,
régime scientifique et précision,
régime scientiste et véracité,
régime critique et indépendance,
régime doxique et popularité.

bonus : neutralité de point de vue

[ sociologie 🏙️ 13 min ]

épistémologie sociale

Une connaissance est une croyance :

dont on a conscience des raisons pour lesquelles on la croit,
dont ces raisons sont correctes en un certain sens.

Le type de connaissance étudié par l'épistémologie sociale (et que j'appellerai ici connaissance sociale) est un cas particulier de cette notion générale de connaissance, obtenu en donnant une définition particulière de "correct". Une connaissance sociale est une croyance dont on a de bonnes raisons de penser qu'elle a été validée par des procédures socialement reconnues comme étant à même d'élever la croyance au statut de connaissance (ce que j'appellerai procédure de validation experte). Pourquoi experte ? Parce qu'il y a d'autres procédures de validation de l'information, comme le journalisme scientifique, mais elles n'ont pas le même statut d'élévation d'une croyance en connaissance, il s'agit juste d'une vérification qu'une procédure de validation experte a été réalisé.

Noter qu'en particulier la connaissance sociale ne suppose pas de maîtriser :

les tenants et aboutissants de la pertinence des procédures de validation expertes : si on a un certain degré de confiance en la pertinence des tests statistiques (sans maîtriser le pourquoi de cette pertinence), vérifier qu'ils ont bien été réalisés justifie qu'on augmente notre degré de confiance dans le résultat de l'étude contribue, c'est-à-dire que cela contribue à notre connaissance sociale,
ni même ce que sont les procédures de validation expertes : si on a une certaine confiance dans le fait que les journalistes s'assurent que les choses ont bien été faites dans les règles de l'art (sans même avoir conscience que les règles de l'art comportent la revue par les pairs), lire un article sur une étude contribue à notre connaissance sociale.

S'imaginer qu'il y a des procédures de validation expertes, c'est concevoir une source à la connaissance sociale. L'acquisition de connaissance sociale consiste alors à se convaincre qu'il doit bien y avoir une source valide à telle ou telle croyance. Ces raisons qu'on a de penser que la connaissance sociale a été validée par des procédures expertes peuvent être :

elles-mêmes sociales : "Mes parents me l'ont dit.", "Je l'ai vu dans plusieurs journaux en lesquels j'ai confiance.", "J'ai lu la publication scientifique sur le sujet."…
d'avoir assisté à des procédures de validation, expertes ou non ("J'ai assisté moi-même à la revue par les pairs de cette étude et c'est la revue par les pairs qui fait le caractère scientifique.", "J'ai assisté moi-même à l'enquête journalistique à propos de cette étude, le journal a bien fait son travail avant d'en parler.", "J'ai vu les scientifiques collecter et analyser leurs données, iels respectaient le protocole et ont bien mené les tests statistiques."…), ce qui ne suppose toujours pas de maîtriser personnellement, ni le sujet (l'objet de l'étude dans l'exemple), ni la pertinence des procédures de validation (revue par les pairs, enquête journalistique, protocole scientifique, statistiques…).

(Appelons le premier type de raisons des arguments sociaux et le second des argument procéduraux.)

Les procédures socialement reconnues sont dépendantes du contexte social. On parle d'épistémè pour désigner un contexte social consacrant certaines procédures de validation comme étant expertes, c'est-à-dire légitimes pour élever des croyances au statut de connaissance. La capacité à faire valoir certains propos comme étant des connaissances (autorité épistémique) provient alors de la confiance que les autres ont :

en notre honnêteté et en notre travail cognitif d'acquisition de connaissance sociale : "Mes parents me l'on dit.", journalisme scientifique…
en notre maîtrise des procédures de validation expertes : journal scientifique, académie, chercheur⋅se…

Noter que dans le cas de læ chercheur⋅se, ce ne sont pas ses arguments experts qui convainquent au sens de la connaissance sociale, c'est sa maîtrise supposée des procédures de vérification expertes, et c'est donc souvent moins convainquant qu'une publication scientifique dans un article prestigieux ou un avis d'académie (alors même que c'est plus proche de la source).

Les épistémès varient selon les époques et les contextes sociaux (religion, science…). Une épistémè scientifique est une épistémè dont les procédures de validation reconnues comme expertes sont les procédures scientifiques. Mais ce que la notion d'épistémè (d'épistémè scientifique en particulier) permet de souligner, c'est que ce n'est pas tant ce qui est scientifique qui compte pour la connaissance sociale d'un individu, c'est ce qui a l'air scientifique et plus largement quelles sont les conceptions de la science qui sont disponibles dans l'environnement social de l'individu.

L'acquisition de connaissance sociale dépend assez peu de l'épistémè : comme on l'a dit, il s'agit de s'assurer qu'on peut avoir raisonnablement confiance dans le fait que la connaissance a été dûment validée. C'est l'acquisition de ce que j'appellerai une connaissance experte (connaissance qui suppose une maîtrise de la pertinence des procédures de validation expertes, appelons ça une maîtrise des arguments experts) qui diffère vraiment d'une épistémè à l'autre : une connaissance scientifique est bien différente d'une connaissance théologique, car les arguments experts sont bien différents. Les arguments scientifiques (statistiques, calcul, expérimentation, observation…) diffèrent des arguments théologiques (exégèse de texte sacré, parole sacrée d'autorité religieuse, révélation…). Notez qu'une connaissance experte n'est pas entièrement acquise par des arguments experts. Au contraire, elle s'appuie presque toujours sur des connaissances sociales. Elle se caractérise juste par le fait de ne pas être exclusivement une connaissance sociale.

En bref, la connaissance se construit dans une épistémè avec des arguments (raisons correctes de croire dont on a conscience) qui sont de trois types :

les arguments sociaux,
les arguments procéduraux (assister à une procédure de validation, experte ou non), qui n'ont de valeur qu'en association avec des arguments d'autres types (pour avoir confiance en la pertinence de la procédure),
les arguments experts dans cette épistémè.

Note :

j'ai introduit pas mal de vocabulaire ici qui n'est en rien du vocabulaire classique, avec des définitions à ma sauce qui ne visent qu'à éclaircir et structurer ce résumé-teaser-commentaire : argument, connaissance sociale, argument social, argument procédural, connaissance experte, argument expert, procédure de validation experte,
le vocabulaire défini ici de façon assez classique se résume à : connaissance, autorité épistémique, épistémè

[ philosophie des sciences 🤔 1 h 12 ]

TODO

esprit critique

TODO : résumé/teaser/commentaire

bonus : conceptions de l'esprit critique

[ sciences de l'éducation 🧑‍🏫 2 h 35 ]