Les principes sur lesquels reposent les sondages et pourquoi il est difficile de prédire le résultat d'une élection

Les sondages sont devenus omiprésents dans l’univers médiatique et jouent notamment un rôle indispensable pour prédire le résultat des élections, mais peu de gens savent vraiment comment ils marchent et pourquoi le résultat final d’une élection est généralement incertain. J’ai donc pensé qu’il serait utile d’écrire un article sur cette question, afin d’expliquer les principes qui sous-tendent les sondages, ainsi que les sources d’incertitude qui vont de pair avec l’exercice du sondage de l’opinion. J’ai déjà publié l’essentiel de cet article il y a quelques mois, dans un article sur le premier tour des présidentielles où je défendais l’idée que Fillon serait probablement au second tour face à Le Pen. Évidemment, avec le recul, cet article paraît complètement à coté de la plaque, mais ce que j’y expliquais sur les sondages n’en reste pas moins vrai et j’ai pensé qu’il serait intéressant d’écrire un billet entièrement dédié à cette question.

Dans l’idéal, pour faire un sondage, on interrogerait l’ensemble de la population des gens qui voteront le jour de l’élection. Mais ce n’est évidemment pas possible pour tout un tas de raisons, à commencer par le fait qu’on ne peut pas interroger plusieurs millions de personnes. Du coup, comme il n’est pas possible d’interroger tous les gens qui voteront le jour de l’élection, les instituts de sondages construisent un échantillon pouvant aller de quelques centaines à quelques milliers de personnes et interrogent seulement les gens dans cet échantillon. Si cet échantillon est aléatoire, ce qui signifie que, parmi les gens qui voteront le jour de l’élection, chacun a exactement la même probabilité d’être inclus dans l’échantillon, alors un institut de sondage peut estimer quelle proportion de gens voterait pour chaque candidat si l’élection avait lieu au moment où le sondage est réalisé, avec une marge d’erreur que l’on peut calculer.

Pour mieux comprendre comment ça marche, il est utile de recourir à une analogie. Imaginez que vous soyez devant une urne et, tout ce que vous sachiez, c’est qu’elle contient uniquement des boules de couleur rouge ou bleue. Vous voulez savoir quelle proportion des boules dans l’urne sont rouges et quelle proportion d’entre elles sont bleues, mais vous ne pouvez pas inspecter toutes les boules dans l’urne, car elle en contient plusieurs milliers et ça vous prendrait des semaines. Du coup, vous tirez aléatoirement un échantillon de 100 boules de l’urne, puis vous comptez combien d’entre elles sont rouges et combien sont bleues. Supposez que, dans l’échantillon que vous avez retiré de l’urne, 52 boules sont rouges et 48 sont bleues. Vous ne pouvez pas conclure que 52% des boules dans l’urne sont rouges et 48% sont bleues, parce que même si vous avez tiré les boules aléatoirement, le hasard peut faire et a sans doute fait que les proportions dans l’échantillon ne sont pas exactement les mêmes que celles dans l’urne. Mais si vous avez vraiment tiré les boules de façon aléatoire pour constituer votre échantillon, les proportions devraient être à peu près les mêmes que dans l’urne et il est même possible de calculer une marge d’erreur, même si cette fameuse “marge d’erreur” dont parlent les instituts de sondages ne veut pas du tout dire ce que la plupart des gens pensent. Si vous imaginez que l’urne représente la population des gens qui vont aller voter le jour de l’élection et que le tirage des boules correspond à la constitution d’un échantillon de personnes auxquelles on demande pour qui ils comptent voter, vous commencerez à avoir une idée de la façon dont fonctionne un sondage.

Je dois expliquer ce que signifie vraiment la marge d’erreur dont parlent les instituts de sondages, car peu de gens le savent et ça conduit à beaucoup d’erreurs, notamment chez les journalistes. Supposez que, après avoir retiré un échantillon de 100 boules de l’urne et déterminé que, dans cet échantillon, 52% des boules sont rouges et 48% sont bleues, vous ayez calculé une marge d’erreur de 3%. (Je vous passe les détails de comment on peut calculer la marge d’erreur, car vous avez juste besoin de savoir que c’est non seulement possible, mais aussi relativement facile.) Dans un cas comme celui-là, la plupart des gens, notamment les journalistes, sont tentés de dire que l’écart est “en dehors de la marge d’erreur”. Mais ce n’est pas vrai car la marge d’erreur s’applique à chaque proportion et non pas à l’écart entre les proportions. Autrement dit, dans l’exemple précédent où 52% des boules dans l’échantillon sont rouges et 48% sont bleues, la marge d’erreur de 3% n’interdit pas que la proportion de boules dans l’urne qui sont rouges ne soit que de 49% et donc que la proportion de celles qui sont bleues soit de 51%. En effet, si la marge d’erreur s’appliquant à chaque proportion est de 3%, ça veut dire que la marge d’erreur s’appliquant à l’écart entre les proportions est plus importante.

Mais surtout une marge d’erreur de 3% ne signifie pas que, pour chaque couleur, la proportions de boules de cette couleur dans l’urne est dans une fourchette de 3% autour de la proportion de boules de cette couleur dans l’échantillon. Ce que ça signifie, sans entrer dans les détails techniques, c’est que si vous faisiez un “sondage” de l’urne (i. e. si vous retiriez aléatoirement un échantillon de 100 boules et comptiez parmi celles-ci combien sont de chaque couleur) un nombre de fois tendant vers l’infini, pour chaque couleur, dans 95% des cas la proportion de boules de cette couleur dans l’urne serait dans une fourchette de plus ou moins 3% autour de la proportion de boules de cette couleur dans l’échantillon. (Le calcul de la marge d’erreur se fait généralement pour un intervalle de confiance de 95%, mais c’est purement conventionnel et, si on voulait, on pourrait choisir n’importe quel autre chiffre, comme 99% ou 90%.)

Par conséquent, si vous considérez un sondage au hasard, il est fort possible qu’il soit complètement à coté de la plaque. Par exemple, dans l’exemple que j’ai utilisé ci-dessus, le “sondage” de l’urne indiquait que 52% des boules dans l’urne étaient rouges et 48% bleues avec une marge d’erreur de 3%. Mais il est tout à fait possible qu’en réalité seulement 45% des boules dans l’urne sont rouges, tandis que 55% sont bleues, même si un tel écart est bien supérieur à la marge d’erreur pour l’écart entre les proportions déterminé par le “sondage” de l’urne. Tout ce que la marge d’erreur de 3% vous dit, c’est que si vous répétiez cette opération un nombre incalculable de fois, dans 95% des cas la proportion de boules de chaque couleur dans l’urne (qui évidemment resterait toujours la même) serait dans une fourchette de plus ou moins 3% autour de la proportion de boules de cette couleur de l’échantillon, même si cette fourchette serait généralement différente d’une fois sur l’autre. Ainsi, il est tout à fait possible que, si vous refaites un “sondage” de l’urne, vous trouverez cette fois-ci que 47% des boules dans l’échantillon sont rouges et 53% sont bleues. Si la marge d’erreur était vraiment ce que la plupart des gens pensent, ça devrait être impossible, mais en réalité ça n’a rien d’impossible car la marge d’erreur n’est pas ce que la plupart des gens pensent.

La marge d’erreur que donnent les instituts de sondages est une façon de dire quelque chose au sujet de l’erreur d’échantillonnage, i. e. l’erreur dans les résultats d’un sondage qui résulte du rôle du hasard dans le choix des membres de l’échantillon, mais comme je viens de l’expliquer elle n’a en réalité pas une grande utilité, parce qu’elle ne permet pas de tirer de conclusions sur la probabilité que le score d’un candidat soit dans une fourchette de plus ou moins la marge d’erreur autour de son résultat d’après le sondage en question. Il est tout à fait possible qu’en réalité, si l’élection avait lieu aujourd’hui, son score serait au-dessus de cette fourchette ou au-dessous parce que le hasard a fait que l’échantillon utilisé pour ce sondage contenait plus ou moins de gens comptant voter pour ce candidat que dans l’ensemble des gens qui voteront le jour de l’élection. Par exemple, si un sondage dit que Macron récolte 23% avec une marge d’erreur de 2,5%, même si l’échantillon était vraiment aléatoire (nous allons voir qu’en réalité ce n’est pas le cas), on ne pourrait pas conclure avec que le score de Macron serait compris entre 20% et 26% avec une probabilité de 95% si l’élection avait lieu aujourd’hui. En effet, si le hasard avait fait que l’échantillon sur lequel repose le sondage comportait un nombre plus important de gens comptant voter pour Macron que dans le reste de la population, celui-ci ferait moins de 20% en dépit du sondage et de sa marge d’erreur de 3%. De la même façon, si à cause du hasard l’échantillon contenait moins de gens comptant voter pour Macron que dans le reste de la population, il ferait davantage que 26%.

Au point où nous en sommes, vous devez vous demander, après tout ce que j’ai dit, pourquoi les sondages ont la moindre utilité. La raison est que, heureusement pour nous, si vous considérez la moyenne de plusieurs sondages, les erreurs d’échantillonnage ont tendance à s’annuler car elles sont dues au hasard et il n’y a donc aucune raison pour ce qu’elles aillent toutes dans le même sens pour différents sondages. (Il reste une incertitude, mais grâce à un théorème qui s’appelle le “théorème central limite”, il est possible de calculer une probabilité pour chaque possibilité. D’autre part, il n’est évidemment pas vrai qu’il n’y a aucune raison de penser que les erreurs d’échantillonnage ne vont pas dans le même sens pour différents sondages s’ils utilisent un échantillon qui est en partie le même à chaque fois, ce qui est le cas pour le “rolling” d’Ifop ou celui d’Opinionway.) À condition que l’on ait suffisamment de sondages, ce qui est le cas en France, on peut donc se faire une assez bonne idée de ce que serait le résultat de l’élection si elle avait lieu aujourd’hui, même s’il y aurait toujours un peu d’incertitude. Du moins, ce serait le cas si l’erreur d’échantillonnage était le seul type d’erreur auxquels les instituts de sondage étaient confrontés, mais comme je vais maintenant l’expliquer, ce n’est pas le cas.

En effet, il est impossible pour les instituts de sondages de constituer un échantillon aléatoire, c’est-à-dire un échantillon dans lequel chaque personne qui votera le jour de l’élection a exactement la même probabilité de figurer. Pour s’en convaincre, il suffit de songer au fait que, en pratique, on ne sait même pas exactement qui va voter le jour de l’élection. Il y a des gens qui iront voter mais ne le savent pas encore, de même qu’il y a des gens qui croient aujourd’hui qu’ils iront voter même si en fait ils s’abstiendront. Par conséquent, les instituts de sondages effectuent des redressements en assignant un poids différents aux répondants selon leurs caractéristiques démographiques et socio-économiques (je reviendrai plus loin sur un autre type de redressement), de façon à ne pas tirer de conclusions incorrectes sur la population dont est issue l’échantillon. D’ailleurs, contrairement aux instituts de sondages américains, les instituts de sondages français n’utilisent pas vraiment d’échantillons aléatoires mais recourent à la méthode des quotas, qui assure la constitution d’échantillons représentatifs selon des critères décidés à l’avance. L’idée est de constituer un échantillon dont les caractéristiques démographiques, socio-économiques et idéologiques ayant une influence sur le choix d’un candidat sont à peu près identiques à celles des gens qui iront voter le jour de l’élection.

Le problème est qu’il est très difficile de constituer un tel échantillon, car il n’est pas évident de déterminer exactement quelles sont les caractéristiques démographiques, socio-économiques et idéologiques ayant une influence sur le choix d’un candidat et parce qu’il est encore plus difficile de déterminer quelles seront les caractéristiques démographiques, socio-économiques et idéologiques des gens qui voteront le jour de l’élection. Par exemple, lors de l’élection présidentielle américaine en 2016, les instituts de sondages se sont plantés magistralement dans certains États parce qu’ils avaient surestimé la proportion de noirs parmi les gens qui voteraient le jour de l’élection. Compte tenu du fait que les noirs votent très majoritairement pour le parti démocratique, cela avait conduit à surestimer le score de Clinton. Contrairement à l’erreur d’échantillonnage, qui résulte du hasard, il n’y a pas beaucoup de raisons de penser que ce type d’erreur-là tend à s’annuler dès lors que l’on considère la moyenne de plusieurs sondages. Si les instituts de sondages font plus ou moins les mêmes hypothèses (ce qui est souvent le cas parce que c’est un milieu assez incestueux), que celles-ci tendent à favoriser/défavoriser les mêmes candidats et qu’elles sont fausses, regarder la moyenne de plusieurs sondages ne résoudra en rien le problème.

Un autre problème est que même dans le meilleur des cas, un sondage ne peut que nous dire pour qui les gens voteraient si l’élection avait lieu au moment où ils sont interrogés, ce qui n’est évidemment pas le cas. En effet, entre le moment où ils sont interrogés pour un sondage et le moment du vote, les gens peuvent changer d’avis. D’autre part, il y a des gens qui ne sont même pas sûrs d’aller voter même si de fait ils voteront et ceux-là ne sont pas pris en compte dans les sondages, ce qui pourrait également biaiser les résultats si ces gens-là ne se répartissent pas entre les candidats de la même façon que ceux qui sont certains d’aller voter. Il y a également des gens qui n’avouent pas pour qui ils comptent voter, ce qui peut aussi fausser le résultat, dès lors cela est plus courant chez les gens qui votent pour certains candidats que pour d’autres. (Pour cette raison, les instituts de sondages procèdent également à ce qu’ils appellent des redressements d’un autre type que celui dont j’ai parlé plus haut, qui consistent à corriger les résultats pour tenir compte de l’erreur d’observation due par exemple au fait que les gens avouent moins souvent voter pour certains partis. Pour opérer ces redressements, ils posent d’autres questions aux sondés, notamment sur la façon dont ils ont voté la dernière fois, pour essayer de détecter l’erreur d’observation ou ils utilisent des techniques comme une expérience de liste pour éliminer le biais de désirabilité sociale.) Comme les problèmes de représentativité de l’échantillon, le fait de regarder la moyenne des sondages plutôt que des sondages individuels ne règle pas ces problèmes, contrairement aux erreurs d’échantillonnage qui sont dues au hasard et par conséquent tendent à s’annuler quand on agrège les résultats de plusieurs sondages.

Toutes ces difficultés font qu’il est très difficile de prévoir le résultat des élection à partir des sondages, même si on n’a pour l’instant toujours rien trouvé de mieux pour cela. Ce n’est pas vraiment que les instituts de sondages truquent les chiffres, mais l’exercice est très compliqué même lorsqu’on est de bonne foi, ce qui est généralement le cas des sondeurs. (Je ne dis pas que les manipulations n’existent pas, mais elles sont beaucoup plus subtiles qu’un trucage des chiffres. Par exemple, selon la façon dont on formule une question, on peut influencer considérablement le résultat d’un sondage. Mais ceci ne concerne guère les sondages qui sont réalisés avant une élection.) C’est parfois possible, quand l’écart est vraiment énorme (c’est notamment pour cette raison que, comme je l’ai expliqué à l’époque, Le Pen n’avait aucune chance face à Macron au second tour), mais en général il y a beaucoup d’incertitudes qui rendent toute prédiction hasardeuse. Il y a beaucoup d’autres difficultés que je n’ai même pas évoquées, mais j’espère que cet article vous permettra néanmoins de mieux comprendre la façon dont marchent les sondages et pourquoi il est difficile de prédire le résultat des élections.

Nec Pluribus Impar

Le fait que tout le monde dise quelque chose ne veut pas dire que c'est vrai.

Les principes sur lesquels reposent les sondages et pourquoi il est difficile de prédire le résultat d’une élection