Comment Politês classe ses sondages : score de popularité
Cet article décrit l’algorithme actuellement en production (V3).
La version précédente (V1), utilisée entre le 6 juin et le 15 décembre 2025, est disponible ici :
Algorithme Politês V1 – Score de popularité (version archivée)
Introduction – Le score de popularité sur Politês
Sur Politês, des milliers de sondages coexistent. Certains attirent beaucoup de réponses et de partages, d’autres passent plus inaperçus. Pour que chacun découvre en priorité les sondages les plus pertinents et engageants, nous avons conçu un système transparent : le score de popularité.
Contrairement aux réseaux sociaux, notre algorithme ne s’adapte pas aux goûts de chacun. Nous ne privilégions pas certains thèmes en fonction de préférences personnelles. Pourquoi ? Parce que cela créerait un biais : les sondages sur la santé ne seraient vus que par les personnes déjà intéressées par la santé, ceux sur la politique uniquement par les plus politisés. On perdrait alors de vue l’opinion de la population dans son ensemble.
Chez Politês, nous cherchons au contraire à révéler ce qui nous rassemble ou nous divise collectivement.
Introduction – Transparence méthodologique
Politês a pour ambition d’être un outil de mesure citoyenne de l’opinion publique, ouvert, vérifiable et contestable. À ce titre, nous publions de manière volontaire et détaillée la méthodologie de notre algorithme de distribution et de scoring des sondages.
Cet article a pour objectif de documenter de manière suffisamment précise la logique de calcul et de diffusion des sondages afin qu’un lecteur disposant des données nécessaires puisse comprendre, analyser et, le cas échéant, reproduire les mécanismes décrits.
L’article commence par une lecture pédagogique, puis entre volontairement dans un niveau de détail technique élevé. Il est donc normal qu’une partie des lecteurs s’arrête après l’introduction.
Pourquoi Politês a fait évoluer son algorithme (de V1 à V3)
La version V1 de l’algorithme de Politês a permis de lancer le produit et de valider les premiers usages. Toutefois, son exploitation en conditions réelles a mis en évidence plusieurs limites structurelles, incompatibles avec nos objectifs de neutralité, de qualité méthodologique et de transparence.
Limites observées de l’algorithme V1
- Confusion entre volume et qualité
Le score V1 reposait essentiellement sur des taux simples (réponses, likes, partages), insuffisamment pénalisés lorsque les volumes étaient faibles. Des sondages très peu exposés pouvaient ainsi apparaître artificiellement performants. - Faible prise en compte de la dynamique temporelle
La fraîcheur était intégrée via une décote appliquée en fonction du nombre de jours écoulés depuis la création et la première diffusion d’un sondage, sans distinction claire entre intérêt récent, tendance et popularité de fond. - Difficulté de traitement du “cold start”
Les nouvelles questions entraient rapidement en concurrence avec des sondages déjà bien établis, sans mécanisme structuré garantissant l’obtention d’un premier signal statistiquement exploitable. - Risque de biais lié aux sources d’interaction
Les interactions issues de partages externes pouvaient influencer le score, créant un risque de manipulation ou de biais exogène non maîtrisé. - Lisibilité et auditabilité perfectibles
Le score global V1 agrégeait plusieurs dimensions hétérogènes, rendant difficile la compréhension fine de l’ordre de diffusion et la vérification indépendante des résultats.
Principes retenus pour la V3
L’algorithme V3 a été conçu comme une réponse directe à ces limites, autour de quelques principes structurants :
- dissocier clairement court terme, moyen terme et long terme (CT / MT / LT),
- adopter une mesure prudente de la performance via la borne inférieure de Wilson,
- structurer explicitement l’exposition des nouvelles questions (Seed / Explore),
- limiter strictement le périmètre des données utilisées pour le score,
- rendre la logique de diffusion déterministe, traçable et reproductible.
Vue d’ensemble de l’algorithme V3 (lecture rapide)
Les quatre familles de sondages
Chaque sondage peut être servi selon l’une des quatre familles suivantes :
- Seed / Explore : phase d’exploration des nouvelles questions.
- CT (Court Terme) : score calculé sur une fenêtre glissante de 7 jours.
- MT (Moyen Terme) : score calculé sur une fenêtre glissante de 30 jours.
- LT (Long Terme) : score calculé sur l’ensemble de l’historique.
Une session standard = 20 sondages
Une session utilisateur standard est composée de 20 sondages, répartis selon un pattern fixe et répétable :
CT → LT → MT → LT → Seed (répété 4 fois)
Soit, par session :
- 4 slots CT
- 4 slots MT
- 8 slots LT
- 4 slots Seed
Un score prudent, et non un taux brut
Contrairement à V1, V3 n’utilise jamais de taux simples. Chaque dimension de performance est évaluée via la borne inférieure de l’intervalle de confiance de Wilson, afin de pénaliser les faibles volumes et de limiter les effets de hasard.
Définitions essentielles
Vue, réponse et passe
Une carte est considérée comme vue dès lors qu’elle a été :
- soit répondue,
- soit passée par l’utilisateur.
Un simple affichage sans interaction n’est pas comptabilisé comme une vue.
Périmètre des données utilisées pour le score
Le calcul des scores CT, MT et LT prend exclusivement en compte les interactions issues des sources suivantes :
- flow (flux de sondages sur la home page)
- grid (vue grille alternative à la home)
Les interactions provenant d’autres sources (partage externe, profil, recherche, classements) sont exclues du score. Ce choix vise à garantir que le score reflète prioritairement les réactions d’utilisateurs exposés aux sondages de manière équitable et non prédéterminée, et à limiter l’influence de dynamiques externes susceptibles de biaiser la mesure.
Les résultats publiés, en revanche, agrègent l’ensemble des réponses, toutes sources confondues.
Spécification détaillée – Partie A : Scoring V3
Fenêtres temporelles
Trois scores indépendants sont calculés pour chaque sondage :
- CT : fenêtre glissante de 7 jours,
- MT : fenêtre glissante de 30 jours,
- LT : historique complet.
Chaque score est compris entre 0 et 1.
Compteurs nécessaires (par fenêtre)
Pour chaque fenêtre, sont agrégés :
- r : nombre de réponses,
- passes : nombre de passes,
- n = r + passes : nombre de vues,
- l : likes,
- s : partages,
- f : favoris,
- m : signalements,
- nonreport = n − m.
Calcul par canal – borne inférieure de Wilson
Pour chaque canal, on calcule une borne inférieure prudente :
LBW = (p̂ + z² / (2n) − z · √( p̂(1 − p̂)/n + z²/(4n²) )) / (1 + z²/n)
avec :
- p̂ = x / n,
- x dépend du canal (réponses, likes, partages, favoris, non‑signalement),
- z dépend de la fenêtre temporelle.
Pondération multi‑canaux
Les bornes inférieures sont ensuite combinées selon la pondération suivante :
- réponses : 0,40
- likes : 0,20
- partages : 0,15
- favoris : 0,15
- non‑signalement : 0,10
Le score final d’une fenêtre est la somme pondérée de ces composantes.
Paramètres de confiance
- CT : z = 1,64
- MT : z = 1,64
- LT : z = 1,96
Seuils d’éligibilité
- CT : seuil minimal appliqué de 20 vues sur 7 jours
MT : seuil minimal appliqué de 30 vues sur 30 jours
- LT : aucun seuil minimal
Spécification détaillée – Partie B : Construction d’une session (20 sondages)
Règles transversales
Un sondage ne peut apparaître dans une session que s’il :
- n’a jamais été vu par l’utilisateur (répondu ou passé),
- n’apparaît qu’une seule fois dans la session (anti‑doublon intra‑page).
Pattern des 20 slots
La session est construite slot par slot selon le pattern :
CT → LT → MT → LT → Seed (×4)
Conditions par famille
- CT : score CT disponible et seuil atteint.
- MT : score MT disponible et seuil atteint.
- LT : score LT disponible.
- Seed : question en phase d’exploration (typiquement tant que n < 30).
Règles de backfill
Si aucun candidat n’est disponible pour la famille attendue d’un slot, un ordre de repli est appliqué :
- Slot CT : CT → Seed → MT → LT
- Slot MT : MT → CT → LT → Seed
- Slot LT : LT → MT → CT → Seed
- Slot Seed : Seed → LT → CT → MT
Si aucun sondage n’est disponible après backfill, un message de fin de contenu est affiché.
Sponsors et cartes spéciales
Sondages sponsorisés et cartes VIP
Lorsqu’ils sont disponibles pour un utilisateur, les sondages sponsorisés remplacent les slots 4 et 14 (initialement des slots LT), dans la limite de deux cartes par session. En l’absence de sponsor, le slot reste un slot LT standard.
Les cartes VIP suivent exactement la même logique de diffusion que les sondages sponsorisés. Il ne s’agit pas de sondages achetés, mais de sondages offerts à des personnalités publiques. Par souci de transparence, la mention « VIP » est explicitement affichée sur la carte.
Les critères amont de disponibilité des cartes sponsorisées ou VIP ne font pas partie de la méthodologie publique.
Cartes spéciales non sponsorisées
Les cartes spéciales non sponsorisées correspondent à des contenus éditoriaux ou informatifs qui ne sont pas des sondages (par exemple des messages institutionnels). Elles ne relèvent pas de l’algorithme V3.
Elles sont injectées hors des 20 sondages, après les positions visuelles 9 et 19, dans la limite d’un nombre maximum K (par défaut K = 2). Elles n’altèrent pas l’ordre des sondages.
Ce que V3 corrige par rapport à V1 (récapitulatif synthétique)
- Séparation explicite entre intérêt récent, tendance et popularité de fond (CT / MT / LT).
- Réduction des effets de hasard via une mesure prudente (Wilson).
- Traitement structuré du cold start (problème de démarrage des nouvelles questions) grâce aux slots Seed.
- Limitation des biais liés aux sources d’interaction externes.
- Logique de diffusion déterministe, explicite et auditabile.
Données nécessaires à une vérification indépendante (perspective méthodologique)
Pour recalculer intégralement l’algorithme V3, un lecteur doit disposer :
- des compteurs par sondage et par fenêtre (réponses, passes, likes, partages, favoris, signalements – issus de flow et grid),
- des paramètres publics (pondérations, valeurs de z, seuils),
- du statut « déjà vu » par utilisateur,
- des listes de sondages candidats par famille.
Certaines de ces données ne sont pas encore exposées publiquement dans l’application. Leur publication fait partie des évolutions envisagées par Politês.
À partir de ces éléments, l’ensemble des scores et de la logique de diffusion décrits dans cet article peut être reproduit à l’identique sur le plan méthodologique.
