Méthodologie
Confiance et taille d'échantillon
Une médiane calculée sur 8 diplômés n'est pas une médiane — c'est une coïncidence. Toutes les écoles de France n'ont pas 500 diplômés identifiables via leurs profils publics, et la question n'est pas "peut-on calculer une statistique ?" mais "cette statistique est-elle fiable à publier ?". Voici nos règles.
1. Seuil minimum de publication
Pour qu'une statistique soit publiée sur une fiche école, nous exigeons deux conditions cumulatives :
- Au moins 30 diplômés identifiables avec un parcours analysable.
- Au moins 50 positions professionnelles(expériences) rattachées à l'école — soit en moyenne 1,7 position par diplômé, ce qui garantit une couverture temporelle minimale.
Ces seuils ne sont pas universels — ils résultent d'un arbitrage entre couverture (publier un maximum d'écoles) et fiabilité (ne pas publier du bruit statistique). Pour les statistiques par métier (plus granulaires), le seuil s'applique à la sous- population concernée : on n'affiche un salaire médian en "Product Management" que si l'école a au moins 30 diplômés identifiés exerçant ce métier.
2. En dessous du seuil : affichage « — »
Quand une école n'atteint pas le seuil minimum pour une statistique donnée, nous affichons —(tiret cadratin) plutôt qu'un chiffre. Ce choix est délibéré : un chiffre, même accompagné d'un avertissement, sera mémorisé comme vérité. Un tiret force l'utilisateur à reconnaître qu'il n'y a pas assez de données pour conclure.
Dans les classements et comparaisons, les écoles avec des chiffres manquants sont rétrogradées en bas de liste plutôt qu'imputées par une moyenne ou une valeur par défaut. L'absence de donnée est une donnée.
3. Intervalles de confiance — roadmap
Nous ne publions pas actuellement d'intervalles de confiance (bornes inf/sup à 95 %) sur les médianes et proportions affichées. Deux raisons :
- Lisibilité: notre audience principale (lycéens, parents) n'est pas familière des notations statistiques. Afficher « 47 k€ [43 ; 51] » à côté de chaque chiffre alourdirait l'UX sans améliorer la décision.
- Choix de seuils conservateurs: en ne publiant qu'au-dessus de 30 diplômés, nous limitons de fait la marge d'erreur sans avoir à l'expliciter.
Une version "data-pro" du site, destinée aux journalistes, chercheurs et cabinets de conseil, exposera les intervalles de confiance complets et les tailles d'échantillon sous-jacentes.
4. Biais de représentativité des sources publiques
Toutes nos statistiques reposent sur les diplômés ayant un profil public professionnel. Ce n'est pas une population neutre. Trois biais principaux doivent être gardés en tête :
- Sur-représentation des 25-45 ans : les jeunes actifs sont plus présents sur les sources publiques professionnelles que les retraités ou les diplômés de moins de 25 ans.
- Sur-représentation du tertiaire : tech, finance, conseil, marketing sont plus présents que la fonction publique, les métiers manuels ou les professions libérales médicales.
- Sur-représentation des carrières visibles : les diplômés fiers de leur parcours mettent à jour leur profil ; ceux en difficulté ou en reconversion discrète moins.
Ces biais ne remettent pas en cause les comparaisons relatives entre écoles : à biais égal, deux écoles comparées sur la même métrique restent comparables. Ils remettent en cause les valeurs absolues— un salaire médian affiché doit être lu comme "salaire médian des diplômés identifiés via leurs profils publics de cette école exerçant ce métier", pas comme "salaire médian de tous les diplômés de cette école".
Questions fréquentes
Pourquoi un seuil de 30 diplômés et non 50 ou 100 ?+
Trente est le seuil statistique classique au-delà duquel les distributions tendent vers la normale (théorème central limite) et où la médiane devient relativement stable. En dessous, la médiane peut bouger fortement avec un seul diplômé ajouté ou retiré. Au-dessus de 100, la stabilité s'améliore peu. Le seuil de 30 est un compromis entre couverture (publier un maximum d'écoles) et fiabilité (ne pas publier du bruit).
Pourquoi afficher « — » au lieu d'une estimation ?+
Parce qu'un chiffre affiché — même avec un astérisque — sera mémorisé comme tel. Nous préférons afficher « — » et inviter l'utilisateur à consulter des écoles mieux documentées plutôt que de publier une médiane calculée sur 8 diplômés qui peut être totalement fausse. La transparence prime sur la complétude.
Pourquoi ne pas publier d'intervalles de confiance ?+
Actuellement, l'interface reste lisible pour un public non technique (lycéens, parents). Ajouter des intervalles de confiance à chaque chiffre alourdirait l'UX sans améliorer significativement la décision d'un utilisateur. Nous préférons être conservateurs sur les seuils de publication que charger l'écran de notations statistiques. Les intervalles de confiance sont sur la roadmap pour la version data-pro du site.
Comment corrigez-vous le biais des sources publiques ?+
Nous ne le corrigeons pas statistiquement — nous l'assumons. Les statistiques publiées concernent les diplômés ayant un profil public professionnel, qui sont plus fréquents chez les jeunes actifs (25-45 ans) travaillant dans des secteurs tertiaires. Les retraités, les professions libérales peu représentées sur les sources publiques professionnelles, et les diplômés très jeunes (<25 ans) sont sous-représentés. Cette limite est pleinement assumée et ne remet pas en cause les comparaisons relatives entre écoles (le biais s'applique de manière similaire).