En statistiques quand on veut parler d’une série de valeurs, comme des salaires d’un ensemble de personnes, on parle souvent de la moyenne de ces salaires.
Cette moyenne n’est pourtant pas toujours très représentative, et c’est très facile à constater :
Si Bill Gates entre dans un bar, en moyenne, tout le monde est milliardaire.
Bien-sûr, on comprend tout de suite ici que la valeur de la moyenne prise seule n’est pas très intéressante : elle n’est pas du tout représentative de quoi que ce soit dans ce bar.
Elle n’est pas inutile pour autant : on peut la comparer à la moyenne des salaires des gens du bar d’en-face, où ne se trouve pas Bill Gates, mais en pratique ce n’est pas ce que nous faisons. Dans la vie courante, on voit la moyenne des salaires et on se compare à cette moyenne, et on se déclare alors riche ou pauvre (pour caricaturer).
Heureusement, la moyenne n’est pas le seul indicateur pour résumer une série de valeurs. D’autres indicateurs existent. Cet article est là pour les présenter. Après une définition précise de la moyenne, on verra la médiane et le mode. La notion d’écart-type et de dispersion seront également présentés.
La moyenne
La moyenne est toujours située entre les deux valeurs extrêmes (le minima et le maxima) de la série. On dit qu’il s’agit d’un indicateur de position.
La moyenne — plus précisément la moyenne arithmétique, car il en existe d’autres : géométrique, harmonique, pour ne citer qu’elles — d’une série de nombres est habituellement notée $\bar{x}$, ou M. Il s’agit de la somme de toutes les valeurs xi d’une série, divisée par la taille n de la série de valeurs :
$$\bold{M} = \bar{x} = \frac{1}{n}\displaystyle\sum_{i=1}^n{x_i}$$
D’un point de vu plus matériel, ou physique, il s’agit aussi du barycentre non pondéré, ou isobarycentre, de la série de points.
La moyenne représente une valeur qui tient compte de l’ensemble des éléments, même ceux qui sont clairement erratiques ou absurdes. Elle est très sensible aux valeurs extrêmes. Elle est représentative d’un ensemble, mais pas forcément des éléments individuels dans cet ensemble : l’exemple plus haut avec Bill Gates le montre bien.
Parfois, un indicateur qui soit plus proche des valeurs individuelles est plus représentative de la réalité.
La médiane
La médiane, également un indicateur de position, est un exemple généralement plus représentatif des valeurs individuelles. Pour la trouver, il faut que la série de nombres soit trié dans l’ordre.
Si la taille de la série de nombres est impair, alors la médiane est le nombre pile au milieu de la série triée.
Si la taille de la série de nombres est pair, alors la médiane est la moyenne des deux nombres centraux de la série triée :
$$M = \begin{cases} x_{\frac{n+1}{2}} &\text{si n impaire} \\ \\ \frac{ x_ {\frac{n}{2}} + x_{\frac{n}{2}+1} }{2} &\text{si n pair }\end{cases}$$
La médiane sépare la liste en deux portions de même effectif.
Par exemple, dans un ensemble de 7 valeurs ordonnées, la médiane est la quatrième valeur. Dans un ensemble de 8 valeurs, la médiane est la moyenne arithmétique entre la quatrième et la cinquième valeur.
L’avantage de la médiane c’est qu’elle est représentative des valeurs centrales d’une série de nombres. Elle est insensible aux extrêmes. Dans notre exemple avec Bill Gates, bien que son salaire soit astronomique, la médiane n’est toujours décalée que d’une place dans la liste des salaires de toutes les personnes dans le bar.
Dès lors, si le bar est rempli de personnes qui gagnent entre 2 000 et 3 000 €, que l’on fasse entrer un millionnaire, ou un milliardaire, ou même un multi-milliardaire, la médiane ne sera toujours que déplacée d’une place. Les valeurs extrêmes, pour peu qu’elles ne soient pas nombreuses, n’ont pas d’influence notable.
Dans une série statistique, la médiane, contrairement à la moyenne, permet d’éliminer une bonne partie de l’influence des valeurs parasites, ou aberrantes.
Le mode
Le mode correspond à la valeur la plus représentée dans une série de nombres. Dans une série de nombres dont on compte les occurrences de chaque valeur, le mode est la valeur avec la plus forte occurrence. Il s’agit de la valeur dominante.
Contrairement à la moyenne et à la médiane, le mode n’est pas toujours défini : si les valeurs d’une série de nombre sont toutes différentes, aucun n’est plus représenté que les autres. Le mode est alors indéterminé.
Dans notre exemple du bar, si l’on a deux personnes à 2 000 €, trois à 2 500 € et Bill Gates, le mode sera 2 500 €, car il y a plus de personnes qui touchent ce salaire-là que n’importe quel autre salaire. Le mode donne une indication de la majorité : le salaire de 2 500 € est le salaire majoritaire (majorité relative).
L’écart-type et l’étendue
On a constaté que la moyenne, la médiane et le mode permettent de se situer au sein d’un ensemble de valeurs statistiques. On dit que ces grandeurs sont des indicateurs de position.
Pour être plus précis dans ce dont on parle, on doit compléter ça par un indicateur de dispersion, c’est-à-dire une grandeur qui indique l’écart d’un indicateur de position par rapport aux valeurs réelles. Cet indicateur de dispersion nous donne des informations sur l’homogénéité de la série de valeurs.
Une moyenne (et ça vaut aussi pour une médiane) doit toujours être accompagnée de l’information sur la dispersion des valeurs autour de la moyenne. Cette dispersion est calculée en analysant les écarts de chaque valeur à la moyenne.
Il existe plusieurs façons de parler de cet écart à la moyenne, mais la plus courante est évidemment l’écart-type. Les informations que sont la valeur minimale et la valeur maximale, ainsi que l’étendue, peuvent aussi être très utiles.
L’écart-type
Sur un ensemble de valeurs xi, situées autour d’une moyenne $\bar{x}$, on peut mesurer les écarts de chaque valeur à moyenne :
$$e_i = x_i - \bar{x}$$
Puis faire la moyenne ē de ces écarts :
$$\bar{e} = \frac{1}{n}\displaystyle\sum_{i=1}^n{e_i}$$
Sauf que… cette valeur est toujours nulle ! En effet, ces écarts — qui peuvent être positifs ou négatif — se compensent dans l’ensemble à cause de la définition même de la moyenne $\bar{x}$.
Si l’on veut une donnée qui ne soit pas nulle, les écarts doivent être absolus. Pour cela, on peut par exemple prendre les carrés des écarts (pour tout passer en positif) avant d’en prendre la moyenne. Notons V cette nouvelle valeur :
$$\bold{V} = \frac{1}{n}\displaystyle\sum_{i=1}^n{(e_i)²}$$
V est appelé la variance. Si cette indication peut être utile, le fait de mettre au carré mettrait aussi au carré d’éventuelles unités. Pour un salaire en euros (€), l’unité de la variance serait des euros² (€²). D’un point de vue métrologique ou même à l’usage, c’est peu pratique.
Une possibilité est alors de prendre la racine carrée de la variance, ainsi on retombe sur des unités identiques à celle des grandeurs étudiées. Notons σ (« sigma ») la racine de la variance :
$$\sigma = \sqrt{\bold{V}}$$
Cette nouvelle valeur, σ, est ce qu’on appelle l’écart-type, et elle a la même unité que les valeurs étudiées (des euros dans notre exemple).
Pourquoi ne pas prendre la valeur absolue des écarts ?
On peut se demander pourquoi ne prend-on pas la moyenne des valeurs absolues des écarts, plutôt que faire des carrés puis des racines, ce qui reviendrait au même en termes d’unités. Et c’est une bonne question.
Sachez que l’on peut prendre la moyenne des valeurs absolues. On obtient alors non pas l’écart-type, mais l’écart moyen, noté $\bold{EM}$. On parle aussi de la déviation absolue à la moyenne. Ça existe, mais ça n’a pas toutes les propriétés de l’écart-type.
Avec l’écart moyen, on prend la valeur absolue de chaque écart à la moyenne, et on en fait la moyenne :
$$\bold{EM} = \frac{1}{n}\displaystyle\sum_{i=1}^n{|x_i - \bar{x}| }$$
En notant que la valeur absolue d’un nombre est la racine carrée du carré de ce nombre — $|x| = \sqrt{x^2}$ — on peut l’écrire aussi :
$$\bold{EM} = \frac{1}{n}\displaystyle\sum_{i=1}^n{\sqrt{(x_i - \bar{x})^2}}$$
Avec ce mode de calcul, tous les écarts ont le même poids dans la moyenne : il n’y a aucune pondération. C’est parfois voulu, mais pas toujours.
L’écart-type, lui, passe par le carré de l’écart, puis en fait la moyenne, et enfin seulement fait la racine carrée de cette moyenne. En mettant au carré un écart déjà important, on amplifie cet écart : on le pondère.
L’écart-type est donc la moyenne pondérée des écarts, et le facteur de pondération l’est par leur propre valeur : chaque écart est pondéré par lui-même, à cause du carré.
Si le constat est fait que l’écart-type et l’écart moyen sont très différents, cela signifie qu’il y a quelques valeurs qui sortent du lot. Ceci permet entre autres de repérer des valeurs parasites, ou aberrantes.
Qui plus est, l’écart-type représente parfaitement la distribution des valeurs dans le cas d’une distribution Gaussienne (ou distribution normale, une notion très importante en statistiques). Les intervalles de confiance (68 %, 95 %, 99 %, etc) fonctionnent avec l’écart-type, et non l’écart-moyen. Le symbole de l’écart-type — σ, sigma — est d’ailleurs celui auquel on réfère quand on parle des intervalles de confiance 1σ, 3σ, 5σ…
Enfin, le calcul de l’écart type est une fonction dérivable, alors que l’écart moyen ne l’est pas : la fonction valeur absolue n’est pas dérivable en 0. Mathématiquement, cela peut avoir son importance dans le cas où l’on veut étudier les fonctions issues des calculs statistiques sur un ensemble de données.
Quelle différence réelle entre l’écart moyen et l’écart-type ?
À titre de note à part, pour ceux pour qui ce serait nécessaire, insistons vraiment sur ceci : la moyenne des racines des carrés des écarts à la moyenne (l’écart moyen) n’est pas la même chose que prendre la racine de la moyenne des carrés des écarts à la moyenne (l’écart-type) :
$$\sigma = \sqrt{\frac{1}{n}\displaystyle\sum_{i=1}^n{(x_i - \bar{x})²}}$$
$$\bold{EM} = \frac{1}{n}\displaystyle\sum_{i=1}^n{\sqrt{(x_i - \bar{x})²}}$$
Ces deux formules sont différentes car l’ordre des opérations a son importance : la racine d’une moyenne n’est pas la même chose que la moyenne des racines (essentiellement parce $\sqrt{a+b} \not = \sqrt{a} + \sqrt{b}$).
L’écart-type est généralement la plus utilisée des deux.
L’étendue
L’étendue est la différence entre la valeur la plus grande et la valeur la plus petite de la série de données. C’est assez simple à comprendre, mais il permet de constater l’homogénéité (ou non) d’une série de données, et de fournir des informations sur les extrêmes.
Par exemple, toujours dans l’exemple du bar avec les salaires, si le salaire moyen est de 2 000 €, et que l’étendue est de 100 €, cela signifie que tous les salaires sont compris dans une fourchette de 100 €. Par exemple, de 1 950 € à 2 050 €, ou encore de 1920 à 2 020 €. Si l’étendue est faible, ça veut dire que tout le monde touche à peu de choses près le même salaire.
Dans le cas où Bill Gates rentrerait dans le bar, l’étendue serait quasiment égal au salaire max (le sien), ainsi qu’à la somme de tous les salaires. Ceci indique l’existence d’une valeur totalement aberrante/
L’étendue est quelque chose d’important qui ne peut pas être obtenue autrement, même avec l’écart-type. On peut avoir deux séries de valeurs avec les mêmes écarts-types et les mêmes moyennes, mais avec des étendues très différentes.
Cette information n’est apportée que par l’étendue, d’où l’importance de noter les valeurs maximales et minimales d’une série de données, en plus de la moyenne, y compris accompagnées de son écart-type.
Exemples
Exemple 1 : salaires de deux entreprises
À titre d’exemples pour tout ça, considérons deux entreprises de mille employés chacune : l’entreprise A et l’entreprise B. La distribution des salaires se fait de cette façon :
Employé | Salaire |
---|---|
#1 | 500 € |
#2 | 2 000 € |
… | … |
#999 | 2 000 € |
#1000 | 3 500 € |
Moyenne : | 2 000 € |
Médiane : | 2 000 € |
Mode : | 2 000 € |
Écart-type : | 67,115 € |
Min : | 500 € |
Max : | 3 500 € |
Étendue : | 3 000 € |
Employé | Salaire |
---|---|
#1 | 1 900 € |
#2 | 1 900 € |
… | … |
#225 | 1 900 € |
#226 | 2 000 € |
… | … |
#550 | 2 000 € |
#551 | 2 100 € |
… | … |
#1000 | 2 100 € |
Moyenne : | 2 000 € |
Médiane : | 2 000 € |
Mode : | 2 000 € |
Écart-type : | 67,115 € |
Min : | 1 900 € |
Max : | 2 100 € |
Étendue : | 200 € |
On constate ici que les salariés de ces deux entreprises ont des salaires bien différents, pourtant les valeurs des moyennes, médianes et écart-types sont identiques ! Seuls changent ici les étendues et les valeurs des salaires le plus bas et le plus haut de l’entreprise.
Pour l’entreprise A, on pourrait penser que le salaire « type » est de 2 000 ± 67 € grâce à la moyenne et l’écart-type, mais dans l’absolu, on aura tout de même un écart de 3 000 € entre le salaire le plus bas et le salaire de plus haut. Cela peut être piégeux.
L’entreprise B, avec le même nombre d’employés, mais avec une distribution des salaires différente, aura un salaire moyen toujours égal à 2 000, et un écart-type de 67 € également, mais l’étendue sera seulement de 100 € ! D’un point de vue de l’égalité des salaires, cette seconde entreprise semblerait mieux : il n’y a aucun salaire qui se détache réellement de l’ensemble : tout est compris dans une fourchette plutôt restreinte.
Exemple 2 : séries de lancers de deux dés
Un exemple plus aléatoire, si on peut dire : le lancer de deux dés.
Si on lance un seul dé, on a autant de chances de faire n’importe quel chiffre de 1 à 6. Si maintenant on lance 2 dés, la valeur la plus probable est le 7, tout simplement, car le nombre de combinaisons qui font 7 est plus importante que toutes les autres : 1+6, 2+5, 3+4, 4+3, 5+2 et 6+1 font tous 7, alors que pour faire un 12, il n’y a que la combinaison 6+6 qui fonctionne. Dans le cas de deux dés, toutes les valeurs ne sont pas équiprobables.
Voici le résultat de 100 lancers de dés :
Somme obtenue | Fréquence |
---|---|
1 | 0 |
2 | 4 |
3 | 6 |
4 | 10 |
5 | 10 |
6 | 13 |
7 | 17 |
8 | 13 |
9 | 12 |
10 | 10 |
11 | 4 |
12 | 1 |
Si on visualise ça graphiquement, on constate que cela se rapproche d’une fonction gaussienne (ou loi normale). Cela signifie que les dés ne sont pas truqués et que les lancers sont bien dus au hasard :
Cette tendance est renforcée si l’on augmente le nombre de lancers (ou le nombre de dés à chaque lancer), ici le résultat de 10 000 lancers de deux dés, ainsi que le résultat de 10 000 lancers de quatre dés (donc des résultats de 4 à 24).
Conclusions
Il y a différentes valeurs à sortir d’une série statistique. Toutes ont leur raison d’être et toutes apportent une information pertinente au sujet de la série de valeurs, en particulier concernant la dispersion (écart type, étendue…) et la tendance centrale (moyenne, médiane…).
Dans l’exemple ci-dessus, on voit aussi que plusieurs séries statistiques peuvent partager certaines grandeurs (avoir la même moyenne et écart-type) mais être totalement différentes dans d’autres (étendue, valeur min, valeur max).
Certaines valeurs sont également inutiles si on les complète pas par une autre. L’exemple de la moyenne dans un bar avec Bill Gates est relativement parlant. Ici, l’information de la moyenne est totalement absurde : elle ne donne aucune information sur le salaire de chacune des personnes se trouvant dans le bar, mais plutôt une information sur la somme totale des salaires de toutes les personnes qui s’y trouvent. Une moyenne sans son écart-type, ou sans la médiane n’est généralement pas utile. Il ne faut s’en souvenir à chaque fois que l’on lit un article de presse qui parle, par exemple, du salaire moyen qui monte malgré la crise, ou du coût « moyen » de la vie.