Qu’est-ce que le résumé à cinq chiffres dans les statistiques ?

Artículo revisado y aprobado por nuestro equipo editorial, siguiendo los criterios de redacción y edición de YuBrain.


Les statistiques descriptives nous permettent de résumer un ensemble de données en un petit nombre de nombres ou de mesures qui servent à décrire comment ces données sont distribuées. Il existe différentes mesures qui servent à décrire la tendance centrale des données, sa dispersion et la forme des courbes de distribution, dont certaines se retrouvent dans le résumé en cinq chiffres.

Quel est le résumé en cinq chiffres ?

Sur la base de ce qui précède, le résumé de cinq nombres peut être défini comme un ensemble de cinq mesures ou statistiques liées à un ensemble de données qui permettent de décrire de manière très simple l’amplitude de l’ensemble, sa dispersion. Il fournit également une mesure de sa tendance centrale. De plus, le résumé à cinq chiffres peut également être représenté graphiquement, ce qui facilite la visualisation de ces caractéristiques d’un ensemble de données, tout en permettant de le comparer facilement à d’autres ensembles de données connexes.

Quels sont les cinq chiffres et que signifient-ils ?

Le résumé à cinq chiffres est composé de la valeur minimale, des trois quartiles et de la valeur maximale d’une série de données statistiques. Les quartiles sont les données ou valeurs qui divisent l’ensemble ordonné de toutes les données en quatre sous-groupes avec le même nombre d’éléments . Ainsi, si nous avons un ensemble de 100 données, les quartiles sont les données ou valeurs qui divisent l’ensemble en 4 sous-ensembles de 25 données chacun.

Les quartiles sont nommés dans l’ordre dans lequel ils apparaissent, du plus bas au plus élevé, comme les premier, deuxième et troisième quartiles. De plus, ils sont représentés par la lettre majuscule Q suivie du chiffre qui indique leur position ordinale. Par sa définition, le deuxième quartile, Q2, est également connu comme la médiane ou le point médian des données . Il ne faut pas le confondre avec la moyenne, qui est la moyenne arithmétique des données.

En plus des trois quartiles (Q1, Q2 et Q3), le résumé à cinq chiffres comprend également la valeur minimale des données, classées du plus petit au plus grand, et la valeur maximale. En d’autres termes, les cinq chiffres de ce résumé sont :

  • Minimum.– C’est la première valeur d’un ensemble de données statistiques ordonnées de la plus faible à la plus élevée. Il s’agit des données de valeur la plus faible.
  • Q1 ou premier quartile.– C’est cette donnée ou cette valeur qui divise l’ensemble de données, en laissant 25 % (ou un quart) d’entre elles en dessous et les 75 % restants au-dessus.
  • Q2 ou deuxième quartile.– C’est la donnée ou la valeur qui divise l’ensemble de données en deux groupes égaux. C’est-à-dire qu’il s’agit de la valeur qui laisse 50 % des données à la fois en dessous et au-dessus, elle représente donc également la médiane ou le point médian des données.
  • Q3 ou troisième quartile.– Il s’agit de la donnée ou de la valeur qui laisse 75 % ou les trois quarts des données ci-dessous et les 25 % restants au-dessus.
  • Maximum.– Comme son nom l’indique, il s’agit de la donnée ayant la valeur la plus élevée de toute la série de données. C’est-à-dire qu’il s’agit des dernières données lorsqu’elles sont classées du plus bas au plus élevé.

Lors de l’interprétation du résumé à cinq chiffres, la différence entre la valeur minimale et la valeur maximale fournit ce que l’on appelle la largeur de la série de données. D’autre part, la différence entre le troisième et le premier quartile, appelée Interquartile Range (RIC), nous montre à quel point les données sont dispersées, car elle indique la plage de valeurs qui contient 50% des données centrales.

D’autre part, le deuxième quartile ou médiane est une mesure de tendance centrale qui peut être utilisée pour représenter la valeur de toutes les données de la série en un seul nombre. Bien que la moyenne soit souvent utilisée comme mesure de tendance centrale dans de nombreuses situations, la médiane offre l’avantage de ne pas être sensible aux valeurs extrêmes (trop hautes ou trop basses).

Boîtes à moustaches : la représentation graphique du résumé à cinq chiffres

Une façon pratique de visualiser un résumé de cinq nombres est au moyen de ce qu’on appelle un box plot ou Box Plot . Dans ce type de représentation, l’intervalle interquartile (IQR) est représenté par un rectangle ou une boîte qui s’étend de Q1 à Q3, et est divisé en deux par une ligne perpendiculaire à l’axe de mesure situé en Q2, c’est-à-dire à la médiane.

Enfin, de chaque côté de la boîte, des lignes sont tracées parallèlement à l’axe de mesure qui s’étendent du minimum à Q1 et de Q3 au maximum, tant que le minimum et le maximum ne sont pas supérieurs à 1,5.RIC de distance vers la gauche et à droite de Q1 et Q3, respectivement. Ces lignes latérales sont ce qu’on appelle les moustaches de la boîte. S’il y a des données en dehors de la plage délimitée par Q1 – 1.5.RIC et Q3 + 1.5.RIC, alors les côtés (parfois appelés moustaches) s’étendent jusqu’aux données les plus éloignées de la boîte qui se trouve à l’intérieur de cette plage, et le reste est marqué comme valeurs aberrantes.

Exemple de préparation du résumé de cinq chiffres pour une série de données

Ensuite, la procédure est présentée, étape par étape, pour l’élaboration d’un résumé de cinq chiffres à partir d’un ensemble de données statistiques. De plus, il explique comment construire la boîte à moustaches pour la visualisation de ce résumé sous forme graphique.

Les données correspondent au nombre d’articles vendus dans le rayon femme d’un grand magasin pendant une période de 10 semaines. Les résultats de l’étude sont présentés ci-dessous :

Lundi Mardi Mercredi Jeudi Vendredi Samedi Dimanche
Semaine 1 158 145 156 156 164 167 147
semaine 2 161 146 157 152 162 160 153
Semaine 3 152 150 157 155 164 166 152
semaine 4 150 149 153 162 169 162 149
semaine 5 157 152 154 155 168 161 155
semaine 6 157 145 160 164 164 168 149
semaine 7 160 152 151 152 168 163 145
semaine 8 157 152 155 156 162 169 155
semaine 9 160 148 157 150 164 170 154
semaine 10 158 146 163 158 165 169 150

Étape 1 : Triez toutes les données de la plus petite à la plus grande et attribuez-leur un index commençant par 1.

Le résultat de cette étape est présenté ci-dessous :

Indice Valeur Indice Valeur Indice Valeur Indice Valeur
1 145 22 152 43 158 64 168
2 145 23 153 44 160 65 168
3 145 24 153 Quatre cinq 160 66 168
4 146 25 154 46 160 67 169
5 146 26 154 47 160 68 169
6 147 27 155 48 161 69 169
7 148 28 155 49 161 70 170
8 149 29 155 cinquante 162
9 149 30 155 51 162
dix 149 31 155 52 162
onze 150 32 156 53 162
12 150 33 156 54 163
13 150 3. 4 156 55 163
14 150 35 157 56 164
quinze 151 36 157 57 164
16 152 37 157 58 164
17 152 38 157 59 164
18 152 39 157 60 164
19 152 40 157 61 165
vingt 152 41 158 62 166
vingt-et-un 152 42 158 63 167

Étape 2 : déterminer les quartiles Q1 et Q3

Pour déterminer les quartiles Q1, Q2 et Q3, on commence par calculer un indice pour les données correspondant à chaque quartile. La formule est la suivante :

Résumé des cinq chiffres

Résumé des cinq chiffres

Résumé des cinq chiffres

N est le nombre total de données. Ce calcul peut être entier ou non, la procédure se divise donc en deux cas :

Cas 1 : résultat entier

Si le résultat est un entier, alors le quartile respectif sera la valeur des données auxquelles l’indice correspond. Par exemple, si l’indice de Q1 donne 10, cela signifie que Q1 sera la valeur de la donnée numéro 10 (149 dans notre exemple).

Cas 2 : Résultat décimal

Si l’indice est un nombre décimal, alors le quartile ne correspondra exactement à aucune des données présentes dans la série. Dans ce cas, le résultat est arrondi et le quartile est calculé à partir de cette donnée et de celle qui la suit, selon la formule suivante :

Résumé des cinq chiffres

d représente la partie décimale de l’index, x i est les données avec l’index arrondi vers le bas, et x i+1 est le point de données suivant.

Dans le cas de notre exemple, il s’agit du résultat du calcul des indices des trois quartiles :

Résumé des cinq chiffres

Résumé des cinq chiffres

Résumé des cinq chiffres

Dans tous les cas, le résultat était un nombre décimal, nous appliquons donc maintenant la formule du cas 2 pour déterminer la valeur de chaque quartile :

Résumé des cinq chiffres

Résumé des cinq chiffres

Résumé des cinq chiffres

Étape 3 : Identifiez les cinq nombres

Maintenant que nous avons les données ordonnées et que nous avons également déterminé les valeurs des trois quartiles, le résumé des cinq nombres est :

Le minimum: 145
Q1 : 152
Q2 ou médiane : 157
Q3 : 162,25
Maximum: 170

Étape 4 : Construire la boîte à moustaches

Nous avons déjà tout le nécessaire pour construire le boxplot à l’exception du RIC. Sur la base du résultat obtenu à l’étape précédente, la différence entre Q3 et Q1 est :

Résumé des cinq chiffres

Pour déterminer s’il y a des valeurs aberrantes, nous calculons Q1 – 1,5 IQR et Q3 + 1,5 IQR et comparons avec le minimum et le maximum :

Résumé des cinq chiffres

Résumé des cinq chiffres

Comme on peut le voir, il n’y a pas de valeurs aberrantes puisque le minimum, 140, est supérieur à 136 625. Il n’y a pas non plus de valeurs aberrantes puisque le maximum, 170, est inférieur à 177 625.

La figure suivante montre le résultat de la construction de la boîte à moustaches correspondant à l’exemple :

Résumé des cinq chiffres

Les références

Comment assembler un résumé à cinq chiffres d’un échantillon statistique . (sd). FaqSalex.info. https://faqsalex.info/educaci%C3%B3n/21361-c%C3%B3mo-reunir-a-un-resumen-de-cinco-n%C3%BAmeros-de-una.html

McAdams, D. (2009, 4 mars). Résumé de cinq numéros. La vie est une histoire Problem.org. https://lifeisastoryproblem.tripod.com/es/f/fivenumbersummary.html

Serra, BR (2020, 22 novembre). médiane . Formules d’univers. https://www.universoformulas.com/estadistica/descriptiva/mediana/#calculo

Serra, BR (2021, 4 août). quartile . Formules d’univers. https://www.universoformulas.com/estadistica/descriptiva/cuartiles/#example

Zentica Global. (sd). Brutalk – Comment calculer le résumé à 5 chiffres de vos données en Python . Brutal. https://www.brutalk.com/en/news/brutalk-blog/view/how-to-calculate-the-summary-of-5-numbers-for-your-data-in-python-6047097da7d56

-Publicité-

mm
Israel Parada (Licentiate,Professor ULA)
(Licenciado en Química) - AUTOR. Profesor universitario de Química. Divulgador científico.

Artículos relacionados