Hvad er femtalsoversigten i statistik?

Artículo revisado y aprobado por nuestro equipo editorial, siguiendo los criterios de redacción y edición de YuBrain.


Beskrivende statistik giver os mulighed for at opsummere et datasæt i et lille antal tal eller mål, der tjener til at beskrive, hvordan disse data er fordelt. Der er forskellige mål, der tjener til at beskrive den centrale tendens i dataene, dets spredning og formen af ​​fordelingskurverne, hvoraf nogle findes i 5-talsoversigten.

Hvad er oversigten med fem tal?

Baseret på ovenstående kan resuméet af fem tal defineres som et sæt af fem mål eller statistikker relateret til et datasæt, der gør det muligt på en meget enkel måde at beskrive sættets amplitude, dets spredning. Det giver også et mål for dens centrale tendens. Derudover kan den fem-numre oversigt også repræsenteres grafisk, hvilket gør det nemt at visualisere disse karakteristika ved et datasæt, samtidig med at det nemt kan sammenlignes med andre relaterede datasæt.

Hvad er de fem tal, og hvad betyder de?

Resuméet med fem numre består af minimumsværdien, de tre kvartiler og maksimumværdien af ​​en række statistiske data. Kvartiler er de data eller værdier, der deler det ordnede sæt af alle data i fire undergrupper med det samme antal elementer . Således, hvis vi har et sæt på 100 data, er kvartilerne de data eller værdier, der deler sættet i 4 undersæt af 25 data hver.

Kvartilerne er navngivet i den rækkefølge, de vises i, fra laveste til højeste, såsom første, anden og tredje kvartil. Derudover er de repræsenteret af det store bogstav Q efterfulgt af det tal, der angiver deres ordensposition. Efter sin definition er den anden kvartil, Q2, også kendt som medianen eller midtpunktet af dataene . Det må ikke forveksles med middelværdien, som er det aritmetiske gennemsnit af dataene.

Ud over de tre kvartiler (Q1, Q2 og Q3) inkluderer oversigten med fem tal også minimumsværdien af ​​dataene, sorteret fra mindste til største, og maksimumværdien. Med andre ord er de fem tal i denne oversigt:

  • Minimum.– Det er den første værdi af et sæt statistiske data sorteret fra laveste til højeste. Det er data med den laveste værdi.
  • Q1 eller første kvartil.– Det er den data eller værdi, der deler datasættet, så 25 % (eller en fjerdedel) af dem er under og de øvrige 75 % over.
  • Q2 eller anden kvartil.– Det er dataene eller værdien, der deler datasættet i to lige store grupper. Det vil sige, at det er værdien, der efterlader 50 % af dataene både under og over den, så den repræsenterer også medianen eller midtpunktet af dataene.
  • Q3 eller tredje kvartil.– Dette er de data eller værdier, der efterlader 75 % eller tre fjerdedele af dataene under og de øvrige 25 % over.
  • Maximum.– Som navnet indikerer, er det dataene med den højeste værdi af hele dataserien. Det vil sige, at det er de sidste data, når de er ordnet fra lavest til højest.

Når man fortolker oversigten med fem tal, giver forskellen mellem minimums- og maksimumværdien det, der er kendt som bredden af ​​dataserien. På den anden side viser forskellen mellem den tredje og første kvartil, kaldet Interquartile Range (RIC), os, hvor spredte dataene er, da de angiver det værdiområde, der indeholder 50% af de centrale data.

På den anden side er den anden kvartil eller median et mål for central tendens, der kan bruges til at repræsentere værdien af ​​alle data i serien i et enkelt tal. Selvom middelværdien ofte bruges som et mål for central tendens i mange situationer, giver medianen den fordel, at den ikke er følsom over for ekstreme værdier (for høje eller for lave).

Boksplot: den grafiske gengivelse af resuméet med fem tal

En praktisk måde at visualisere et resumé af fem tal på er ved hjælp af det, der kaldes et boxplot eller Box Plot . I denne type repræsentation er interkvartilområdet (IQR) repræsenteret som et rektangel eller en boks, der strækker sig fra Q1 til Q3, og er delt i to af en linje vinkelret på måleaksen placeret i Q2, det vil sige i medianen.

Endelig er der på hver side af boksen tegnet linjer parallelt med måleaksen, der strækker sig fra minimum til Q1 og fra Q3 til maksimum, så længe minimum og maksimum ikke er mere end 1,5.RIC af afstand til venstre og højre for henholdsvis Q1 og Q3. Disse laterale linjer er det, der er kendt som kassens knurhår. Hvis der er data uden for det interval, der er afgrænset af Q1 – 1.5.RIC og Q3 + 1.5.RIC, så strækker siderne (nogle gange kaldet whiskers) sig til de data, der er længst væk fra den boks, der er inden for det interval, og resten er markeret som outliers.

Eksempel på udarbejdelse af resuméet af fem tal for en række data

Dernæst præsenteres proceduren trin for trin for udarbejdelsen af ​​et resumé af fem tal fra et sæt statistiske data. Derudover forklares det, hvordan man bygger boksplotten til visualisering af dette resumé i grafisk form.

Dataene svarer til antallet af solgte varer i dameafdelingen i et varehus i løbet af en 10-ugers periode. Resultaterne af undersøgelsen er præsenteret nedenfor:

Mandag tirsdag onsdag torsdag Fredag lørdag Søndag
Uge 1 158 145 156 156 164 167 147
uge 2 161 146 157 152 162 160 153
Uge 3 152 150 157 155 164 166 152
uge 4 150 149 153 162 169 162 149
uge 5 157 152 154 155 168 161 155
uge 6 157 145 160 164 164 168 149
uge 7 160 152 151 152 168 163 145
uge 8 157 152 155 156 162 169 155
uge 9 160 148 157 150 164 170 154
uge 10 158 146 163 158 165 169 150

Trin 1: Sorter alle data fra mindste til største, og tildel dem et indeks, der starter med 1.

Resultatet af dette trin er præsenteret nedenfor:

Indeks Værdi Indeks Værdi Indeks Værdi Indeks Værdi
1 145 22 152 43 158 64 168
2 145 23 153 44 160 65 168
3 145 24 153 Fire, fem 160 66 168
4 146 25 154 46 160 67 169
5 146 26 154 47 160 68 169
6 147 27 155 48 161 69 169
7 148 28 155 49 161 70 170
8 149 29 155 halvtreds 162
9 149 30 155 51 162
10 149 31 155 52 162
elleve 150 32 156 53 162
12 150 33 156 54 163
13 150 3. 4 156 55 163
14 150 35 157 56 164
femten 151 36 157 57 164
16 152 37 157 58 164
17 152 38 157 59 164
18 152 39 157 60 164
19 152 40 157 61 165
tyve 152 41 158 62 166
enogtyve 152 42 158 63 167

Trin 2: Bestem Q1- og Q3-kvartilerne

For at bestemme Q1, Q2 og Q3 kvartilerne begynder vi med at beregne et indeks for de data, der svarer til hver kvartil. Formlen er følgende:

Resumé af fem numre

Resumé af fem numre

Resumé af fem numre

Hvor N er det samlede antal data. Denne beregning kan være heltal eller ej, så proceduren er opdelt i to tilfælde:

Case 1: Heltalsresultat

Hvis resultatet er heltal, så vil den respektive kvartil være værdien af ​​de data, som indekset svarer til. For eksempel, hvis indekset for Q1 giver 10, betyder det, at Q1 vil være værdien af ​​data nummer 10 (149 i vores eksempel).

Tilfælde 2: Decimalresultat

Hvis indekset er et decimaltal, svarer kvartilen ikke nøjagtigt til nogen af ​​dataene i serien. I dette tilfælde rundes resultatet ned, og kvartilen beregnes ud fra disse data og den, der følger efter dem, ved hjælp af følgende formel:

Resumé af fem numre

Hvor d repræsenterer decimaldelen af ​​indekset, x i er dataene med indekset afrundet nedad, og x i+1 er det næste datapunkt.

I tilfældet med vores eksempel er dette resultatet af beregningen af ​​indeksene for de tre kvartiler:

Resumé af fem numre

Resumé af fem numre

Resumé af fem numre

I alle tilfælde var resultatet et decimaltal, så nu anvender vi formlen fra tilfælde 2 til at bestemme værdien af ​​hver kvartil:

Resumé af fem numre

Resumé af fem numre

Resumé af fem numre

Trin 3: Identificer de fem numre

Nu hvor vi har ordnet dataene, og vi også har bestemt værdierne af de tre kvartiler, er opsummeringen af ​​de fem tal:

Minimum: 145
Q1: 152
Q2 eller median: 157
Q3: 162,25
Maksimum: 170

Trin 4: Konstruer boxplot

Vi har allerede alt det nødvendige for at bygge boxplotten undtagen RIC. Baseret på resultatet opnået i det foregående trin er forskellen mellem Q3 og Q1:

Resumé af fem numre

For at afgøre, om der er outliers, beregner vi Q1 – 1,5 IQR og Q3 + 1,5 IQR og sammenligner med minimum og maksimum:

Resumé af fem numre

Resumé af fem numre

Som vi kan se, er der ingen outliers, da minimumet, 140, er større end 136.625. Der er heller ingen outliers, da maksimum, 170, er mindre end 177.625.

Følgende figur viser resultatet af at bygge kasseplottet svarende til eksemplet:

Resumé af fem numre

Referencer

Hvordan man samler et resumé på fem numre af en statistisk stikprøve . (nd). FaqSalex.info. https://faqsalex.info/educaci%C3%B3n/21361-c%C3%B3mo-reunir-a-un-resumen-de-cinco-n%C3%BAmeros-de-una.html

McAdams, D. (2009, 4. marts). Sammenfatning af fem numre. Livet er en historie Problem.org. https://lifeisastoryproblem.tripod.com/es/f/fivenumbersummary.html

Serra, BR (2020, 22. november). median . Univers formler. https://www.universoformulas.com/estadistica/descriptiva/mediana/#calculo

Serra, BR (2021, 4. august). kvartiler . Univers formler. https://www.universoformulas.com/estadistica/descriptiva/cuartiles/#example

Zentica Global. (nd). Brutalk – Sådan beregner du 5-talsoversigten for dine data i Python . Brutalk. https://www.brutalk.com/en/news/brutalk-blog/view/how-to-calculate-the-summary-of-5-numbers-for-your-data-in-python-6047097da7d56

-Reklame-

mm
Israel Parada (Licentiate,Professor ULA)
(Licenciado en Química) - AUTOR. Profesor universitario de Química. Divulgador científico.

Artículos relacionados