Hva er femnummersammendraget i statistikk?

Artículo revisado y aprobado por nuestro equipo editorial, siguiendo los criterios de redacción y edición de YuBrain.


Beskrivende statistikk lar oss oppsummere et datasett i et lite antall tall eller mål som tjener til å beskrive hvordan disse dataene er distribuert. Det er forskjellige mål som tjener til å beskrive den sentrale tendensen til dataene, dens spredning og formen på fordelingskurvene, noen av dem finnes i femtallssammendraget.

Hva er sammendraget med fem tall?

Basert på ovenstående kan sammendraget av fem tall defineres som et sett med fem mål eller statistikk relatert til et datasett som gjør det mulig å beskrive på en veldig enkel måte settets amplitude, dets spredning. Det gir også et mål på dens sentrale tendens. I tillegg kan femnummersammendraget også representeres grafisk, noe som gjør det enkelt å visualisere disse egenskapene til et datasett, samtidig som det enkelt kan sammenlignes med andre relaterte datasett.

Hva er de fem tallene og hva betyr de?

Femtallssammendraget består av minimumsverdien, de tre kvartilene og maksimumsverdien til en serie statistiske data. Kvartiler er de dataene eller verdiene som deler det ordnede settet med alle data i fire undergrupper med samme antall elementer . Så hvis vi har et sett med 100 data, er kvartilene de dataene eller verdiene som deler settet inn i 4 delsett med 25 data hver.

Kvartilene er navngitt i den rekkefølgen de vises i, fra laveste til høyeste, for eksempel den første, andre og tredje kvartilen. I tillegg er de representert med stor bokstav Q etterfulgt av tallet som angir deres ordinære posisjon. Etter sin definisjon er den andre kvartilen, Q2, også kjent som medianen eller midtpunktet av dataene . Det må ikke forveksles med gjennomsnittet, som er det aritmetiske gjennomsnittet av dataene.

I tillegg til de tre kvartilene (Q1, Q2 og Q3), inkluderer femnummersammendraget også minimumsverdien av dataene, sortert fra minste til største, og maksimumsverdien. Med andre ord, de fem tallene i dette sammendraget er:

  • Minimum.– Det er den første verdien av et sett med statistiske data sortert fra laveste til høyeste. Det er dataene med lavest verdi.
  • Q1 eller første kvartil.– Det er denne dataen eller verdien som deler datasettet, og etterlater 25 % (eller en fjerdedel) av dem under og de andre 75 % over.
  • Q2 eller andre kvartil.– Det er dataene eller verdien som deler datasettet i to like grupper. Det vil si at det er verdien som etterlater 50 % av dataene både under og over den, så den representerer også medianen eller midtpunktet til dataene.
  • Q3 eller tredje kvartil.– Dette er dataene eller verdien som etterlater 75 % eller tre fjerdedeler av dataene under og de andre 25 % over.
  • Maksimum.– Som navnet indikerer, er det dataene med den høyeste verdien av hele dataserien. Det vil si at det er de siste dataene når de er sortert fra lavest til høyest.

Når man tolker sammendraget med fem tall, gir forskjellen mellom minimums- og maksimumsverdien det som er kjent som bredden på dataserien. På den annen side viser forskjellen mellom den tredje og første kvartilen, kalt Interquartile Range (RIC), hvor spredt dataene er, siden de indikerer verdiområdet som inneholder 50% av de sentrale dataene.

På den annen side er den andre kvartilen eller medianen et mål på sentral tendens som kan brukes til å representere verdien av alle dataene i serien i et enkelt tall. Selv om gjennomsnittet ofte brukes som et mål på sentral tendens i mange situasjoner, gir medianen fordelen av å ikke være følsom for ekstreme verdier (for høye eller for lave).

Boksplott: den grafiske representasjonen av sammendraget med fem tall

En praktisk måte å visualisere et sammendrag av fem tall på er ved hjelp av det som kalles et boksplott eller Box Plot . I denne typen representasjon er interkvartilområdet (IQR) representert som et rektangel eller en boks som strekker seg fra Q1 til Q3, og er delt i to med en linje vinkelrett på måleaksen plassert i Q2, det vil si i medianen.

Til slutt, på hver side av boksen er linjer trukket parallelt med måleaksen som strekker seg fra minimum til Q1 og fra Q3 til maksimum, så lenge minimum og maksimum ikke er mer enn 1,5.RIC av avstand til venstre og høyre for henholdsvis Q1 og Q3. Disse sidelinjene er det som er kjent som værhårene til boksen. Hvis det er data utenfor området som er avgrenset av Q1 – 1.5.RIC og Q3 + 1.5.RIC, så strekker sidene (noen ganger kalt værhår) seg til dataene lengst fra boksen som er innenfor dette området, og resten er merket som uteliggere.

Eksempel på utarbeidelse av sammendraget av fem tall for en serie data

Deretter presenteres prosedyren, trinn for trinn, for utarbeidelse av et sammendrag av fem tall fra et sett med statistiske data. I tillegg forklarer den hvordan du bygger boksplotten for visualisering av dette sammendraget i grafisk form.

Dataene tilsvarer antall solgte varer i dameavdelingen til et varehus i løpet av en 10-ukers periode. Resultatene av studien er presentert nedenfor:

mandag tirsdag onsdag Torsdag fredag lørdag søndag
Uke 1 158 145 156 156 164 167 147
uke 2 161 146 157 152 162 160 153
Uke 3 152 150 157 155 164 166 152
uke 4 150 149 153 162 169 162 149
uke 5 157 152 154 155 168 161 155
uke 6 157 145 160 164 164 168 149
uke 7 160 152 151 152 168 163 145
uke 8 157 152 155 156 162 169 155
uke 9 160 148 157 150 164 170 154
uke 10 158 146 163 158 165 169 150

Trinn 1: Sorter alle dataene fra minste til største og tilordne dem en indeks som starter med 1.

Resultatet av dette trinnet presenteres nedenfor:

Indeks Verdi Indeks Verdi Indeks Verdi Indeks Verdi
1 145 22 152 43 158 64 168
2 145 23 153 44 160 65 168
3 145 24 153 Fire fem 160 66 168
4 146 25 154 46 160 67 169
5 146 26 154 47 160 68 169
6 147 27 155 48 161 69 169
7 148 28 155 49 161 70 170
8 149 29 155 femti 162
9 149 30 155 51 162
10 149 31 155 52 162
elleve 150 32 156 53 162
12 150 33 156 54 163
1. 3 150 3. 4 156 55 163
14 150 35 157 56 164
femten 151 36 157 57 164
16 152 37 157 58 164
17 152 38 157 59 164
18 152 39 157 60 164
19 152 40 157 61 165
tjue 152 41 158 62 166
tjueen 152 42 158 63 167

Trinn 2: Bestem Q1- og Q3-kvartilene

For å bestemme Q1, Q2 og Q3 kvartilene begynner vi med å beregne en indeks for dataene som tilsvarer hver kvartil. Formelen er følgende:

Fem nummer sammendrag

Fem nummer sammendrag

Fem nummer sammendrag

Hvor N er det totale antallet data. Denne beregningen kan være heltall eller ikke, så prosedyren er delt inn i to tilfeller:

Tilfelle 1: Heltallsresultat

Hvis resultatet er heltall, vil den respektive kvartilen være verdien av dataene som indeksen tilsvarer. For eksempel, hvis indeksen til Q1 gir 10, betyr dette at Q1 vil være verdien av data nummer 10 (149 i vårt eksempel).

Tilfelle 2: Desimalresultat

Hvis indeksen er et desimaltall, vil ikke kvartilen samsvare nøyaktig med noen av dataene i serien. I dette tilfellet rundes resultatet ned og kvartilen beregnes fra disse dataene og den som følger dem, ved å bruke følgende formel:

Fem nummer sammendrag

Der d representerer desimaldelen av indeksen, x i er dataene med indeksen avrundet nedover, og x i+1 er neste datapunkt.

I tilfellet med vårt eksempel er dette resultatet av å beregne indeksene til de tre kvartilene:

Fem nummer sammendrag

Fem nummer sammendrag

Fem nummer sammendrag

I alle tilfeller var resultatet et desimaltall, så nå bruker vi formelen fra tilfelle 2 for å bestemme verdien av hver kvartil:

Fem nummer sammendrag

Fem nummer sammendrag

Fem nummer sammendrag

Trinn 3: Identifiser de fem tallene

Nå som vi har ordnet dataene og vi også har bestemt verdiene til de tre kvartilene, er sammendraget av de fem tallene:

Minimum: 145
Q1: 152
Q2 eller median: 157
Q3: 162,25
Maksimum: 170

Trinn 4: Konstruer boksplotten

Vi har allerede alt som er nødvendig for å bygge boksploten bortsett fra RIC. Basert på resultatet oppnådd i forrige trinn, er forskjellen mellom Q3 og Q1:

Fem nummer sammendrag

For å finne ut om det er uteliggere, beregner vi Q1 – 1,5 IQR og Q3 + 1,5 IQR og sammenligner med minimum og maksimum:

Fem nummer sammendrag

Fem nummer sammendrag

Som vi kan se, er det ingen uteliggere siden minimum, 140, er større enn 136 625. Det er heller ingen uteliggere siden maksimum, 170, er mindre enn 177 625.

Følgende figur viser resultatet av å bygge boksplotten som tilsvarer eksemplet:

Fem nummer sammendrag

Referanser

Hvordan sette sammen en fem-talls oppsummering av et statistisk utvalg . (nd). FaqSalex.info. https://faqsalex.info/educaci%C3%B3n/21361-c%C3%B3mo-reunir-a-un-resumen-de-cinco-n%C3%BAmeros-de-una.html

McAdams, D. (2009, 4. mars). Sammendrag av fem tall. Life is a Story Problem.org. https://lifeisastoryproblem.tripod.com/es/f/fivenumbersummary.html

Serra, BR (2020, 22. november). median . Universformler. https://www.universoformulas.com/estadistica/descriptiva/mediana/#calculo

Serra, BR (2021, 4. august). kvartiler . Universformler. https://www.universoformulas.com/estadistica/descriptiva/cuartiles/#example

Zentica Global. (nd). Brutalk – Hvordan beregne 5-tallssammendraget for dataene dine i Python . Brutalk. https://www.brutalk.com/en/news/brutalk-blog/view/how-to-calculate-the-summary-of-5-numbers-for-your-data-in-python-6047097da7d56

-Annonse-

mm
Israel Parada (Licentiate,Professor ULA)
(Licenciado en Química) - AUTOR. Profesor universitario de Química. Divulgador científico.

Artículos relacionados