Tabla de Contenidos
I beskrivende statistik er der en række mål, der giver os mulighed for at observere forskellige generelle aspekter af data fra en befolkning. Nogle bruges til at måle dataens centrale tendens, mens andre søger at give en idé om variabiliteten eller spredningen af dataene, det vil sige måden, hvorpå dataene er fordelt omkring den centrale tendens.
To vigtige mål for variabilitet eller spredning er variansen og standardafvigelsen. Disse to mål er tæt forbundet med hinanden, dog er der to versioner af variansen og to tilsvarende versioner af standardafvigelsen, nemlig populationen og stikprøven.
Population vs. stikprøvestatistiske oversigter
Det er værd at bemærke en kendsgerning af stor betydning, og det er, at der i statistikker generelt er to versioner af hver af målene, der opsummerer adfærden af en række data, og som bruges i forskellige sammenhænge.
Til at begynde med skal vi skelne mellem data fra en population (eller populationsdata) og data fra en delmængde af denne population, kaldet en stikprøve. Selvom befolkningsdata og stikprøvedata ikke kan skelnes matematisk, er de konceptuelt meget forskellige.
folketællinger
Befolkningsdata er data opnået gennem en statistisk folketælling, det vil sige måling eller analyse af hvert element eller individ, der udgør en befolkning (så længe den er endelig, selvfølgelig). Når vi beregner mål for central tendens eller spredning for befolkningsdata, får vi mål, der opsummerer befolkningens generelle adfærd, som vi kalder befolkningsparametre , og som er faste værdier for en population (det vil sige, at en population kun har én middelværdi , én tilstand, én standardafvigelse osv. på et givet tidspunkt). I dette tilfælde gør vi brug af beskrivende statistik .
Prøveudtagning
På den anden side udfører vi i mange forskellige situationer en prøveudtagningsproces for kun at analysere nogle dele af populationen og således opnå stikprøvedata. I disse tilfælde kan vi også bruge værktøjerne til beskrivende statistik til at observere den generelle adfærd af disse data, men vi laver faktisk ikke beskrivende statistik om populationen, kun på stikprøven.
Numeriske opsummeringer af stikprøven er ikke parametre, men kaldes statistik (selvom nogle også kalder dem statistik). I modsætning til parametre varierer statistik fra stikprøve til stikprøve , selvom prøverne er trukket fra den samme population. Dette skyldes, at når du vælger en delmængde af populationen, er der mange mulige kombinationer af elementer, der kan udgøre stikprøven. Af denne grund består stikprøverne generelt af forskellige emner, individer eller elementer, hvilket giver anledning til forskellige statistikker.
Det endelige formål med at beregne disse statistikker på stikprøven er at kunne bruge dem som estimatorer af de respektive populationsparametre. Denne proces med at udlede eller estimere adfærden af befolkningsdata fra stikprøvedata er, hvad inferentiel statistik er ansvarlig for . Dette gør populations- og stikprøvevarianser og standardafvigelser væsentligt forskellige.
Men hvad er varians og standardafvigelse egentlig ?
Hvad er variansen?
Varians er et mål for spredning fra gennemsnittet af et datasæt. Det er defineret som gennemsnittet af de kvadrerede afvigelser af alle data fra middelværdien. Da det er et gennemsnit af kvadrerede forskelle, er det altid en positiv størrelse.
Hvad er standardafvigelsen?
På den anden side er standardafvigelsen simpelthen den positive kvadratrod af variansen. Det måler også spredningen omkring middelværdien, kun det gør det i form af de samme enheder af data og middelværdi. Dette gør det lettere at forstå og fortolke end variansen.
Da standardafvigelsen beregnes som kvadratroden af variansen, giver det ikke mening at tale om populationen og stikprøvestandardafvigelsen uden at tale om populationen og stikprøvevariansen.
De vigtigste forskelle mellem disse almindelige mål for spredning omkring middelværdien vil blive beskrevet detaljeret i de følgende afsnit.
Forskel 1: Populations- og stikprøvestandardafvigelser og -varianser er repræsenteret med forskellige symboler
Den første forskel, der skal tages i betragtning, når man sammenligner populationen og prøvevariansen og populationen og prøvens standardafvigelse, er symbolet, der bruges til at repræsentere dem. I statistikker er befolkningsnumeriske oversigter eller parametre normalt repræsenteret ved hjælp af græske bogstaver , mens stikprøver eller statistiske versioner er repræsenteret af de tilsvarende bogstaver i det latinske alfabet .
I denne forstand er variansen og populationens standardafvigelse begge forbundet med det små græske bogstav sigma, mens prøveversionerne er repræsenteret med bogstavet s . Det vil sige , at populationsvariansen er σ 2 og populationens standardafvigelse er σ , mens stikprøvevariansen er repræsenteret ved s 2 og stikprøvens standardafvigelse er repræsenteret ved s .
Forskel 2: De beregnes ved hjælp af forskellige formler
Både populationens og prøvens standardafvigelse beregnes som den positive kvadratrod af den respektive varians, dvs.
Imidlertid beregnes populations- og stikprøvevarianserne ved hjælp af lidt forskellige formler. I tilfælde af populationsvariansen beregnes dette som middelværdien af de kvadrerede afvigelser for hvert datum i forhold til populationsmiddelværdien. Det vil sige, det beregnes ved et af følgende ækvivalente udtryk:
Hvor x i repræsenterer værdien af hvert dataelement i populationen, μ repræsenterer populationens middelværdi, og N er størrelsen af populationen. Derfor beregnes populationens standardafvigelse som:
I stedet for at dividere med antallet af datapunkter, n , som man kunne forvente, beregnes stikprøvevariansen ved at dividere summen af de kvadrerede afvigelser fra stikprøvegennemsnittet med n – 1 . Med andre ord beregnes stikprøvevariansen som:
Hvor x i repræsenterer værdien af hvert dataelement i stikprøven, x̄ repræsenterer stikprøvegennemsnittet, og n er stikprøvestørrelsen. I lyset af ovenstående beregnes prøvens standardafvigelse som:
Begrundelse for at dividere med n – 1 i stedet for n
Et almindeligt spørgsmål, der opstår, når man sammenligner populations- og stikprøvestandardafvigelser, er hvorfor dividere med n – 1 og ikke med n ? Årsagen er meget enkel.
Som tidligere nævnt søger beregningen af statistik såsom stikprøvens standardafvigelse at etablere estimatorer, der er så tæt som muligt på de respektive populationsparametre. Det betyder, at stikprøvens standardafvigelse skal beregnes på en sådan måde, at resultatet er så tæt som muligt på populationens standardafvigelse.
Dette tyder på, at de skal beregnes med ækvivalente formler, men det er ikke altid tilfældet. Problemet er, at prøvens standardafvigelse måler spredningen omkring prøvegennemsnittet, ikke populationsgennemsnittet. Selvom stikprøvegennemsnittet er en statistik, der bruges som en estimator af populationsgennemsnittet, er det ikke nøjagtigt lig med det. Dette bevirker, at de individuelle værdier i hver prøve er tættere på stikprøvegennemsnittet (som i virkeligheden er målet for den centrale tendens for disse data) end på populationsgennemsnittet. På grund,
For at korrigere for denne uoverensstemmelse trækkes en enhed fra nævneren for at gøre stikprøvens standardafvigelse større og derfor tættere på populationens standardafvigelse.
Forskel 3: De er sjældent ens
Uanset de korrektioner, der kan foretages til stikprøvens standardafvigelse, er den sjældent lig med populationens standardafvigelse. Dette skyldes, at data inden for en population kan variere tilfældigt, så forskellige stikprøver vil resultere i forskellige prøvestandardafvigelser. Faktisk er der en hel fordeling af mulige værdier af prøvens standardafvigelser afhængigt af prøvens størrelse.
Forskel 4: Stikprøvens standardafvigelse kan altid kendes eller bestemmes, hvorimod populationens standardafvigelse næsten aldrig kendes med sikkerhed.
En anden vigtig forskel mellem disse to spredningsmål er, at populationens standardafvigelse (og faktisk enhver populationsparameter) sjældent er kendt. Dette skyldes i nogle tilfælde tekniske eller økonomiske begrænsninger, da det er meget dyrt, og det er desuden usandsynligt, at det er i stand til at måle absolut alle data for en befolkning. I andre tilfælde er det simpelthen umuligt at bestemme populationsparametrene, enten fordi populationen er uendelig, eller simpelthen fordi vi ikke har adgang til alle de elementer der udgør den.
Med andre ord kender vi næsten aldrig alle N- værdierne af x i i en population, hvilket gør det umuligt at beregne populationsmiddelværdien, variansen og i forlængelse heraf standardafvigelsen. Det bedste, vi kan komme til at vide, er et punktestimat af en parameter såsom standardafvigelsen eller et interval af værdier, inden for hvilket vi har en vis grad af tillid til, at standardafvigelsen eller en anden populationsparameter ligger.
I tilfælde af prøver, på den anden side, kender vi alle data, så vi kan altid beregne standardafvigelsen for enhver prøve, uanset dens størrelse.
Sammenfatning af forskelle mellem populations- og stikprøvestandardafvigelser
Følgende tabel opsummerer forskellene mellem populationens standardafvigelse og stikprøvestandardafvigelsen diskuteret i de foregående afsnit:
Egenskab | Befolkningsstandardafvigelse | Eksempel på standardafvigelse |
Symbol | σ | Ja |
Det er beregnet til | befolkningsdata | prøvedata |
Den gren af statistik, hvori det bruges | Beskrivende statistik | Inferential statistik |
Foranstaltningstype | Parameter | Statistisk |
Formel | Divider med N, befolkningens størrelse | Divider med n – 1, hvor n er stikprøvestørrelsen |
Variabilitet | Det er fastsat for en given befolkning på et givet tidspunkt | Varierer fra stikprøve til stikprøve, uanset om prøverne er af samme størrelse og trukket fra samme population |
Sikkerhed i dens værdi | Det er generelt ukendt. Kun et skøn over det er tilgængeligt. | Det er kendt for hver prøve |
Referencer
Fællesskabets læringscentre. (nd). Standardafvigelsen . http://www.cca.org.mx/cca/cursos/estadistica/html/m11/desviacion_estandar.htm
Levy Sarfin, R. (sf). Hvad er forskellen mellem stikprøven og populationens standardafvigelse . Stemmen. https://pyme.lavoztx.com/what-is-the-difference-entre-la-sample-and-the-standard-deviation-of-the-population-5641.html
MateMobile. (2021, 1. januar). Varians og standardafvigelse, eksempler og øvelser . https://matemovil.com/varianza-y-desviacion-estandar-ejemplos-y-ejercicios/
Molina, M. (2016, 27. januar). Hvorfor spare en? Estimering af befolkningsparametre . Bedøve. https://anestesiar.org/2016/por-que-sobra-uno-estimando-parametros-de-la-poblacion/
Serra, BR (2020, 26. oktober). Typisk eller standardafvigelse . Univers formler. https://www.universoformulas.com/estadistica/descriptiva/desviacion-típica/