Konfidensintervaller for forskellen mellem to befolkningsproportioner

Artículo revisado y aprobado por nuestro equipo editorial, siguiendo los criterios de redacción y edición de YuBrain.


Konfidensintervaller (CI) bruges i inferentiel statistik som et værktøj til at estimere værdien af ​​en populationsparameter. Disse giver en større mængde information om den sande værdi af en parameter end punktestimatorer, da de repræsenterer et interval af værdier af begrænset bredde, inden for hvilket vi har en vis grad af tillid til, at den sande værdi af parameteren vil ligge. Sidstnævnte er noget, som punktestimatorer ikke giver.

Konfidensintervaller for to populationer

Når vi er interesseret i at sammenligne to forskellige populationer, er vi ofte interesserede i at vide, om en bestemt parameter for en af ​​dem er større end, mindre end eller lig med den tilsvarende parameter for den anden. For eksempel, når vi sammenligner ydeevnen af ​​to elektriske motorer, kan vi være interesseret i at bestemme, om drejningsmomentet for motor A er større end motor B. I dette tilfælde sammenligner vi to populationsmidler.

Men mange gange er vi interesseret i at sammenligne, ikke middelværdierne af en parameter, men andelen af ​​en befolkning , der opfylder eller ikke opfylder en bestemt betingelse. I dette tilfælde er det ønsket at etablere et konfidensinterval for at estimere værdien af ​​forskellen mellem to befolkningsforhold.

Konklusioner om forskellen mellem to befolkningsforhold P 1P 2

Der er mange forskellige situationer, hvor vi kan være interesserede i forskellen mellem to befolkningsforhold. Som vi nævnte før, giver denne forskel os mulighed for at sammenligne ækvivalente proportioner i to forskellige populationer. Nogle eksempler på forskningsproblemer, der kræver etablering af et konfidensinterval for forskellen mellem to befolkningsandele, er præsenteret nedenfor:

  • I kliniske afprøvninger af en ny medicinsk behandling er det af særlig betydning at sammenligne andelen af ​​personer, der viser en bedring i deres sygdomstilstand i den befolkning, der modtog behandlingen, med samme andel i gruppen af ​​personer, der kun fik placebo.
  • Når vi vil sammenligne andelen af ​​kvinder og mænd, der er enige eller uenige i en bestemt regeringsforanstaltning.
  • I erhvervslivet er vi ofte interesserede i at sammenligne kvaliteten af ​​fremstillingsprocessen i to forskellige produktionslinjer. I dette tilfælde kan andelen af ​​defekte eller ikke-overensstemmende varer produceret af begge produktionslinjer i en given tidsperiode sammenlignes.
  • Inden for mikrobiologi kan vi være interesserede i at sammenligne andelen af ​​bakteriekolonier, der overlever efter at være blevet behandlet med forskellige kemiske desinfektionsmidler.
  • Marketingfolk laver ofte A/B-tests for at afgøre, hvilket indhold på en webside der er mest effektivt til at konvertere kundeemner til købere. For at gøre dette får halvdelen af ​​de personer, der går ind på webstedet, vist indhold (A), og den anden halvdel får vist alternativt indhold (B) for derefter at sammenligne andelen af ​​besøgende, der faktisk har købt det foreslåede produkt eller den foreslåede tjeneste. .

Fra sammenligningen af ​​P 1 og P 2 til forskellen P 1 – P 2

Der er mange flere eksempler på situationer, hvor vi kan være interesserede i at sammenligne proportionerne mellem to forskellige populationer. Denne sammenligning kan foretages på forskellige måder. For eksempel vil vi måske gerne vide, om:

  • Begge proportioner er lige store (P 1 = P 2 )
  • Andel 1 er større end andel 2 (P 1 > P 2 )
  • Andel 1 er mindre end andel 2 (P 1 < P 2 )

I alle disse tilfælde kan disse udsagn omskrives i forhold til forskellen mellem proportionerne:

  • Hvis vi er interesseret i at finde ud af, om P 1 = P 2 , svarer det til at bestemme, om P 1 – P 2 = 0
  • Hvis vi er interesserede i at finde ud af om P 1 > P 2 , svarer det til at bestemme om P 1 – P 2 > 0
  • Hvis vi er interesserede i at finde ud af om P 1 < P 2 , svarer det til at bestemme om P 1 – P 2 < 0

Derfor kan enhver sammenligning mellem befolkningsandele løses ved at finde et konfidensinterval for forskellen mellem befolkningsandele og derefter udføre en passende analyse af resultatet.

Men hvordan etableres disse konfidensintervaller?

Dette opnås ved at analysere stikprøver fra hver population og bruge værktøjerne til inferentiel statistik. Denne procedure afhænger af, om vi arbejder med store eller små prøver.

Konfidensinterval Estimering af forskellen mellem to populationsandele fra store prøver (n ≥ 30)

Konfidensintervallet for forskellen i befolkningsandele kan løses som en forlængelse af konfidensintervallet for en binomial andel i en population. I tilfælde af binomiale proportioner (dvs. resultatet af eksperimentet eller observationen er en succes eller en fiasko, og P repræsenterer sandsynligheden for succes), følger fordelingen af ​​andelen i en stor stikprøve ( p ) en tilnærmelsesvis normalfordeling med middelværdi P (populationsandelen) og varians P(1 – P)/n , så længe sandsynligheden for succes ikke er for høj eller for lav (dvs. ikke for tæt på henholdsvis 1 eller 0).

I tilfælde af forskellen mellem to populationsandele, P 1 – P 2 , kan vi etablere grænserne for konfidensintervallet fra to uafhængige stikprøver med proportioner p 1 og p 2 . Hvis disse prøver opfylder de samme betingelser som ovenfor (prøverne n 1 og n 2 store, og andele p 1 og p 2 langt fra 1 og 0) og derfor følger normalfordelinger, vil forskellen også følge en normalfordeling med middel P 1 – P 2 og varians p 1 (1 – p 1 )/n 1 + p 2(1 – p 2 )/n 2 .

På baggrund af disse resultater er et konfidensinterval for forskellen mellem to populationsandele opnået fra store prøver med et konfidensniveau på 100(1 – α)%, hvor α repræsenterer signifikansniveauet, givet ved:

Konfidensintervaller for forskellen mellem to befolkningsproportioner

I ovenstående formel svarer Z α/2 til værdien af ​​Z i standardnormalfordelingen, der efterlader et område på α/2 til højre.

Konfidensinterval for forskellen mellem to populationsandele fra små prøver (n < 30)

Hvis enten stikprøvestørrelsen er mindre end 30, eller hvis en af ​​proportionerne er meget tæt på 0 eller 1, kan din fordeling ikke tilnærme en normalfordeling tilstrækkeligt. I dette tilfælde vil forskellen mellem de to proportioner heller ikke følge en normalfordeling, hvorfor ovenstående formel for konfidensintervallet ikke gælder.

Konklusionen om forskellen i populationsandele baseret på små stikprøver er betydeligt kompleks og ligger uden for denne artikels omfang.

Fortolkning af konfidensintervallet for forskellen mellem to befolkningsforhold

Efter beregning af konfidensintervallet for forskellen mellem to populationsandele skal det opnåede resultat fortolkes. Der kan gives tre resultater, der fortolkes forskelligt.

Lad os overveje ethvert tilfælde, hvor et konfidensinterval opnås med et konfidensniveau på 100(1 – α)% eller ganske enkelt et signifikansniveau på α, hvis nedre og øvre grænser er henholdsvis LI og LS. Det vil sige:

Konfidensintervaller for forskellen mellem to befolkningsproportioner

Afhængigt af tegnet på de opnåede grænser kan vi nå frem til forskellige konklusioner vedrørende forskellen mellem begge befolkningsandele:

  • Hvis både de nedre og øvre grænser er negative, så kan vi med et konfidensniveau på 100(1 – α)% sige, at andelen i population 2 er større end den respektive andel i population 1. Det vil sige, vi kan sige at P 1 < P 2 eller at P 2 > P 1 .
  • Hvis den nedre grænse er negativ, og den øvre grænse er positiv, og derfor indeholder konfidensintervallet nul, så kan vi med et konfidensniveau på 100(1 – α)% sige, at der ikke er nogen forskel mellem de to befolkningsforhold. . Det vil sige, at det konkluderes, at P 1 = P 2 .
  • Endelig, hvis både de nedre og øvre grænser er positive, så kan vi med et konfidensniveau på 100(1 – α)% sige, at population 1-andelen er større end den respektive population 2-andel. Det vil sige, vi konkluderer, at P1 > P2 . _

Eksempel på beregning af konfidensintervallet for to populationsforhold

udmelding

Antag, at der blev gennemført en undersøgelse på et tilfældigt udvalg af 250 mexicanske ingeniørstuderende for at finde ud af, hvor stor en andel af dem, der mestrede begrebet konfidensintervaller. Resultaterne af undersøgelsen viste, at 64,8% af dem ikke dominerer det, mens resten gør. Til gengæld blev samme undersøgelse gennemført på et udsnit af 180 spanske ingeniørstuderende, hvortil 54 studerende svarede, at de havde styr på begrebet konfidensintervaller.

Er der forskel på andelen af ​​spanske og mexicanske elever, der mestrer begrebet konfidensintervaller, på et signifikansniveau på 0,05?

Løsning

Som vi kan se fra spørgsmålet, er det, vi ønsker at afgøre, om der er forskel på proportionerne mellem to forskellige populationer. Andelen af ​​interesse består af andelen af ​​elever, der behersker begrebet konfidensintervaller, så i dette tilfælde repræsenterer det at svare bekræftende på undersøgelsen succes set fra det binomiale eksperiment.

For populationen af ​​mexicanske studerende var stikprøven 250 elever, og de angiver, at andelen af ​​elever, der ikke mestrer det pågældende fag, er 64,8 %. Men det er ikke den andel, vi ønsker, da det er en fiasko ikke at mestre faget. Derfor svarer denne andel til komplementet q . I lyset af dette er andelen af ​​succeser, p, for stikprøven af ​​mexicanske elever:

Konfidensintervaller for forskellen mellem to befolkningsproportioner

På den anden side, i tilfælde af stikprøven af ​​spanske studerende, har vi antallet af succeser og den samlede størrelse af stikprøven, så andelen af ​​succeser vil være:

Konfidensintervaller for forskellen mellem to befolkningsproportioner

Disse resultater er opsummeret i den følgende tabel.

mexicanske studerende spanske studerende
n MEX = 250 nESP = 180
p MEX = 0,352 p ESP = 0,300

Som vi kan se, er begge stikprøvestørrelser betydeligt større end 30, så de betragtes som store prøver. Hertil kommer, at hverken andelen for mexicanske studerende eller for spanske studerende er væsentligt tæt på 0 eller 1. Endelig, på trods af at udsagnet ikke specificerer det, kan vi antage, at begge stikprøver er uafhængige af hinanden.

Under disse forhold kan vi sige, at både stikprøveandele af begge populationer og forskellen i stikprøveandele vil følge en normalfordeling. Derfor kan vi bruge den foregående ligning til at bestemme konfidensintervallet, som vil være:

Konfidensintervaller for forskellen mellem to befolkningsproportioner

Bemærk, at for at etablere konfidensintervallet skal vi bruge værdien af ​​Z for halvdelen af ​​det givne signifikansniveau, som i dette tilfælde er α = 0,05. Det vil sige, at vi skal finde Z α/2 = Z 0,05/2 = Z 0,025 . Denne værdi kan findes i en standard normalfordelingstabel, ved hjælp af et mobilstatistikprogram eller ved hjælp af et regneark såsom Excel til Windows eller Numbers til MacOS.

I dette tilfælde er Z 0,025 = 1,959964. Så konfidensintervallet vil være:

Konfidensintervaller for forskellen mellem to befolkningsproportioner

Konfidensintervaller for forskellen mellem to befolkningsproportioner

Konfidensintervaller for forskellen mellem to befolkningsproportioner

Som vi kan se, indeholder konfidensintervallet beregnet på denne måde nul, hvorfor det med et konfidensniveau på 95 % konkluderes, at der ikke er nogen signifikant forskel mellem andelen af ​​mexicanske og spanske elever, der mestrer begrebet intervaller betroet.

Referencer

Cetinkaya-Rundel, M. (2012, 13. marts). Forelæsning 14: Stor og lille prøveslutning for proportioner . Institut for Statistisk Videnskab ved Duke University. https://www2.stat.duke.edu/courses/Spring12/sta101.1/lec/lec14S.pdf

del Rio, AQ (2019, 1. september). 7.8 Konfidensinterval for forskellen i proportioner. | Sweetened Basic Statistics . Book ned. https://bookdown.org/aquintela/EBE/confidence-interval-for-the-difference-of-proportions-.html

Holmes, A., Illowsky, B., & Dean, S. (2017, 29. november). 10.4 Sammenligning af to uafhængige befolkningsandele – Indledende erhvervsstatistik . OpenStax. https://openstax.org/books/introductory-business-statistics/pages/10-4-comparing-two-independent-population-proportions

Icedo Félix, M. (2020, 7. maj). RPubs – Konfidensintervaller for forskellen mellem to populationsproportioner . RPubs. https://rpubs.com/Melanie_Icedo/Asignacion-6_Intervalo-confianza-proportion-poblacional

Statologer. (nd). Konfidensinterval for forskellen i proportioner . https://statologos.com/diferencia-de-intervalo-de-fianza-en-proportiones/

-Reklame-

Israel Parada (Licentiate,Professor ULA)
Israel Parada (Licentiate,Professor ULA)
(Licenciado en Química) - AUTOR. Profesor universitario de Química. Divulgador científico.

Artículos relacionados