Konfidensintervaller for forskjellen mellom to befolkningsandeler

Artículo revisado y aprobado por nuestro equipo editorial, siguiendo los criterios de redacción y edición de YuBrain.


Konfidensintervaller (CI) brukes i inferensiell statistikk som et verktøy for å estimere verdien av en populasjonsparameter. Disse gir en større mengde informasjon om den sanne verdien av en parameter enn punktestimatorer, siden de representerer et intervall av verdier med begrenset bredde som vi har en viss grad av tillit til at den sanne verdien av parameteren vil ligge innenfor. Sistnevnte er noe poengestimatorer ikke gir.

Konfidensintervaller for to populasjoner

Når vi er interessert i å sammenligne to forskjellige populasjoner, er vi ofte interessert i å vite om en bestemt parameter for en av dem er større enn, mindre enn eller lik den tilsvarende parameteren til den andre. For eksempel, når vi sammenligner ytelsen til to elektriske motorer, kan vi være interessert i å bestemme om dreiemomentet til motor A er større enn motor B. I dette tilfellet sammenligner vi to populasjonsmidler.

Imidlertid er vi mange ganger interessert i å sammenligne, ikke gjennomsnittsverdiene til en parameter, men andelen av en populasjon som oppfyller eller ikke oppfyller en bestemt betingelse. I dette tilfellet er det ønskelig å etablere et konfidensintervall for å estimere verdien av differansen mellom to befolkningsandeler.

Konklusjoner om forskjellen mellom to populasjonsproporsjoner P 1 – P 2

Det er mange forskjellige situasjoner der vi kan være interessert i forskjellen mellom to befolkningsandeler. Som vi nevnte før, lar denne forskjellen oss sammenligne tilsvarende proporsjoner i to forskjellige populasjoner. Noen eksempler på forskningsproblemer som krever etablering av et konfidensintervall for forskjellen mellom to populasjonsandeler er presentert nedenfor:

  • I kliniske utprøvinger av en ny medisinsk behandling er det særlig viktig å sammenligne andelen individer som viser bedring i sin medisinske tilstand i befolkningen som mottok behandlingen med samme andel i gruppen individer som kun fikk placebo.
  • Når vi ønsker å sammenligne andelen kvinner og menn som er enige eller uenige i et bestemt statlig tiltak.
  • I næringslivet er vi ofte interessert i å sammenligne kvaliteten på produksjonsprosessen i to forskjellige produksjonslinjer. I dette tilfellet kan andelen av defekte eller ikke-konforme varer produsert av begge produksjonslinjene i en gitt tidsperiode sammenlignes.
  • Innen mikrobiologi kan vi være interessert i å sammenligne andelen bakteriekolonier som overlever etter å ha blitt behandlet med ulike kjemiske desinfeksjonsmidler.
  • Markedsførere gjør ofte A/B-tester for å finne ut hvilket innhold på en nettside som er mest effektivt for å konvertere potensielle kunder til kjøpere. For å gjøre dette får halvparten av personene som besøker nettstedet vist innhold (A) og den andre halvparten vises alternativt innhold (B) for deretter å sammenligne andelen besøkende som faktisk har kjøpt det foreslåtte produktet eller tjenesten. .

Fra sammenligningen av P 1 og P 2 til forskjellen P 1 – P 2

Det er mange flere eksempler på situasjoner der vi kan være interessert i å sammenligne proporsjonene til to forskjellige populasjoner. Denne sammenligningen kan gjøres på forskjellige måter. For eksempel vil vi kanskje vite om:

  • Begge proporsjoner er like (P 1 = P 2 )
  • Andel 1 er større enn proporsjon 2 (P 1 > P 2 )
  • Andel 1 er mindre enn proporsjon 2 (P 1 < P 2 )

I alle disse tilfellene kan disse utsagnene skrives om med tanke på forskjellen mellom proporsjonene:

  • Hvis vi er interessert i å finne ut om P 1 = P 2 , tilsvarer dette å bestemme om P 1 – P 2 = 0
  • Hvis vi er interessert i å finne ut om P 1 > P 2 , tilsvarer dette å bestemme om P 1 – P 2 > 0
  • Hvis vi er interessert i å finne ut om P 1 < P 2 , tilsvarer dette å bestemme om P 1 – P 2 < 0

Derfor kan enhver sammenligning mellom populasjonsandeler løses ved å finne et konfidensintervall for forskjellen mellom populasjonsandeler og deretter utføre en passende analyse av resultatet.

Men hvordan etableres disse konfidensintervallene?

Dette oppnås ved å analysere utvalg fra hver populasjon og bruke verktøyene til konklusjonsstatistikk. Denne prosedyren avhenger av om vi jobber med store eller små prøver.

Konfidensintervall Estimering av forskjellen mellom to populasjonsandeler fra store utvalg (n ≥ 30)

Konfidensintervallet for forskjellen i populasjonsandeler kan løses som en utvidelse av konfidensintervallet for en binomial andel i en populasjon. Når det gjelder binomiale proporsjoner (dvs. utfallet av eksperimentet eller observasjonen er en suksess eller en fiasko og P representerer sannsynligheten for suksess), følger fordelingen av andelen i et stort utvalg ( p ) en tilnærmet normalfordeling med gjennomsnittet P (populasjonsandelen) og varians P(1 – P)/n , så lenge sannsynligheten for suksess ikke er for høy eller for lav (dvs. ikke for nær henholdsvis 1 eller 0).

Når det gjelder forskjellen mellom to populasjonsproporsjoner, P 1 – P 2 , kan vi etablere grensene for konfidensintervallet fra to uavhengige utvalg med proporsjoner p 1 og p 2 . Dersom disse prøvene oppfyller de samme betingelsene som ovenfor (prøvene n 1 og n 2 store, og proporsjoner p 1 og p 2 langt fra 1 og 0) og derfor følger normalfordelinger, vil forskjellen også følge en normalfordeling med gjennomsnittlig P 1 – P 2 og varians p 1 (1 – p 1 )/n 1 + p 2(1 – p 2 )/n 2 .

Gitt disse resultatene, er et konfidensintervall for forskjellen mellom to populasjonsandeler oppnådd fra store utvalg, med et konfidensnivå på 100(1 – α)%, der α representerer nivået av signifikans, gitt av:

Konfidensintervaller for forskjellen mellom to befolkningsandeler

I formelen ovenfor tilsvarer Z α/2 verdien av Z i standard normalfordelingen som etterlater et område på α/2 til høyre.

Konfidensintervall for forskjellen mellom to populasjonsandeler fra små utvalg (n < 30)

Hvis en av prøvestørrelsene er mindre enn 30, eller hvis en av andelene er veldig nær 0 eller 1, kan ikke distribusjonen tilnærme en normalfordeling tilstrekkelig. I dette tilfellet vil heller ikke forskjellen mellom de to proporsjonene følge en normalfordeling, og derfor gjelder ikke formelen ovenfor for konfidensintervallet.

Konklusjonen om forskjellen i populasjonsandeler basert på små utvalg er betydelig kompleks, og ligger utenfor denne artikkelens omfang.

Tolkning av konfidensintervallet for forskjellen mellom to populasjonsproporsjoner

Etter å ha beregnet konfidensintervallet for forskjellen mellom to populasjonsandeler, må resultatet som er oppnådd tolkes. Det kan gis tre resultater som tolkes ulikt.

La oss vurdere ethvert tilfelle der et konfidensintervall oppnås med et konfidensnivå på 100(1 – α)% eller ganske enkelt et signifikansnivå på α, hvis nedre og øvre grenser er henholdsvis LI og LS. Det er å si:

Konfidensintervaller for forskjellen mellom to befolkningsandeler

Avhengig av tegnet på de oppnådde grensene, kan vi komme til forskjellige konklusjoner angående forskjellen mellom begge populasjonsproporsjoner:

  • Hvis både nedre og øvre grense er negative, kan vi med et konfidensnivå på 100(1 – α)% si at andelen i populasjon 2 er større enn den respektive andelen i populasjon 1. Det vil si at vi kan si at P 1 < P 2 eller at P 2 > P 1 .
  • Hvis den nedre grensen er negativ og den øvre grensen er positiv, og derfor konfidensintervallet inneholder null, kan vi si, med et konfidensnivå på 100(1 – α)%, at det ikke er noen forskjell mellom de to. . Det vil si at det konkluderes med at P 1 = P 2 .
  • Til slutt, hvis både de nedre og øvre grensene er positive, kan vi med et konfidensnivå på 100(1 – α)% si at andelen populasjon 1 er større enn den respektive andelen populasjon 2. Det vil si at vi konkluderer med at P 1 > P 2 .

Eksempel på beregning av konfidensintervall for to befolkningsandeler

uttalelse

Anta at det ble utført en undersøkelse på et tilfeldig utvalg av 250 meksikanske ingeniørstudenter for å finne ut hvor stor andel av dem som mestret begrepet konfidensintervall. Resultatene av undersøkelsen viste at 64,8 % av dem ikke dominerer den, mens resten gjør det. På den annen side ble den samme undersøkelsen gjennomført på et utvalg på 180 spanske ingeniørstudenter, hvorpå 54 studenter svarte at de mestret begrepet konfidensintervaller.

Er det forskjell på andelen spanske og meksikanske elever som mestrer begrepet konfidensintervall, på et signifikansnivå på 0,05?

Løsning

Som vi kan se av spørsmålet, er det vi ønsker å finne ut om det er forskjell mellom proporsjonene til to forskjellige populasjoner. Andelen av interesse består av andelen studenter som mestrer konseptet med konfidensintervaller, slik at det å svare bekreftende på undersøkelsen i dette tilfellet representerer suksess fra det binomiale eksperimentets synspunkt.

For populasjonen av meksikanske studenter var utvalget 250 elever, og de indikerer at andelen elever som ikke behersker det aktuelle emnet er 64,8 %. Men dette er ikke den andelen vi ønsker, siden det å ikke beherske faget er en fiasko. Derfor tilsvarer denne andelen komplementet q . I lys av dette er andelen suksesser, p, for utvalget av meksikanske studenter:

Konfidensintervaller for forskjellen mellom to befolkningsandeler

På den annen side, når det gjelder utvalget av spanske studenter, har vi antall suksesser og den totale størrelsen på utvalget, så andelen suksesser vil være:

Konfidensintervaller for forskjellen mellom to befolkningsandeler

Disse resultatene er oppsummert i følgende tabell.

Meksikanske studenter spanske studenter
n MEX = 250 nESP = 180
p MEX = 0,352 p ESP = 0,300

Som vi kan se er begge utvalgsstørrelsene betydelig større enn 30, så de regnes som store utvalg. I tillegg er verken andelen for meksikanske studenter eller spanske studenter nevneverdig nær 0 eller 1. Til slutt, til tross for at utsagnet ikke spesifiserer det, kan vi anta at begge utvalgene er uavhengige av hverandre.

Under disse forholdene kan vi si at både utvalgets andeler av begge populasjoner og forskjellen i utvalgsandeler vil følge en normalfordeling. Derfor kan vi bruke den forrige ligningen til å bestemme konfidensintervallet, som vil være:

Konfidensintervaller for forskjellen mellom to befolkningsandeler

Merk at for å etablere konfidensintervallet trenger vi verdien av Z for halvparten av det gitte signifikansnivået, som i dette tilfellet er α = 0,05. Det vil si at vi må finne Z α/2 = Z 0,05/2 = Z 0,025 . Denne verdien kan finnes i en standard normalfordelingstabell, ved å bruke et mobilstatistikkprogram eller ved å bruke et regneark som Excel for Windows eller Numbers for MacOS.

I dette tilfellet er Z 0,025 = 1,959964. Så, konfidensintervallet vil være:

Konfidensintervaller for forskjellen mellom to befolkningsandeler

Konfidensintervaller for forskjellen mellom to befolkningsandeler

Konfidensintervaller for forskjellen mellom to befolkningsandeler

Som vi kan se, inneholder konfidensintervallet beregnet på denne måten null, og derfor konkluderes det med et konfidensnivå på 95 % at det ikke er noen signifikant forskjell mellom andelen meksikanske og spanske elever som mestrer begrepet intervaller. klarert.

Referanser

Cetinkaya-Rundel, M. (2012, 13. mars). Forelesning 14: Stor og liten prøveslutning for proporsjoner . Institutt for statistisk vitenskap ved Duke University. https://www2.stat.duke.edu/courses/Spring12/sta101.1/lec/lec14S.pdf

del Rio, AQ (2019, 1. september). 7.8 Konfidensintervall for forskjellen i proporsjoner. | Sweetened Basic Statistics . Book ned. https://bookdown.org/aquintela/EBE/confidence-interval-for-the-difference-of-proportions-.html

Holmes, A., Illowsky, B., & Dean, S. (2017, 29. november). 10.4 Sammenligning av to uavhengige befolkningsandeler – Innledende bedriftsstatistikk . OpenStax. https://openstax.org/books/introductory-business-statistics/pages/10-4-comparing-two-independent-population-proportions

Icedo Félix, M. (2020, 7. mai). RPubs – Konfidensintervaller for forskjellen mellom to populasjonsproporsjoner . RPubs. https://rpubs.com/Melanie_Icedo/Asignacion-6_Intervalo-confianza-proportion-poblacional

Statologer. (nd). Konfidensintervall for forskjellen i proporsjoner . https://statologos.com/diferencia-de-intervalo-de-fianza-en-proportiones/

-Annonse-

mm
Israel Parada (Licentiate,Professor ULA)
(Licenciado en Química) - AUTOR. Profesor universitario de Química. Divulgador científico.

Artículos relacionados