Konfidenzintervalle für die Differenz zweier Bevölkerungsanteile

Artículo revisado y aprobado por nuestro equipo editorial, siguiendo los criterios de redacción y edición de YuBrain.


Konfidenzintervalle (KI) werden in der Inferenzstatistik als Werkzeug zur Schätzung des Wertes eines Populationsparameters verwendet. Diese liefern eine größere Menge an Informationen über den wahren Wert eines Parameters als Punktschätzer, da sie ein Intervall von Werten endlicher Breite darstellen, innerhalb dessen wir ein gewisses Maß an Vertrauen haben, dass der wahre Wert des Parameters liegen wird. Letzteres ist etwas, was Punktschätzer nicht liefern.

Konfidenzintervalle für zwei Populationen

Wenn wir daran interessiert sind, zwei verschiedene Populationen zu vergleichen, sind wir oft daran interessiert zu wissen, ob ein bestimmter Parameter einer von ihnen größer, kleiner oder gleich dem entsprechenden Parameter der anderen ist. Wenn wir beispielsweise die Leistung von zwei Elektromotoren vergleichen, möchten wir möglicherweise feststellen, ob das Drehmoment von Motor A größer ist als das von Motor B. In diesem Fall vergleichen wir zwei Grundgesamtheitsmittelwerte.

Oft sind wir jedoch daran interessiert, nicht die Mittelwerte eines Parameters zu vergleichen, sondern den Anteil einer Population , der eine bestimmte Bedingung erfüllt oder nicht erfüllt. In diesem Fall soll ein Konfidenzintervall festgelegt werden, um den Wert der Differenz zwischen zwei Bevölkerungsanteilen zu schätzen.

Rückschlüsse auf die Differenz zweier Bevölkerungsanteile P 1 – P 2

Es gibt viele verschiedene Situationen, in denen uns der Unterschied zwischen zwei Bevölkerungsanteilen interessieren könnte. Wie wir bereits erwähnt haben, ermöglicht uns dieser Unterschied, äquivalente Anteile in zwei verschiedenen Populationen zu vergleichen. Einige Beispiele für Forschungsprobleme, die die Ermittlung eines Konfidenzintervalls für die Differenz zwischen zwei Populationsanteilen erfordern , werden im Folgenden vorgestellt:

  • Bei klinischen Studien zu einer neuen medizinischen Behandlung ist es besonders wichtig, den Anteil der Personen, die eine Verbesserung ihres Gesundheitszustands zeigen, in der Bevölkerung, die die Behandlung erhalten hat, mit dem gleichen Anteil in der Gruppe der Personen zu vergleichen, die nur das Placebo erhalten haben.
  • Wenn wir den Anteil von Frauen und Männern vergleichen möchten, die einer bestimmten staatlichen Maßnahme zustimmen oder nicht zustimmen.
  • In der Wirtschaft sind wir oft daran interessiert, die Qualität des Herstellungsprozesses in zwei verschiedenen Produktionslinien zu vergleichen. In diesem Fall können die Anteile fehlerhafter oder fehlerhafter Artikel, die von beiden Produktionslinien in einem bestimmten Zeitraum produziert wurden, verglichen werden.
  • Auf dem Gebiet der Mikrobiologie könnten wir daran interessiert sein, den Anteil der Bakterienkolonien zu vergleichen, die nach der Behandlung mit verschiedenen chemischen Desinfektionsmitteln überleben.
  • Vermarkter führen häufig A/B-Tests durch, um festzustellen, welche Inhalte auf einer Webseite am effektivsten sind, um Interessenten in Käufer umzuwandeln. Dazu werden der Hälfte der Personen, die auf die Website zugreifen, Inhalte (A) und der anderen Hälfte alternative Inhalte (B) gezeigt, um dann die Anteile der Besucher zu vergleichen, die das vorgeschlagene Produkt oder die Dienstleistung tatsächlich gekauft haben.

Vom Vergleich von P 1 und P 2 zur Differenz P 1 – P 2

Es gibt viele weitere Beispiele für Situationen, in denen wir daran interessiert sein könnten, die Anteile zweier unterschiedlicher Populationen zu vergleichen. Dieser Vergleich kann auf unterschiedliche Weise erfolgen. Beispielsweise möchten wir möglicherweise wissen, ob:

  • Beide Anteile sind gleich (P 1 = P 2 )
  • Anteil 1 ist größer als Anteil 2 (P 1 > P 2 )
  • Anteil 1 ist kleiner als Anteil 2 (P 1 < P 2 )

In jedem dieser Fälle können diese Aussagen in Bezug auf den Unterschied zwischen den Proportionen umgeschrieben werden:

  • Wenn wir herausfinden möchten, ob P 1 = P 2 , ist dies gleichbedeutend mit der Bestimmung, ob P 1 – P 2 = 0 ist
  • Wenn wir herausfinden möchten, ob P 1 > P 2 , ist dies gleichbedeutend mit der Bestimmung, ob P 1 – P 2 > 0
  • Wenn wir herausfinden möchten, ob P 1 < P 2 , ist dies gleichbedeutend mit der Bestimmung, ob P 1 – P 2 < 0

Daher kann jeder Vergleich zwischen Bevölkerungsanteilen aufgelöst werden, indem ein Konfidenzintervall für die Differenz zwischen Bevölkerungsanteilen ermittelt und dann eine entsprechende Analyse des Ergebnisses durchgeführt wird.

Aber wie werden diese Konfidenzintervalle festgelegt?

Dies wird erreicht, indem Stichproben aus jeder Population analysiert und die Werkzeuge der Inferenzstatistik verwendet werden. Dieses Verfahren hängt davon ab, ob wir mit großen oder kleinen Stichproben arbeiten.

Konfidenzintervall Schätzung der Differenz zweier Populationsanteile aus großen Stichproben (n ≥ 30)

Das Konfidenzintervall für die Differenz der Populationsanteile kann als Erweiterung des Konfidenzintervalls für einen binomialen Anteil in einer Population aufgelöst werden. Bei binomialen Anteilen (d. h. das Ergebnis des Experiments oder der Beobachtung ist ein Erfolg oder Misserfolg und P stellt die Erfolgswahrscheinlichkeit dar) folgt die Verteilung des Anteils in einer großen Stichprobe ( p ) einer ungefähren Normalverteilung mit Mittelwert P (der Bevölkerungsanteil) und Varianz P(1 – P)/n , solange die Erfolgswahrscheinlichkeit nicht zu hoch oder zu niedrig ist (d. h. nicht zu nahe an 1 bzw. 0) .

Bei der Differenz zweier Grundgesamtheitsanteile P 1 – P 2 können wir die Grenzen des Konfidenzintervalls aus zwei unabhängigen Stichproben mit den Anteilen p 1 und p 2 ermitteln . Wenn diese Stichproben die gleichen Bedingungen wie oben erfüllen (Stichproben n 1 und n 2 groß und Anteile p 1 und p 2 weit von 1 und 0 entfernt) und daher Normalverteilungen folgen, folgt auch die Differenz einer Normalverteilung mit Mittelwert P 1 – P 2 und Varianz p 1 (1 – p 1 )/n 1 + p 2(1 – p 2 )/n 2 .

Angesichts dieser Ergebnisse ergibt sich ein Konfidenzintervall für die Differenz zweier Bevölkerungsanteile aus großen Stichproben mit einem Konfidenzniveau von 100(1 – α) %, wobei α das Signifikanzniveau darstellt, wie folgt:

Konfidenzintervalle für die Differenz zweier Bevölkerungsanteile

In obiger Formel entspricht Z α/2 dem Wert von Z in der Standardnormalverteilung, der rechts davon einen Bereich von α/2 lässt.

Konfidenzintervall für die Differenz zweier Populationsanteile aus kleinen Stichproben (n < 30)

Wenn eine Stichprobengröße kleiner als 30 ist oder wenn einer der Anteile sehr nahe bei 0 oder 1 liegt, kann Ihre Verteilung eine Normalverteilung nicht angemessen annähern. Auch in diesem Fall wird die Differenz der beiden Anteile keiner Normalverteilung folgen, weshalb die obige Formel für das Konfidenzintervall nicht gilt.

Die Schlussfolgerung über den Unterschied in den Bevölkerungsanteilen auf der Grundlage kleiner Stichproben ist sehr komplex und würde den Rahmen dieses Artikels sprengen.

Interpretation des Konfidenzintervalls für die Differenz zweier Populationsanteile

Nach Berechnung des Konfidenzintervalls für die Differenz zweier Bevölkerungsanteile muss das erhaltene Ergebnis interpretiert werden. Es lassen sich drei Ergebnisse angeben, die unterschiedlich interpretiert werden.

Betrachten wir jeden Fall, in dem ein Konfidenzintervall mit einem Konfidenzniveau von 100(1 – α)% oder einfach einem Signifikanzniveau von α erhalten wird, dessen untere und obere Grenze jeweils LI und LS sind. Das heißt:

Konfidenzintervalle für die Differenz zweier Bevölkerungsanteile

Je nach Vorzeichen der erhaltenen Grenzen können wir unterschiedliche Schlussfolgerungen bezüglich der Differenz zwischen den beiden Populationsanteilen ziehen:

  • Wenn sowohl die Unter- als auch die Obergrenze negativ sind, dann können wir mit einem Konfidenzniveau von 100(1 – α) % sagen, dass der Anteil in Grundgesamtheit 2 größer ist als der entsprechende Anteil in Grundgesamtheit 1. Das heißt, wir können sagen dass P 1 < P 2 oder dass P 2 > P 1 .
  • Wenn die Untergrenze negativ und die Obergrenze positiv ist, das Konfidenzintervall also Null enthält, dann können wir bei einem Konfidenzniveau von 100(1 – α)% sagen, dass es keinen Unterschied zwischen den beiden gibt . Das heißt, es wird gefolgert, dass P 1 = P 2 .
  • Wenn schließlich sowohl die Unter- als auch die Obergrenze positiv sind, können wir mit einem Konfidenzniveau von 100(1 – α) % sagen, dass der Anteil der Grundgesamtheit 1 größer ist als der entsprechende Anteil der Grundgesamtheit 2. Das heißt, wir schließen daraus P1 > P2 . _

Beispiel zur Berechnung des Konfidenzintervalls für zwei Bevölkerungsanteile

Stellungnahme

Angenommen, es wurde eine Umfrage an einer Zufallsstichprobe von 250 mexikanischen Ingenieurstudenten durchgeführt, um herauszufinden, welcher Anteil von ihnen das Konzept der Konfidenzintervalle beherrscht. Die Ergebnisse der Umfrage zeigten, dass 64,8% von ihnen es nicht dominieren, während der Rest es tut. Andererseits wurde die gleiche Umfrage an einer Stichprobe von 180 spanischen Ingenieurstudenten durchgeführt, auf die 54 Studenten antworteten, dass sie das Konzept der Konfidenzintervalle beherrschen.

Gibt es bei einem Signifikanzniveau von 0,05 einen Unterschied zwischen den Anteilen spanischer und mexikanischer Studenten, die das Konzept der Konfidenzintervalle beherrschen?

Lösung

Wie wir aus der Frage ersehen können, wollen wir feststellen, ob es einen Unterschied zwischen den Anteilen zweier verschiedener Populationen gibt oder nicht. Der Interessenanteil besteht aus dem Anteil der Studierenden, die das Konzept der Konfidenzintervalle beherrschen, so dass in diesem Fall die positive Beantwortung der Befragung einen Erfolg aus Sicht des Binomialexperiments darstellt.

Für die Population der mexikanischen Studenten betrug die Stichprobe 250 Studenten, und sie geben an, dass der Anteil der Studenten, die das betreffende Fach nicht beherrschen, 64,8 % beträgt. Aber das ist nicht das Verhältnis, das wir wollen, da es ein Misserfolg ist, das Thema nicht zu beherrschen. Daher entspricht dieser Anteil dem Komplement q . In Anbetracht dessen beträgt der Erfolgsanteil p für die Stichprobe mexikanischer Studenten:

Konfidenzintervalle für die Differenz zweier Bevölkerungsanteile

Andererseits haben wir im Fall der Stichprobe spanischer Schüler die Anzahl der Erfolge und die Gesamtgröße der Stichprobe, sodass der Anteil der Erfolge wie folgt ist:

Konfidenzintervalle für die Differenz zweier Bevölkerungsanteile

Diese Ergebnisse sind in der folgenden Tabelle zusammengefasst.

Mexikanische Studenten Spanische Studenten
n MEX = 250 nESP = 180
pMEX = 0,352 pESP = 0,300

Wie wir sehen können, sind beide Stichprobenumfänge erheblich größer als 30, sodass sie als große Stichproben betrachtet werden. Außerdem liegt weder der Anteil der mexikanischen noch der spanischen Studierenden nennenswert nahe bei 0 oder 1. Schließlich können wir trotz der Tatsache, dass die Aussage dies nicht präzisiert, davon ausgehen, dass beide Stichproben voneinander unabhängig sind.

Unter diesen Bedingungen können wir sagen, dass sowohl die Stichprobenanteile beider Grundgesamtheiten als auch die Differenz der Stichprobenanteile einer Normalverteilung folgen werden. Daher können wir die vorherige Gleichung verwenden, um das Konfidenzintervall zu bestimmen, das wie folgt lautet:

Konfidenzintervalle für die Differenz zweier Bevölkerungsanteile

Beachten Sie, dass wir zur Festlegung des Konfidenzintervalls den Wert von Z für die Hälfte des gegebenen Signifikanzniveaus benötigen, was in diesem Fall α = 0,05 ist. Das heißt, wir müssen Z α/2 = Z 0,05/2 = Z 0,025 finden . Dieser Wert kann in einer Standard-Normalverteilungstabelle, mithilfe einer mobilen Statistikanwendung oder mithilfe einer Tabellenkalkulation wie Excel für Windows oder Numbers für MacOS gefunden werden.

In diesem Fall ist Z 0,025 = 1,959964. Das Konfidenzintervall ist also:

Konfidenzintervalle für die Differenz zweier Bevölkerungsanteile

Konfidenzintervalle für die Differenz zweier Bevölkerungsanteile

Konfidenzintervalle für die Differenz zweier Bevölkerungsanteile

Wie wir sehen, enthält das so berechnete Konfidenzintervall Null, weshalb bei einem Konfidenzniveau von 95 % geschlussfolgert wird, dass es keinen signifikanten Unterschied zwischen den Anteilen mexikanischer und spanischer Studierender gibt, die das Konzept der Intervalle beherrschen . vertraut.

Verweise

Cetinkaya-Rundel, M. (2012, 13. März). Vorlesung 14: Großer und kleiner Stichprobenschluss für Proportionen . Department of Statistical Science an der Duke University. https://www2.stat.duke.edu/courses/Spring12/sta101.1/lec/lec14S.pdf

del Rio, AQ (2019, 1. September). 7.8 Konfidenzintervall für die Differenz der Anteile. | Versüßte grundlegende Statistik . Buch unten. https://bookdown.org/aquintela/EBE/confidence-interval-for-the-difference-of-proportions-.html

Holmes, A., Illowsky, B., & Dean, S. (2017, 29. November). 10.4 Vergleich zweier unabhängiger Bevölkerungsanteile – Einführung in die Unternehmensstatistik . OpenStax. https://openstax.org/books/introductory-business-statistics/pages/10-4-comparing-two-independent-population-proportions

Icedo Félix, M. (2020, 7. Mai). RPubs – Konfidenzintervalle für die Differenz zweier Populationsanteile . RPubs. https://rpubs.com/Melanie_Icedo/Asignacion-6_Intervalo-confianza-proportion-poblacional

Statologen. (nd). Konfidenzintervall für die Differenz der Anteile . https://statologos.com/diferencia-de-intervalo-de-fianza-en-proportiones/

-Werbung-

mm
Israel Parada (Licentiate,Professor ULA)
(Licenciado en Química) - AUTOR. Profesor universitario de Química. Divulgador científico.

Artículos relacionados