Was ist die Fünf-Zahlen-Zusammenfassung in der Statistik?

Artículo revisado y aprobado por nuestro equipo editorial, siguiendo los criterios de redacción y edición de YuBrain.


Die deskriptive Statistik ermöglicht es uns, einen Datensatz in einer kleinen Anzahl von Zahlen oder Maßen zusammenzufassen, die dazu dienen, zu beschreiben, wie diese Daten verteilt sind. Zur Beschreibung der zentralen Tendenz der Daten, ihrer Streuung und der Form der Verteilungskurven dienen verschiedene Maße, von denen sich einige in der fünfstelligen Zusammenfassung wiederfinden.

Was ist die Fünf-Zahlen-Zusammenfassung?

Auf der Grundlage des oben Gesagten kann die Zusammenfassung von fünf Zahlen als ein Satz von fünf Maßen oder Statistiken in Bezug auf einen Datensatz definiert werden, die es ermöglichen, auf sehr einfache Weise die Amplitude des Satzes und seine Streuung zu beschreiben. Es liefert auch ein Maß für seine zentrale Tendenz. Darüber hinaus kann die aus fünf Zahlen bestehende Zusammenfassung auch grafisch dargestellt werden, was es einfach macht, diese Eigenschaften eines Datensatzes zu visualisieren und ihn gleichzeitig leicht mit anderen verwandten Datensätzen zu vergleichen.

Was sind die fünf Zahlen und was bedeuten sie?

Die fünfstellige Zusammenfassung setzt sich aus dem Minimalwert, den drei Quartilen und dem Maximalwert einer Reihe von statistischen Daten zusammen. Quartile sind jene Daten oder Werte, die die geordnete Menge aller Daten in vier Untergruppen mit gleicher Anzahl von Elementen aufteilen . Wenn wir also einen Satz von 100 Daten haben, sind die Quartile diejenigen Daten oder Werte, die den Satz in 4 Teilmengen von jeweils 25 Daten unterteilen.

Die Quartile werden in der Reihenfolge benannt, in der sie erscheinen, vom niedrigsten zum höchsten, z. B. das erste, zweite und dritte Quartil. Darüber hinaus werden sie durch den Großbuchstaben Q gefolgt von der Zahl dargestellt, die ihre ordinale Position angibt. Per Definition wird das zweite Quartil, Q2, auch als Median oder Mittelpunkt der Daten bezeichnet . Es sollte nicht mit dem Mittelwert verwechselt werden, der das arithmetische Mittel der Daten ist.

Zusätzlich zu den drei Quartilen (Q1, Q2 und Q3) enthält die fünfstellige Zusammenfassung auch den Mindestwert der Daten, geordnet vom kleinsten zum größten, und den Höchstwert. Mit anderen Worten, die fünf Zahlen in dieser Zusammenfassung sind:

  • Minimum.– Es ist der erste Wert einer Reihe von statistischen Daten, geordnet vom niedrigsten zum höchsten. Es sind die Daten mit dem niedrigsten Wert.
  • Q1 oder erstes Quartil.– Es sind diese Daten oder Werte, die den Datensatz teilen, wobei 25 % (oder ein Viertel) darunter und die anderen 75 % darüber liegen.
  • Q2 oder zweites Quartil.– Es sind die Daten oder Werte, die den Datensatz in zwei gleiche Gruppen teilen. Das heißt, es ist der Wert, der 50 % der Daten sowohl darunter als auch darüber lässt, sodass er auch den Median oder Mittelpunkt der Daten darstellt.
  • Q3 oder drittes Quartil.– Dies sind die Daten oder Werte, bei denen 75 % oder drei Viertel der Daten darunter und die anderen 25 % darüber liegen.
  • Maximum.– Wie der Name schon sagt, handelt es sich um die Daten mit dem höchsten Wert der gesamten Datenreihe. Das heißt, es sind die letzten Daten, wenn sie vom niedrigsten zum höchsten geordnet werden.

Bei der Interpretation der fünfstelligen Zusammenfassung liefert die Differenz zwischen dem Mindest- und Höchstwert die sogenannte Breite der Datenreihe. Andererseits zeigt uns die Differenz zwischen dem dritten und ersten Quartil, genannt Interquartile Range (RIC), wie gestreut die Daten sind, da sie den Wertebereich angibt, der 50 % der zentralen Daten enthält.

Andererseits ist das zweite Quartil oder der Median ein Maß für die zentrale Tendenz, das verwendet werden kann, um den Wert aller Daten in der Reihe in einer einzigen Zahl darzustellen. Obwohl der Mittelwert in vielen Situationen oft als Maß für die zentrale Tendenz verwendet wird, bietet der Median den Vorteil, dass er nicht empfindlich auf Extremwerte (zu hoch oder zu niedrig) reagiert.

Boxplots: die grafische Darstellung der Zusammenfassung der fünf Zahlen

Eine praktische Möglichkeit, eine Zusammenfassung von fünf Zahlen zu visualisieren, ist ein sogenannter Boxplot oder Boxplot . Bei dieser Art der Darstellung wird der Interquartilsabstand (IQR) als Rechteck oder Kästchen dargestellt, das sich von Q1 bis Q3 erstreckt und durch eine senkrecht zur Messachse stehende Linie in Q2, also im Median, zweigeteilt wird.

Schließlich werden auf jeder Seite der Box Linien parallel zur Messachse gezogen, die sich vom Minimum bis Q1 und von Q3 bis zum Maximum erstrecken, solange das Minimum und Maximum nicht mehr als 1,5 RIC Abstand nach links und haben rechts von Q1 bzw. Q3. Diese Seitenlinien sind die sogenannten Whiskers der Box. Wenn es Daten außerhalb des durch Q1 – 1.5.RIC und Q3 + 1.5.RIC abgegrenzten Bereichs gibt, erstrecken sich die Seiten (manchmal auch Whiskers genannt) bis zu den Daten, die am weitesten von der Box innerhalb dieses Bereichs entfernt sind, und der Rest wird markiert als Ausreißer.

Beispiel für die Erstellung der Zusammenfassung von fünf Zahlen für eine Reihe von Daten

Als nächstes wird Schritt für Schritt das Verfahren zur Erstellung einer Zusammenfassung von fünf Zahlen aus einem Satz statistischer Daten vorgestellt. Außerdem wird erklärt, wie man den Boxplot zur Visualisierung dieser Zusammenfassung in grafischer Form erstellt.

Die Daten entsprechen der Anzahl verkaufter Artikel in der Damenabteilung eines Kaufhauses über einen Zeitraum von 10 Wochen. Die Ergebnisse der Studie werden im Folgenden präsentiert:

Montag Dienstag Mittwoch Donnerstag Freitag Samstag Sonntag
Woche 1 158 145 156 156 164 167 147
Woche 2 161 146 157 152 162 160 153
Woche 3 152 150 157 155 164 166 152
Woche 4 150 149 153 162 169 162 149
Woche 5 157 152 154 155 168 161 155
Woche 6 157 145 160 164 164 168 149
Woche 7 160 152 151 152 168 163 145
Woche 8 157 152 155 156 162 169 155
Woche 9 160 148 157 150 164 170 154
Woche 10 158 146 163 158 165 169 150

Schritt 1: Sortieren Sie alle Daten vom kleinsten zum größten und weisen Sie ihnen einen Index zu, der bei 1 beginnt.

Das Ergebnis dieses Schrittes ist unten dargestellt:

Index Wert Index Wert Index Wert Index Wert
1 145 22 152 43 158 64 168
2 145 23 153 44 160 65 168
3 145 24 153 Vier fünf 160 66 168
4 146 25 154 46 160 67 169
5 146 26 154 47 160 68 169
6 147 27 155 48 161 69 169
7 148 28 155 49 161 70 170
8 149 29 155 fünfzig 162
9 149 30 155 51 162
10 149 31 155 52 162
elf 150 32 156 53 162
12 150 33 156 54 163
13 150 3. 4 156 55 163
14 150 35 157 56 164
fünfzehn 151 36 157 57 164
16 152 37 157 58 164
17 152 38 157 59 164
18 152 39 157 60 164
19 152 40 157 61 165
zwanzig 152 41 158 62 166
einundzwanzig 152 42 158 63 167

Schritt 2: Bestimmen Sie die Q1- und Q3-Quartile

Um die Q1-, Q2- und Q3-Quartile zu bestimmen, beginnen wir mit der Berechnung eines Index für die Daten, die jedem Quartil entsprechen. Die Formel lautet wie folgt:

Fünf-Zahlen-Zusammenfassung

Fünf-Zahlen-Zusammenfassung

Fünf-Zahlen-Zusammenfassung

Wobei N die Gesamtzahl der Daten ist. Diese Berechnung kann ganzzahlig sein oder nicht, daher wird das Verfahren in zwei Fälle unterteilt:

Fall 1: Ganzzahliges Ergebnis

Wenn das Ergebnis ganzzahlig ist, dann ist das jeweilige Quartil der Wert der Daten, denen der Index entspricht. Wenn beispielsweise der Index von Q1 10 ergibt, bedeutet dies, dass Q1 der Wert der Datennummer 10 ist (in unserem Beispiel 149).

Fall 2: Dezimalergebnis

Wenn der Index eine Dezimalzahl ist, entspricht das Quartil nicht genau den in der Reihe vorhandenen Daten. In diesem Fall wird das Ergebnis abgerundet und aus diesen und den folgenden Daten das Quartil nach folgender Formel berechnet:

Fünf-Zahlen-Zusammenfassung

Wobei d den Dezimalteil des Index darstellt, x i die Daten mit abgerundetem Index sind und x i+1 der nächste Datenpunkt ist.

In unserem Beispiel ist dies das Ergebnis der Berechnung der Indizes der drei Quartile:

Fünf-Zahlen-Zusammenfassung

Fünf-Zahlen-Zusammenfassung

Fünf-Zahlen-Zusammenfassung

In allen Fällen war das Ergebnis eine Dezimalzahl, also wenden wir jetzt die Formel aus Fall 2 an, um den Wert jedes Quartils zu bestimmen:

Fünf-Zahlen-Zusammenfassung

Fünf-Zahlen-Zusammenfassung

Fünf-Zahlen-Zusammenfassung

Schritt 3: Identifizieren Sie die fünf Zahlen

Nachdem wir nun die Daten geordnet haben und auch die Werte der drei Quartile bestimmt haben, lautet die Zusammenfassung der fünf Zahlen:

Minimum: 145
Q1: 152
Q2 oder Median: 157
Q3: 162.25
Maximal: 170

Schritt 4: Erstellen Sie den Boxplot

Wir haben bereits alles Notwendige, um den Boxplot zu bauen, außer dem RIC. Basierend auf dem im vorherigen Schritt erhaltenen Ergebnis beträgt die Differenz zwischen Q3 und Q1:

Fünf-Zahlen-Zusammenfassung

Um festzustellen, ob es Ausreißer gibt, berechnen wir Q1 – 1,5 IQR und Q3 + 1,5 IQR und vergleichen mit dem Minimum und Maximum:

Fünf-Zahlen-Zusammenfassung

Fünf-Zahlen-Zusammenfassung

Wie wir sehen können, gibt es keine Ausreißer, da das Minimum 140 größer als 136.625 ist. Es gibt auch keine Ausreißer, da das Maximum 170 kleiner als 177.625 ist.

Die folgende Abbildung zeigt das Ergebnis des Aufbaus des Boxplots entsprechend dem Beispiel:

Fünf-Zahlen-Zusammenfassung

Verweise

Wie man eine fünfstellige Zusammenfassung einer statistischen Stichprobe zusammenstellt . (nd). FaqSalex.info. https://faqsalex.info/educaci%C3%B3n/21361-c%C3%B3mo-reunir-a-un-resumen-de-cinco-n%C3%BAmeros-de-una.html

McAdams, D. (2009, 4. März). Zusammenfassung von fünf Zahlen. Das Leben ist eine Geschichte Problem.org. https://lifeisastoryproblem.tripod.com/es/f/fivenumbersummary.html

Serra, BR (2020, 22. November). Mittelwert . Universelle Formeln. https://www.universoformulas.com/estadistica/descriptiva/mediana/#calculo

Serra, BR (2021, 4. August). Quartile . Universelle Formeln. https://www.universoformulas.com/estadistica/descriptiva/cuartiles/#example

Zentica Global. (nd). Brutalk – So berechnen Sie die 5-Zahlen-Zusammenfassung für Ihre Daten in Python . Brutal. https://www.brutalk.com/en/news/brutalk-blog/view/how-to-calculate-the-summary-of-5-numbers-for-your-data-in-python-6047097da7d56

-Werbung-

mm
Israel Parada (Licentiate,Professor ULA)
(Licenciado en Química) - AUTOR. Profesor universitario de Química. Divulgador científico.

Artículos relacionados