Czym jest zestawienie pięciu liczb w statystykach?

Artículo revisado y aprobado por nuestro equipo editorial, siguiendo los criterios de redacción y edición de YuBrain.


Statystyka opisowa pozwala nam podsumować zbiór danych za pomocą niewielkiej liczby liczb lub miar, które służą do opisania sposobu dystrybucji tych danych. Istnieją różne miary, które służą do opisu centralnej tendencji danych, ich rozproszenia i kształtu krzywych rozkładu, z których część znajduje się w pięcioliczbowym podsumowaniu.

Co to jest podsumowanie pięciu liczb?

W oparciu o powyższe zestawienie pięciu liczb można zdefiniować jako zbiór pięciu miar lub statystyk związanych ze zbiorem danych, które pozwalają w bardzo prosty sposób opisać amplitudę zbioru, jego rozproszenie. Zapewnia również miarę jego centralnej tendencji. Ponadto pięciocyfrowe podsumowanie można również przedstawić graficznie, co ułatwia wizualizację tych cech zestawu danych, a jednocześnie pozwala na łatwe porównanie go z innymi powiązanymi zestawami danych.

Czym jest pięć liczb i co one oznaczają?

Pięciocyfrowe podsumowanie składa się z wartości minimalnej, trzech kwartyli i wartości maksymalnej serii danych statystycznych. Kwartyle to te dane lub wartości, które dzielą uporządkowany zbiór wszystkich danych na cztery podgrupy o tej samej liczbie elementów . Tak więc, jeśli mamy zestaw 100 danych, kwartyle to te dane lub wartości, które dzielą zbiór na 4 podzbiory po 25 danych każdy.

Kwartyle są nazywane w kolejności, w jakiej się pojawiają, od najniższego do najwyższego, na przykład pierwszy, drugi i trzeci kwartyl. Ponadto są one reprezentowane przez wielką literę Q, po której następuje liczba wskazująca ich pozycję porządkową. Z definicji drugi kwartyl, Q2, jest również znany jako mediana lub punkt środkowy danych . Nie należy jej mylić ze średnią, która jest średnią arytmetyczną danych.

Oprócz trzech kwartyli (Q1, Q2 i Q3), pięciocyfrowe podsumowanie obejmuje również minimalną wartość danych, uporządkowaną od najmniejszej do największej, oraz wartość maksymalną. Innymi słowy, pięć liczb w tym podsumowaniu to:

  • Minimum.– Jest to pierwsza wartość zestawu danych statystycznych uporządkowanych od najniższej do najwyższej. To dane o najniższej wartości.
  • Q1 lub pierwszy kwartyl. – To właśnie te dane lub wartość dzielą zbiór danych, pozostawiając 25% (lub jedną czwartą) z nich poniżej, a pozostałe 75% powyżej.
  • Q2 lub drugi kwartyl. – To dane lub wartości, które dzielą zbiór danych na dwie równe grupy. Oznacza to, że jest to wartość, która pozostawia 50% danych zarówno poniżej, jak i powyżej, więc reprezentuje również medianę lub punkt środkowy danych.
  • Q3 lub trzeci kwartyl. – To są dane lub wartości, które pozostawiają 75% lub trzy czwarte danych poniżej, a pozostałe 25% powyżej.
  • Maksimum.– Jak sama nazwa wskazuje, są to dane o najwyższej wartości z całej serii danych. Oznacza to, że są to ostatnie dane, gdy są uporządkowane od najniższej do najwyższej.

Podczas interpretacji podsumowania pięciu liczb różnica między wartością minimalną a maksymalną zapewnia tak zwaną szerokość serii danych. Z kolei różnica między trzecim a pierwszym kwartylem, zwana rozstępem międzykwartylnym (RIC), pokazuje nam, jak rozproszone są dane, gdyż wskazuje na zakres wartości, który zawiera 50% danych centralnych.

Z drugiej strony drugi kwartyl lub mediana jest miarą tendencji centralnej, której można użyć do przedstawienia wartości wszystkich danych w szeregu w jednej liczbie. Chociaż średnia jest często używana jako miara tendencji centralnej w wielu sytuacjach, mediana ma tę zaletę, że nie jest wrażliwa na wartości ekstremalne (zbyt wysokie lub zbyt niskie).

Wykresy pudełkowe: graficzna reprezentacja podsumowania pięciu liczb

Praktycznym sposobem wizualizacji podsumowania pięciu liczb jest użycie tak zwanego wykresu pudełkowego lub wykresu pudełkowego . W tego typu reprezentacji rozstęp międzykwartylowy (IQR) jest reprezentowany jako prostokąt lub pudełko rozciągające się od Q1 do Q3 i podzielone na dwie części linią prostopadłą do osi pomiaru znajdującej się w Q2, czyli w medianie.

Na koniec po każdej stronie prostokąta narysowane są linie równoległe do osi pomiaru, które rozciągają się od minimum do Q1 i od Q3 do maksimum, o ile minimum i maksimum znajdują się nie dalej niż 1,5 RIC odległości w lewo i na prawo odpowiednio od Q1 i Q3. Te boczne linie są tak zwanymi wąsami pudełka. Jeśli istnieją dane, które wykraczają poza zakres wyznaczony przez Q1 – 1.5.RIC i Q3 + 1.5.RIC, to boki (czasami nazywane wąsami) rozciągają się na dane znajdujące się najdalej od pudełka znajdującego się w tym zakresie, a reszta są oznaczone jako odstające.

Przykład przygotowania zestawienia pięciu liczb dla serii danych

Następnie przedstawiono krok po kroku procedurę opracowania zestawienia pięciu liczb ze zbioru danych statystycznych. Ponadto wyjaśnia, jak zbudować wykres pudełkowy do wizualizacji tego podsumowania w formie graficznej.

Dane odpowiadają liczbie artykułów sprzedanych w dziale damskim domu towarowego w okresie 10 tygodni. Wyniki badania przedstawiono poniżej:

Poniedziałek Wtorek Środa Czwartek Piątek Sobota Niedziela
Tydzień 1 158 145 156 156 164 167 147
tydzień 2 161 146 157 152 162 160 153
Tydzień 3 152 150 157 155 164 166 152
tydzień 4 150 149 153 162 169 162 149
tydzień 5 157 152 154 155 168 161 155
tydzień 6 157 145 160 164 164 168 149
tydzień 7 160 152 151 152 168 163 145
tydzień 8 157 152 155 156 162 169 155
tydzień 9 160 148 157 150 164 170 154
tydzień 10 158 146 163 158 165 169 150

Krok 1: Posortuj wszystkie dane od najmniejszego do największego i przypisz im indeks zaczynający się od 1.

Wynik tego kroku przedstawiono poniżej:

Indeks Wartość Indeks Wartość Indeks Wartość Indeks Wartość
1 145 22 152 43 158 64 168
2 145 23 153 44 160 65 168
3 145 24 153 Cztery pięć 160 66 168
4 146 25 154 46 160 67 169
5 146 26 154 47 160 68 169
6 147 27 155 48 161 69 169
7 148 28 155 49 161 70 170
8 149 29 155 pięćdziesiąt 162
9 149 30 155 51 162
10 149 31 155 52 162
jedenaście 150 32 156 53 162
12 150 33 156 54 163
13 150 3. 4 156 55 163
14 150 35 157 56 164
piętnaście 151 36 157 57 164
16 152 37 157 58 164
17 152 38 157 59 164
18 152 39 157 60 164
19 152 40 157 61 165
20 152 41 158 62 166
dwadzieścia jeden 152 42 158 63 167

Krok 2: Określ kwartyle Q1 i Q3

Aby określić kwartyle Q1, Q2 i Q3, zaczynamy od obliczenia indeksu dla danych odpowiadających każdemu kwartylowi. Formuła jest następująca:

Podsumowanie pięciu liczb

Podsumowanie pięciu liczb

Podsumowanie pięciu liczb

Gdzie N to całkowita liczba danych. To obliczenie może być liczbą całkowitą lub nie, dlatego procedura jest podzielona na dwa przypadki:

Przypadek 1: Wynik całkowity

Jeśli wynikiem jest liczba całkowita, to odpowiednim kwartylem będzie wartość danych, którym odpowiada indeks. Na przykład, jeśli indeks Q1 daje 10, oznacza to, że Q1 będzie wartością danych o numerze 10 (w naszym przykładzie 149).

Przypadek 2: Wynik dziesiętny

Jeśli indeks jest liczbą dziesiętną, to kwartyl nie będzie odpowiadał dokładnie żadnej z danych obecnych w serii. W tym przypadku wynik zaokrągla się w dół i na podstawie tych danych oraz następujących po nich danych oblicza się kwartyl według następującego wzoru:

Podsumowanie pięciu liczb

Gdzie d reprezentuje dziesiętną część indeksu, x i to dane z indeksem zaokrąglonym w dół, a x i+1 to następny punkt danych.

W przypadku naszego przykładu jest to wynik obliczenia wskaźników trzech kwartyli:

Podsumowanie pięciu liczb

Podsumowanie pięciu liczb

Podsumowanie pięciu liczb

We wszystkich przypadkach wynikiem była liczba dziesiętna, więc teraz stosujemy wzór z przypadku 2, aby określić wartość każdego kwartyla:

Podsumowanie pięciu liczb

Podsumowanie pięciu liczb

Podsumowanie pięciu liczb

Krok 3: Zidentyfikuj pięć liczb

Teraz, gdy mamy uporządkowane dane i ustaliliśmy również wartości trzech kwartyli, podsumowanie pięciu liczb jest następujące:

Minimum: 145
Pytanie 1: 152
Q2 lub mediana: 157
Pytanie 3: 162,25
Maksymalny: 170

Krok 4: Skonstruuj boxplot

Mamy już wszystko, co jest potrzebne do zbudowania wykresu pudełkowego, z wyjątkiem RIC. Na podstawie wyniku uzyskanego w poprzednim kroku różnica między Q3 a Q1 wynosi:

Podsumowanie pięciu liczb

Aby określić, czy występują wartości odstające, obliczamy Q1 – 1,5 IQR i Q3 + 1,5 IQR i porównujemy z minimum i maksimum:

Podsumowanie pięciu liczb

Podsumowanie pięciu liczb

Jak widać, nie ma wartości odstających, ponieważ minimum 140 jest większe niż 136 625. Nie ma również wartości odstających, ponieważ maksymalna liczba, 170, jest mniejsza niż 177 625.

Poniższy rysunek przedstawia wynik budowy wykresu pudełkowego odpowiadającego przykładowi:

Podsumowanie pięciu liczb

Bibliografia

Jak złożyć pięciocyfrowe podsumowanie próby statystycznej . (nd). FaqSalex.info. https://faqsalex.info/educaci%C3%B3n/21361-c%C3%B3mo-reunir-a-un-resumen-de-cinco-n%C3%BAmeros-de-una.html

McAdams, D. (2009, 4 marca). Podsumowanie pięciu numerów. Życie to historia Problem.org. https://lifeisastoryproblem.tripod.com/en/f/fivenumbersummary.html

Serra, BR (22 listopada 2020). mediana . Formuły wszechświata. https://www.universoformulas.com/estadistica/descriptiva/mediana/#calculo

Serra, BR (2021, 4 sierpnia). kwartyle . Formuły wszechświata. https://www.universoformulas.com/estadistica/descriptiva/cuartiles/#example

Zentica Global. (nd). Brutalk — Jak obliczyć podsumowanie 5 liczb dla swoich danych w Pythonie . Brutalnie. https://www.brutalk.com/en/news/brutalk-blog/view/how-to-calculate-the-summary-of-5-numbers-for-your-data-in-python-6047097da7d56

-Reklama-

mm
Israel Parada (Licentiate,Professor ULA)
(Licenciado en Química) - AUTOR. Profesor universitario de Química. Divulgador científico.

Artículos relacionados

zmienne zależne