Tabla de Contenidos
記述統計を使用すると、データセットを少数の数値または測定値に要約して、そのデータがどのように分布しているかを説明できます。データの中心的な傾向、その分散、および分布曲線の形状を説明するのに役立つさまざまな尺度があり、そのうちのいくつかは 5 つの数値の要約に記載されています。
5つの数字の要約とは.
上記に基づいて、5つの数値の要約は、データセットに関連する5つの測定値または統計のセットとして定義でき、セットの振幅、その分散を非常に簡単な方法で説明できます。また、その中心傾向の尺度も提供します。さらに、5 つの数値の要約はグラフで表すこともできるため、データ セットのこれらの特性を簡単に視覚化し、他の関連するデータ セットと簡単に比較することができます。
5 つの数字とその意味は何ですか?
5 つの数値の要約は、一連の統計データの最小値、3 つの四分位数、および最大値で構成されます。四分位数は、すべてのデータの順序付けられたセットを同じ要素数の 4 つのサブグループに分割するデータまたは値です。したがって、100 個のデータのセットがある場合、四分位数は、セットをそれぞれ 25 個のデータの 4 つのサブセットに分割するデータまたは値です。
四分位数は、最初の四分位数、2 番目の四分位数、3 番目の四分位数のように、出現する順に名前が付けられます。さらに、それらは大文字の Q の後にその序数を示す数字で表されます。その定義により、2 番目の四分位数 Q2 は、データの中央値または中間点としても知られています。データの算術平均である平均と混同しないでください。
3 つの四分位数 (Q1、Q2、および Q3) に加えて、5 つの数値の要約には、データの最小値 (最小から最大の順に並べられた) と最大値も含まれます。つまり、この要約の 5 つの数字は次のとおりです。
- 最小値 –最小値から最大値の順に並べられた一連の統計データの最初の値です。最低値のデータです。
- Q1 または第 1 四分位。–データ セットを分割するのはそのデータまたは値であり、それらの 25% (または 4 分の 1) を下に置き、残りの 75% を上に置きます。
- Q2 または第 2 四分位。–データセットを 2 つの等しいグループに分割するデータまたは値です。つまり、データの 50% を下と上に残す値であるため、データの中央値または中間点も表します。
- Q3 または第 3 四分位。–これは、データの 75% または 4 分の 3 が下に残り、残りの 25% が上にあるデータまたは値です。
- Maximum.–その名前が示すように、データ系列全体の中で最も高い値を持つデータです。つまり、最下位から最上位に並べたときの最後のデータです。
5 つの数字の要約を解釈すると、最小値と最大値の差がデータ系列の幅として知られるものになります。一方、四分位範囲 (RIC) と呼ばれる 3 番目と 1 番目の四分位の差は、中央データの 50% を含む値の範囲を示すため、データがどのように分散しているかを示します。
一方、第 2 四分位数または中央値は、系列内のすべてのデータの値を 1 つの数値で表すために使用できる中心傾向の尺度です。平均は多くの状況で中心傾向の尺度としてよく使用されますが、中央値は極端な値 (高すぎるまたは低すぎる) に敏感ではないという利点があります。
ボックス プロット: 5 つの数字の要約のグラフ表示
5 つの数値の要約を視覚化する実用的な方法は、ボックス プロットまたはボックス プロットと呼ばれるものを使用することです。このタイプの表現では、四分位範囲 (IQR) は、Q1 から Q3 に伸びる長方形またはボックスとして表され、Q2 にある測定軸に垂直な線、つまり中央値で 2 つに分割されます。
最後に、ボックスの両側に、最小値と最大値が 1.5.RIC を超えない限り、最小値から Q1 まで、および Q3 から最大値まで伸びる測定軸に平行な線が引かれます。それぞれ Q1 と Q3 の右側。これらの横線は、箱のひげとして知られているものです。Q1 – 1.5.RIC と Q3 + 1.5.RIC で区切られた範囲外にデータがある場合、その範囲内にあるボックスから最も遠いデータまで辺 (ヒゲと呼ばれることもあります) が伸び、残りはマークされます。外れ値として。
一連のデータに対する 5 つの数値の要約の作成例
次に、一連の統計データから 5 つの数値の要約を精緻化するための手順を段階的に示します。さらに、この要約をグラフ形式で視覚化するための箱ひげ図を作成する方法についても説明します。
このデータは、百貨店の女性部門で 10 週間に販売された商品の数に対応しています。研究の結果を以下に示します。
月曜日 | 火曜日 | 水曜日 | 木曜日 | 金曜日 | 土曜日 | 日曜日 | |
1週目 | 158 | 145 | 156 | 156 | 164 | 167 | 147 |
2週目 | 161 | 146 | 157 | 152 | 162 | 160 | 153 |
第3 週 | 152 | 150 | 157 | 155 | 164 | 166 | 152 |
4週目 | 150 | 149 | 153 | 162 | 169 | 162 | 149 |
5週目 | 157 | 152 | 154 | 155 | 168 | 161 | 155 |
6週目 | 157 | 145 | 160 | 164 | 164 | 168 | 149 |
7週目 | 160 | 152 | 151 | 152 | 168 | 163 | 145 |
8週目 | 157 | 152 | 155 | 156 | 162 | 169 | 155 |
9週目 | 160 | 148 | 157 | 150 | 164 | 170 | 154 |
10週目 | 158 | 146 | 163 | 158 | 165 | 169 | 150 |
ステップ 1: すべてのデータを最小から最大の順に並べ替え、1 から始まるインデックスを割り当てます。
このステップの結果を以下に示します。
索引 | 価値 | 索引 | 価値 | 索引 | 価値 | 索引 | 価値 |
1 | 145 | 22 | 152 | 43 | 158 | 64 | 168 |
2 | 145 | 23 | 153 | 44 | 160 | 65 | 168 |
3 | 145 | 24 | 153 | 4.5 | 160 | 66 | 168 |
4 | 146 | 25 | 154 | 46 | 160 | 67 | 169 |
5 | 146 | 26 | 154 | 47 | 160 | 68 | 169 |
6 | 147 | 27 | 155 | 48 | 161 | 69 | 169 |
7 | 148 | 28 | 155 | 49 | 161 | 70 | 170 |
8 | 149 | 29 | 155 | 50 | 162 | ||
9 | 149 | 30 | 155 | 51 | 162 | ||
10 | 149 | 31 | 155 | 52 | 162 | ||
十一 | 150 | 32 | 156 | 53 | 162 | ||
12 | 150 | 33 | 156 | 54 | 163 | ||
13 | 150 | 3.4 | 156 | 55 | 163 | ||
14 | 150 | 35 | 157 | 56 | 164 | ||
15 | 151 | 36 | 157 | 57 | 164 | ||
16 | 152 | 37 | 157 | 58 | 164 | ||
17 | 152 | 38 | 157 | 59 | 164 | ||
18 | 152 | 39 | 157 | 60 | 164 | ||
19 | 152 | 40 | 157 | 61 | 165 | ||
20 | 152 | 41 | 158 | 62 | 166 | ||
21 | 152 | 42 | 158 | 63 | 167 |
ステップ 2: Q1 と Q3 の四分位数を決定する
Q1、Q2、Q3 の四分位数を決定するには、まず各四分位数に対応するデータのインデックスを計算します。式は次のとおりです。
ここで、Nはデータの総数です。この計算は整数の場合もそうでない場合もあるため、手順は次の 2 つのケースに分けられます。
ケース 1: 整数の結果
結果が整数の場合、それぞれの四分位数は、インデックスが対応するデータの値になります。たとえば、Q1 のインデックスが 10 の場合、これは Q1 がデータ番号 10 (この例では 149) の値になることを意味します。
ケース 2: 10 進数の結果
インデックスが 10 進数の場合、四分位数は系列に存在するデータのいずれにも正確に対応しません。この場合、結果は切り捨てられ、次の式を使用して、このデータとそれに続くデータから四分位数が計算されます。
ここで、d はインデックスの小数部分を表し、x iはインデックスを切り捨てたデータであり、x i+1は次のデータ ポイントです。
この例の場合、これは 3 つの四分位数のインデックスを計算した結果です。
すべてのケースで結果は 10 進数だったので、ケース 2 の式を適用して各四分位の値を決定します。
ステップ 3: 5 つの数字を特定する
データを並べ替え、3 つの四分位数の値も決定したので、5 つの数値の要約は次のようになります。
最小: | 145 |
Q1: | 152 |
Q2 または中央値: | 157 |
Q3: | 162.25 |
最大: | 170 |
ステップ 4: 箱ひげ図を作成する
RIC を除いて、箱ひげ図を作成するために必要なものはすべて揃っています。前のステップで得られた結果に基づくと、Q3 と Q1 の違いは次のとおりです。
外れ値があるかどうかを判断するために、Q1 – 1.5 IQR と Q3 + 1.5 IQR を計算し、最小値と最大値と比較します。
ご覧のとおり、最小値の 140 が 136,625 より大きいため、外れ値はありません。最大値の 170 は 177,625 未満であるため、外れ値もありません。
次の図は、例に対応する箱ひげ図を作成した結果を示しています。
参考文献
統計サンプルの 5 つの数字の要約を組み立てる方法。(nd)。FaqSalex.info。https://faqsalex.info/educaci%C3%B3n/21361-c%C3%B3mo-reunir-a-un-resumen-de-cinco-n%C3%BAmeros-de-una.html
McAdams, D. (2009 年 3 月 4 日)。5つの数字の要約。人生は物語である Problem.org. https://lifeisastoryproblem.tripod.com/es/f/fivenumbersummary.html
セラ、BR (2020 年 11 月 22 日)。中央値。ユニバースフォーミュラ。https://www.universoformulas.com/estadistica/descriptiva/mediana/#calculo
セラ、BR (2021 年 8 月 4 日)。四分位。ユニバースフォーミュラ。https://www.universoformulas.com/estadistica/descriptiva/cuartiles/#example
ゼンティカグローバル。(nd)。Brutalk – Python でデータの 5 つの数の要約を計算する方法. ブルートーク。https://www.brutalk.com/en/news/brutalk-blog/view/how-to-calculate-the-summary-of-5-numbers-for-your-data-in-python-6047097da7d56