統計の5つの数字の要約は何ですか.

Artículo revisado y aprobado por nuestro equipo editorial, siguiendo los criterios de redacción y edición de YuBrain.


記述統計を使用すると、データセットを少数の数値または測定値に要約して、そのデータがどのように分布しているかを説明できます。データの中心的な傾向、その分散、および分布曲線の形状を説明するのに役立つさまざまな尺度があり、そのうちのいくつかは 5 つの数値の要約に記載されています。

5つの数字の要約とは.

上記に基づいて、5つの数値の要約は、データセットに関連する5つの測定値または統計のセットとして定義でき、セットの振幅、その分散を非常に簡単な方法で説明できます。また、その中心傾向の尺度も提供します。さらに、5 つの数値の要約はグラフで表すこともできるため、データ セットのこれらの特性を簡単に視覚化し、他の関連するデータ セットと簡単に比較することができます。

5 つの数字とその意味は何ですか?

5 つの数値の要約は、一連の統計データの最小値、3 つの四分位数、および最大値で構成されます。四分位数は、すべてのデータの順序付けられたセットを同じ要素数の 4 つのサブグループに分割するデータまたは値です。したがって、100 個のデータのセットがある場合、四分位数は、セットをそれぞれ 25 個のデータの 4 つのサブセットに分割するデータまたは値です。

四分位数は、最初の四分位数、2 番目の四分位数、3 番目の四分位数のように、出現する順に名前が付けられます。さらに、それらは大文字の Q の後にその序数を示す数字で表されます。その定義により、2 番目の四分位数 Q2 は、データの中央値または中間点としても知られています。データの算術平均である平均と混同しないでください。

3 つの四分位数 (Q1、Q2、および Q3) に加えて、5 つの数値の要約には、データの最小値 (最小から最大の順に並べられた) と最大値も含まれます。つまり、この要約の 5 つの数字は次のとおりです。

  • 最小値 –最小値から最大値の順に並べられた一連の統計データの最初の値です。最低値のデータです。
  • Q1 または第 1 四分位。–データ セットを分割するのはそのデータまたは値であり、それらの 25% (または 4 分の 1) を下に置き、残りの 75% を上に置きます。
  • Q2 または第 2 四分位。–データセットを 2 つの等しいグループに分割するデータまたは値です。つまり、データの 50% を下と上に残す値であるため、データの中央値または中間点も表します。
  • Q3 または第 3 四分位。–これは、データの 75% または 4 分の 3 が下に残り、残りの 25% が上にあるデータまたは値です。
  • Maximum.–その名前が示すように、データ系列全体の中で最も高い値を持つデータです。つまり、最下位から最上位に並べたときの最後のデータです。

5 つの数字の要約を解釈すると、最小値と最大値の差がデータ系列の幅として知られるものになります。一方、四分位範囲 (RIC) と呼ばれる 3 番目と 1 番目の四分位の差は、中央データの 50% を含む値の範囲を示すため、データがどのように分散しているかを示します。

一方、第 2 四分位数または中央値は、系列内のすべてのデータの値を 1 つの数値で表すために使用できる中心傾向の尺度です。平均は多くの状況で中心傾向の尺度としてよく使用されますが、中央値は極端な値 (高すぎるまたは低すぎる) に敏感ではないという利点があります。

ボックス プロット: 5 つの数字の要約のグラフ表示

5 つの数値の要約を視覚化する実用的な方法は、ボックス プロットまたはボックス プロットと呼ばれるものを使用することです。このタイプの表現では、四分位範囲 (IQR) は、Q1 から Q3 に伸びる長方形またはボックスとして表され、Q2 にある測定軸に垂直な線、つまり中央値で 2 つに分割されます。

最後に、ボックスの両側に、最小値と最大値が 1.5.RIC を超えない限り、最小値から Q1 まで、および Q3 から最大値まで伸びる測定軸に平行な線が引かれます。それぞれ Q1 と Q3 の右側。これらの横線は、箱のひげとして知られているものです。Q1 – 1.5.RIC と Q3 + 1.5.RIC で区切られた範囲外にデータがある場合、その範囲内にあるボックスから最も遠いデータまで辺 (ヒゲと呼ばれることもあります) が伸び、残りはマークされます。外れ値として。

一連のデータに対する 5 つの数値の要約の作成例

次に、一連の統計データから 5 つの数値の要約を精緻化するための手順を段階的に示します。さらに、この要約をグラフ形式で視覚化するための箱ひげ図を作成する方法についても説明します。

このデータは、百貨店の女性部門で 10 週間に販売された商品の数に対応しています。研究の結果を以下に示します。

月曜日 火曜日 水曜日 木曜日 金曜日 土曜日 日曜日
1週目 158 145 156 156 164 167 147
2週目 161 146 157 152 162 160 153
3 週 152 150 157 155 164 166 152
4週目 150 149 153 162 169 162 149
5週目 157 152 154 155 168 161 155
6週目 157 145 160 164 164 168 149
7週目 160 152 151 152 168 163 145
8週目 157 152 155 156 162 169 155
9週目 160 148 157 150 164 170 154
10週目 158 146 163 158 165 169 150

ステップ 1: すべてのデータを最小から最大の順に並べ替え、1 から始まるインデックスを割り当てます。

このステップの結果を以下に示します。

索引 価値 索引 価値 索引 価値 索引 価値
1 145 22 152 43 158 64 168
2 145 23 153 44 160 65 168
3 145 24 153 4.5 160 66 168
4 146 25 154 46 160 67 169
5 146 26 154 47 160 68 169
6 147 27 155 48 161 69 169
7 148 28 155 49 161 70 170
8 149 29 155 50 162
9 149 30 155 51 162
10 149 31 155 52 162
十一 150 32 156 53 162
12 150 33 156 54 163
13 150 3.4 156 55 163
14 150 35 157 56 164
15 151 36 157 57 164
16 152 37 157 58 164
17 152 38 157 59 164
18 152 39 157 60 164
19 152 40 157 61 165
20 152 41 158 62 166
21 152 42 158 63 167

ステップ 2: Q1 と Q3 の四分位数を決定する

Q1、Q2、Q3 の四分位数を決定するには、まず各四分位数に対応するデータのインデックスを計算します。式は次のとおりです。

ファイブナンバーまとめ

ファイブナンバーまとめ

ファイブナンバーまとめ

ここで、Nはデータの総数です。この計算は整数の場合もそうでない場合もあるため、手順は次の 2 つのケースに分けられます。

ケース 1: 整数の結果

結果が整数の場合、それぞれの四分位数は、インデックスが対応するデータの値になります。たとえば、Q1 のインデックスが 10 の場合、これは Q1 がデータ番号 10 (この例では 149) の値になることを意味します。

ケース 2: 10 進数の結果

インデックスが 10 進数の場合、四分位数は系列に存在するデータのいずれにも正確に対応しません。この場合、結果は切り捨てられ、次の式を使用して、このデータとそれに続くデータから四分位数が計算されます。

ファイブナンバーまとめ

ここで、d はインデックスの小数部分を表し、x iはインデックスを切り捨てたデータであり、x i+1は次のデータ ポイントです。

この例の場合、これは 3 つの四分位数のインデックスを計算した結果です。

ファイブナンバーまとめ

ファイブナンバーまとめ

ファイブナンバーまとめ

すべてのケースで結果は 10 進数だったので、ケース 2 の式を適用して各四分位の値を決定します。

ファイブナンバーまとめ

ファイブナンバーまとめ

ファイブナンバーまとめ

ステップ 3: 5 つの数字を特定する

データを並べ替え、3 つの四分位数の値も決定したので、5 つの数値の要約は次のようになります。

最小: 145
Q1: 152
Q2 または中央値: 157
Q3: 162.25
最大: 170

ステップ 4: 箱ひげ図を作成する

RIC を除いて、箱ひげ図を作成するために必要なものはすべて揃っています。前のステップで得られた結果に基づくと、Q3 と Q1 の違いは次のとおりです。

ファイブナンバーまとめ

外れ値があるかどうかを判断するために、Q1 – 1.5 IQR と Q3 + 1.5 IQR を計算し、最小値と最大値と比較します。

ファイブナンバーまとめ

ファイブナンバーまとめ

ご覧のとおり、最小値の 140 が 136,625 より大きいため、外れ値はありません。最大値の 170 は 177,625 未満であるため、外れ値もありません。

次の図は、例に対応する箱ひげ図を作成した結果を示しています。

ファイブナンバーまとめ

参考文献

統計サンプルの 5 つの数字の要約を組み立てる方法。(nd)。FaqSalex.info。https://faqsalex.info/educaci%C3%B3n/21361-c%C3%B3mo-reunir-a-un-resumen-de-cinco-n%C3%BAmeros-de-una.html

McAdams, D. (2009 年 3 月 4 日)。5つの数字の要約。人生は物語である Problem.org. https://lifeisastoryproblem.tripod.com/es/f/fivenumbersummary.html

セラ、BR (2020 年 11 月 22 日)。中央値。ユニバースフォーミュラ。https://www.universoformulas.com/estadistica/descriptiva/mediana/#calculo

セラ、BR (2021 年 8 月 4 日)。四分位。ユニバースフォーミュラ。https://www.universoformulas.com/estadistica/descriptiva/cuartiles/#example

ゼンティカグローバル。(nd)。Brutalk – Python でデータの 5 つの数の要約を計算する方法. ブルートーク。https://www.brutalk.com/en/news/brutalk-blog/view/how-to-calculate-the-summary-of-5-numbers-for-your-data-in-python-6047097da7d56

-広告-

mm
Israel Parada (Licentiate,Professor ULA)
(Licenciado en Química) - AUTOR. Profesor universitario de Química. Divulgador científico.

Artículos relacionados

実数は?

確率の公理

円周の計算