Tabla de Contenidos
分散と標準偏差は、統計と科学および工学のすべての分野の両方で非常に重要な 2 つの用語です。どちらも中心値に関する分散の尺度ですが、使用されるコンテキストに応じて、さまざまな方法で定義できます。
統計と確率の分野では、分散と標準偏差は、確率変数(ほとんどの場合、文字 X で表される)の値が平均値からどれだけ離れているかを測定します。
ただし、これらの用語が科学または工学で使用される場合、分散と標準偏差は、母集団またはサンプル平均の周りの、母集団全体またはサンプルのいずれかのデータ系列の分散を指します。同じ測定器を使用した一連の反復測定の標準偏差も、その測定器の精度レベルを知るためによく使用されます。
前者の場合、分散と標準偏差は確率変数の変動性を測定し、後者の場合、実験データの分散を測定します。いずれの場合も、ゼロの分散または標準偏差はまったく変動がないことを示し (確率変数が実際には一定であるか、データがすべてまったく同じである)、高い値はその逆を示します。
これらの 2 つの用語は密接に関連しており、混同されることもありますが、すぐにわかる重要な違いがあります。
分散と標準偏差の違い
1. 定義が異なる
これら 2 つの統計用語の最初の違いは、その定義です。
分散の定義
統計では、分散は確率変数の値とその平均値の差の二乗の期待値として定義されます。
数学的には、これは次のように記述されます。
少し形式ばった言い方をすれば、データ系列 (母集団またはサンプル) の個々のデータとその平均値との差の 2 乗の平均として定義することもできます。
標準偏差の定義
使用されるコンテキストに関係なく、標準偏差とも呼ばれる標準偏差は、分散の正の平方根として定義されます。
数学的には、これは次のように記述されます。
2.それらは異なる記号で表されます
分散と標準偏差は、統計テキストと数式と方程式の両方でさまざまな方法で表されます。
分散:
- 母分散を参照する場合のσ 2
- 標本分散を参照する場合のS 2
- Var(X) は、確率変数 (この場合は X) の分散を参照する場合です。
標準偏差:
- 母標準偏差を参照する場合のσ
- サンプル標準偏差を参照する場合の S
- SD(X) は確率変数の標準偏差を表す場合、この場合は X です。
3. 式が異なる
分散と標準偏差の両方について、分散または標準偏差が計算されるデータ系列が母集団からのデータであるか、サンプルからのデータであるかに応じて、2 つの式があります。
母集団分散式 (σ 2 )
母分散の 2 つの式のいずれにおいても、μは母集団の平均を表し、X iは i 番目の母集団データ値を表し、Nは母集団のサイズまたはデータ ポイントの総数を表します。
サンプル分散式 (S 2 )
ここで、x バーはサンプル データの平均 (サンプル平均) を表し、x i はi 番目のサンプル データの値を表し、nはサンプル内のデータのサイズまたは総数を表します。
人口標準偏差式 (σ)
標準偏差の場合、次の 3 つの方法で計算できます。
標準偏差式の例
ここでも、次の 3 つの方法のいずれかを使用できます。
最後の 2 つの式に関して注意が必要です。標準偏差を計算するときは、まず分散を計算してから平方根を取るのが一般的です。最初に分散を計算せずに後者の方程式を使用して標準偏差を決定することはめったにないため、ほとんどの場合、前者は後者よりも優先されます。
4. ユニットが違う
分散と標準偏差の単位はどちらも、データまたはそれらが参照する確率変数の性質と単位に依存しますが、単位はそれぞれの場合で異なります。
標準偏差の単位は元のデータまたは確率変数と同じですが、分散はこれらの単位の 2 乗になります。
例:
特定の教育機関の 8 年生のサンプルのキログラム (kg) 単位の体重のデータがある場合、そのデータの分散の単位は kg 2 で、標準偏差の単位はkgになります。
5. 解釈が異なる
分散と標準偏差の両方について、解釈は既に述べたものと同じです。値がゼロの場合、分散はなく、すべてのデータは互いに正確に等しくなります。値が小さい場合は分散が少なく、値が大きい場合は分散が多くなります。
ただし、大きい値または小さい値の意味を理解する場合、標準偏差値はデータと同じ単位であるため、分散値よりも解釈がはるかに簡単です。分散の場合、これはそれほど単純ではありません。
6. 極端な値に対する感度が異なる
分散の尺度として、分散と標準偏差の両方が極端な値 (非常に高いか非常に低い) の存在に対する感度に悩まされます。これは、他のデータよりもはるかに大きいまたは小さいデータを除いて、すべてのデータが非常に類似しているデータ系列を記述する場合、分散も標準偏差もデータの広がりをうまく表していないことを意味します (どちらも大きな値を与えます)。データの大部分がほとんど分散していないという事実にもかかわらず)。
ただし、分散を標準偏差と比較すると、すべての偏差が 2 乗されるのに対し、標準偏差はそうではないため、分散はこれらの異常値に対してより敏感になります。
7. 数学的性質が異なる
最後に取り上げる相違点には、主に統計学者 (または統計学を研究している人々) にとって重要な、より深い相違点がいくつか含まれています。
数学関数として、分散と標準偏差は、データに定数を掛ける効果、定数を足す効果、確率変数を足し合わせる効果、累乗などの点で異なります。
ただし、これらの違いは、この記事の範囲外です。
分散と標準偏差の計算例
地元の生産者からの 12 頭の雄牛のサンプルを計量したとします。キロ単位の重量は次のとおりです。
507 | 497 | 510 | 508 | 491 | 510 |
500 | 509 | 496 | 491 | 505 | 503 |
このサンプルの分散と標準偏差を決定するよう求められます。
解決
前述のように、データ系列がある場合、最初に分散を決定し、次に標準偏差を決定すると便利です。
サンプル分散の計算 (S 2 )
より実用的であるため、2 番目のサンプル分散式を使用します。これを行うには、次の手順に従います。
- ステップ 1:すべてのデータの垂直リストが作成されます
- ステップ 2:各データの 2 乗が計算され、その隣の新しい列に書き込まれます。
- ステップ 3:すべてのデータが追加され、結果が最初の列の最後に記録されます。
- ステップ 4:すべての正方形を合計し、2 番目の列の最後に結果を書き留めます。
これらの最初の 5 つの手順を次の表にまとめます。
Xi _ | x i 2 |
500 | 250000 |
509 | 259081 |
496 | 246016 |
491 | 241081 |
505 | 255025 |
503 | 253009 |
507 | 257049 |
497 | 247009 |
510 | 260100 |
508 | 258064 |
491 | 241081 |
510 | 260100 |
∑Xi _ | ∑X i 2 |
6027 | 3027615 |
- ステップ 5:式を使用して分散を計算します。
したがって、標本分散はおよそ S 2 = 50 kg 2です。
サンプル標準偏差 (S) の計算
分散が得られたので、標準偏差の計算は最初の平方根を取るのと同じくらい簡単です。
ご覧のように、7 キロの標準偏差と雄牛の平均体重である 502.25 キロ (別途計算) を比較すると、このサンプルのばらつきは小さいと結論付けることができます。雄牛の平均体重の 1.4%。
参考文献
Espinoza、CI、および Echecopar、AL (2020)。MS Excel を使用した統計アプリケーションとステップバイステップの例 (スペイン語版) (第 1版)。リマ、ペルー: ルイス フェリペ アリズメンディ エケコパルとデュオ ネゴシオス SAC。
インベストペディア。(2021 年 4 月 16 日)。分散を使用して標準偏差を決定する方法を学びます。2021 年 7 月 24 日、 https://www.investopedia.com/ask/answers/021215/what-difference-between-standard-deviation-and-variance.aspから取得
ロペス、JF (2017 年 11 月 18 日)。分散。https://economipedia.com/definiciones/varianza.htmlから取得
米国国立標準技術研究所。(nd)。不確実性の基本的な定義。2021 年 7 月 24 日、 https://physics.nist.gov/cuu/Uncertainty/basic.htmlから取得
Webster、A. (2001)。ビジネスと経済に適用される統計 (スペイン語版) . カナダ、トロント: Irwin Professional Publishing.