ばらつきの尺度
ばらつきの尺度の目的は、数直線上にデータ値がどのように拡がっているかを知ることです。これらの統計量は、別の言い方で広がりの尺度ともいいます。
次の表は、関数名とその説明を示しています。
範囲 (最大値と最小値の差) は、最もシンプルな広がりの尺度です。しかし、データに外れ値があると、その値が最小値あるいは最大値になります。したがって、範囲は外れ値に対してロバストではありません。
標準偏差と分散は、正規分布する標本に対する最適な広がりの一般的な尺度です。標本分散は、正規パラメーター σ2 の最小分散不偏推定量 (MVUE) です。標準偏差は、分散の平方根で、データと同じ単位であるという望ましい特徴があります。これは、データがメートル単位の場合、標準偏差もメートル単位になるということです。これに対して、分散は m2 となり、解釈が難しくなります。
標準偏差も分散も、外れ値に対してはロバストではありません。データ本体から離れた値をもつデータは、任意の大きさの母集団による統計量の値を増大させてしまいます。
平均絶対偏差 (MAD) も、外れ値には敏感です。しかし、平均絶対偏差は、標準偏差や分散ほど外れ値によって大きく変化しません。
四分位数間範囲 (IQR) は、データの 75 番目と 25 番目の百分位数の差です。この尺度は、データの中央の 50% のみを使うので、外れ値に対してロバストです。
ばらつきの尺度の比較
この例では、1 つの外れ値が含まれている標本データについてばらつきの尺度を計算および比較する方法を示します。
1 つの外れ値が含まれている標本データを生成します。
x = [ones(1,6),100]
x = 1×7
1 1 1 1 1 1 100
標本データの四分位数間範囲、平均絶対偏差、範囲および標準偏差を計算します。
stats = [iqr(x),mad(x),range(x),std(x)]
stats = 1×4
0 24.2449 99.0000 37.4185
四分位数間範囲 (iqr
) は標本データの 75 番目と 25 番目の百分位数の差で、外れ値に対してロバストです。範囲 (range
) はデータの最大値と最小値の差で、外れ値が存在すると大きく影響を受けます。
平均絶対偏差 (mad
) と標準偏差 (std
) は、どちらも外れ値の影響を受けます。ただし、平均絶対偏差は標準偏差ほどは影響を受けません。