Main Content

ばらつきの尺度

ばらつきの尺度の目的は、数直線上にデータ値がどのように拡がっているかを知ることです。これらの統計量は、別の言い方で広がりの尺度ともいいます。

次の表は、関数名とその説明を示しています。

関数名

説明

iqr

四分位数間範囲

mad

平均絶対偏差

moment

すべての次数の中心モーメント

range

範囲

std

標準偏差

var

分散

範囲 (最大値と最小値の差) は、最もシンプルな広がりの尺度です。しかし、データに外れ値があると、その値が最小値あるいは最大値になります。したがって、範囲は外れ値に対してロバストではありません。

標準偏差と分散は、正規分布する標本に対する最適な広がりの一般的な尺度です。標本分散は、正規パラメーター σ2 の最小分散不偏推定量 (MVUE) です。標準偏差は、分散の平方根で、データと同じ単位であるという望ましい特徴があります。これは、データがメートル単位の場合、標準偏差もメートル単位になるということです。これに対して、分散は m2 となり、解釈が難しくなります。

標準偏差も分散も、外れ値に対してはロバストではありません。データ本体から離れた値をもつデータは、任意の大きさの母集団による統計量の値を増大させてしまいます。

平均絶対偏差 (MAD) も、外れ値には敏感です。しかし、平均絶対偏差は、標準偏差や分散ほど外れ値によって大きく変化しません。

四分位数間範囲 (IQR) は、データの 75 番目と 25 番目の百分位数の差です。この尺度は、データの中央の 50% のみを使うので、外れ値に対してロバストです。

ばらつきの尺度の比較

この例では、1 つの外れ値が含まれている標本データについてばらつきの尺度を計算および比較する方法を示します。

1 つの外れ値が含まれている標本データを生成します。

x = [ones(1,6),100]
x = 1×7

     1     1     1     1     1     1   100

標本データの四分位数間範囲、平均絶対偏差、範囲および標準偏差を計算します。

stats = [iqr(x),mad(x),range(x),std(x)]
stats = 1×4

         0   24.2449   99.0000   37.4185

四分位数間範囲 (iqr) は標本データの 75 番目と 25 番目の百分位数の差で、外れ値に対してロバストです。範囲 (range) はデータの最大値と最小値の差で、外れ値が存在すると大きく影響を受けます。

平均絶対偏差 (mad) と標準偏差 (std) は、どちらも外れ値の影響を受けます。ただし、平均絶対偏差は標準偏差ほどは影響を受けません。

関連するトピック