中心傾向の尺度
中心傾向の尺度は、適切なスケールでデータの分布の位置を決定します。
次の表は、中心傾向の尺度を計算する関数のリストです。
平均は、位置を推定する単純でかつ一般的な方法です。正規分布からのデータ標本の場合、標本平均も最適な値 (µ の最小分散不偏推定量 (MVUE)) になります。
残念ながら、ほとんどの実数データには、外れ値、データ入力誤差、故障が存在します。標本平均は、これらの問題に敏感です。1 つの誤ったデータは、その値を取り除いた残りのデータの平均から、とても大きく平均をずらしてしまうことになります。
中央値とトリム平均は、外れ値にロバストな 2 つの尺度です。中央値は標本の 50 番目の百分位数で、値に大きな摂動を与えてもほとんど変化しません。トリム平均の背景は、標本の中心値を決める場合に、大きい値と小さな値が占める比率が無視する考え方です。
幾何平均と調和平均は、算術平均と同じように、外れ値に対してロバストではありません。これらは標本が対数正規分布に従っているときや大きく歪んでいるときに使われます。
中心傾向の尺度
この例では、1 つの外れ値が含まれている標本データについて位置の尺度を計算および比較する方法を示します。
1 つの外れ値が含まれている標本データを生成します。
x = [ones(1,6),100]
x = 1×7
1 1 1 1 1 1 100
標本データの幾何平均、調和平均、平均、中央値およびトリム平均を計算します。
locate = [geomean(x) harmmean(x) mean(x) median(x)... trimmean(x,25)]
locate = 1×5
1.9307 1.1647 15.1429 1.0000 1.0000
外れ値の影響のため、平均 (mean
) はどのデータ値からも離れています。幾何平均 (geomean
) と調和平均 (harmmean
) は外れ値の影響を受けますが、あまり著しくはありません。中央値 (median
) とトリム平均 (trimmean
) では外れ値を無視するので、残りのデータ値の位置が記述されます。