ドキュメンテーション センター

  • 評価版
  • 製品アップデート

最新のリリースでは、このページがまだ翻訳されていません。 このページの最新版は英語でご覧になれます。

分布プロット

正規確率プロット

正規確率プロットは、データが正規分布に従っているかどうかを知るために使われます。多くの統計手法ではデータが正規分布に従っていることを仮定しているので、正規確率プロットは、データが正規分布に従っているということを立証したり、誤った仮定に対して警告を与えたりします。正規性の解析では、通常、正規確率プロットと正規性の仮説検定を組み合わせます。

この例では、mu = 10 および sigma = 1 の正規分布から 25 個の乱数のデータ標本を生成し、データの正規確率プロットを作成します。

rng('default');  % For reproducibility
x = normrnd(10,1,25,1);
normplot(x)

プラス記号は、それぞれのデータ点の値に対する経験的確率をプロットしています。実線はデータの 25 番目と 75 番目の百分位数を繋いだ線を表し、この線をデータの両端まで破線により延長します。 y 軸の値は、0 から 1 までの確率で、スケールは線形ではありません。 y 軸上の目盛間の距離は、正規分布の分位数間の距離を示しています。分位数は中央値 (確率 = 0.5) に近くなるにつれて密集し、中央値から遠くなるにつれて対称的に離れます。

正規確率プロットでは、すべてのデータ点が線の近くにある場合、正規分布に従っているという仮定が正しいことを示します。そうでない場合、点は線から曲がって離れていくので、正規分布に従っているという仮定は正当化されません。たとえば、次の例では、mu = 10 の指数分布から 100 個の乱数のデータ標本を生成し、データの正規確率プロットを作成します。

x = exprnd(10,100,1);
normplot(x)

この図は、データが基本的な正規分布でないことを明確に示しています。

分位数-分位数 (QQ) プロット

QQプロットは、2 つの標本が同じ分布によるものであるかどうかを判定するために使われます。これらは、1 番目と 3 番目の分位数間に描かれる線と、各標本から計算される分位数の散布図です。データが線の近くにある場合、2 つの標本が同じ分布によるものであると仮定することは妥当です。この方法は、どちらの分布の位置とスケールの変化に対してもロバストです。

分位数-分位数プロットを作成するには、関数 qqplot を使用します。

次の例では、パラメーター値の異なるポアソン分布から乱数を含むデータ標本を 2 つ生成し、分位数-分位数プロットを作成します。x のデータは lambda = 10 のポアソン分布から派生し、y のデータは lambda = 5 のポアソン分布から派生しています。

x = poissrnd(10,50,1);
y = poissrnd(5,100,1);
qqplot(x,y);

パラメーターや標本のサイズは異なっていますが、直線関係で近似できることは、2 つの標本が同じ分布族からの標本である可能性を示します。正規確率プロットと同様に、仮説検定からもそのような仮説の正当性をより確実にすることができます。ただし、同じ分布からの 2 つの標本に依存する統計手法として、線形の分位数-分位数プロットが十分であることがしばしばあります。

次の例は、異なる分布による標本ではどのようになるかを示しています。ここで、x には mu = 5 および sigma = 1 の正規分布から生成された 100 個の乱数が含まれ、y には A = 2 および B = 0.5 のワイブル分布から生成された 100 個の乱数が含まれます。

x = normrnd(5,1,100,1);
y = wblrnd(2,0.5,100,1);
qqplot(x,y);

これらの標本は明らかに、同じ分布族からのものではないことがわかります。

累積分布プロット

経験累積分布関数 (cdf) プロットは、各 x の値よりも小さい部分のデータの割合を x の関数として示します。y 軸のスケールは線形で、特定の分布に対してはスケーリングされません。データの経験累積分布関数プロットは、特定の分布の累積分布関数と比較するために使われます。

経験累積分布関数プロットを作成するには、関数 cdfplot (または ecdfstairs) を使用します。

次の例は、極値分布からの標本に対する経験累積分布関数と、標本分布に対する累積分布関数のプロットを比較しています。実際には、標本分布は未知であり、経験累積分布関数に一致するように選ばれます。

y = evrnd(0,3,100,1);
cdfplot(y)
hold on
x = -20:0.1:10;
f = evcdf(x,0,3);
plot(x,f,'m')
legend('Empirical','Theoretical','Location','NW')

その他の確率プロット

正規確率プロットのように、確率プロットは、ちょうど、特定の分布にスケーリングされる経験的な累積密度関数プロットです。 y 軸の値は、0 から 1 までの確率で、スケールは線形ではありません。目盛間の距離は、この分布の分位数間の距離を示しています。プロットでは、データの 1 番目と 3 番目の quartiles の間に線が描かれています。データが線の近くにある場合、分布をデータに対するモデルとして選択することは妥当です。

異なる分布に対する確率プロットを作成するには、関数 probplot を使用します。

次の例は、1 つは A = 3 および B = 3 のワイブル分布から、もう 1 つは B = 3 のレイリー分布からの 2 つの標本を評価して、どちらの分布がワイブル母集団から派生しているかどうかを判断します。

x1 = wblrnd(3,3,100,1);
x2 = raylrnd(3,100,1);
probplot('weibull',[x1 x2])
legend('Weibull Sample','Rayleigh Sample','Location','NW')

このプロットは、最初の標本をワイブル分布でモデリングすることに正当性を与えます。2 番目の標本に対しては、正当性はほぼありません。

通常、分布の解析では、特定の分布に対して確率プロットと仮説検定を組み合わせます。

この情報は役に立ちましたか?