ドキュメンテーション センター

  • 評価版
  • 製品アップデート

最新のリリースでは、このページがまだ翻訳されていません。 このページの最新版は英語でご覧になれます。

統計の再標本化

ブートストラップ

"ブートストラップ" 処理は、一度取り出した標本を元に戻し、データセットから無作為標本を選び出し、それぞれを同じ方法で解析するという方法です。置換による標本化とは、各観測値がオリジナルのデータセットから無作為に別途選択されることを意味します。したがって、元のデータ群から取り出した特定のデータセットが、ブートストラップ標本の中で複数回現れることがあります。各ブートストラップ標本の要素数は、元のデータセットの要素数と等しくなります。標本推定の範囲は、推定量の不明確さを確かめるために使うことができます。

以下は Efron and Tibshirani [33] からの例で、15 の法律学校を標本として、法律学校の GPA と LSAT スコアを比較しています。

load lawdata
plot(lsat,gpa,'+')
lsline

最小二乗で求めた直線は、LSAT スコアが高くなるにつれて、GAP スコアも高くなることを示しています。しかし、この結果はどのくらい正しいのでしょうか。この図は直感的ですが、質としては良くありません。

関数 corr を使って、変数の相関係数を計算できます。

rhohat = corr(lsat,gpa)
rhohat =
    0.7764

LSAT と GPA の正の関係を示す値を得ました。この値は大きいと思われるかもしれませんが、統計的に意味をもつのかどうかはまだわかりません。

関数 bootstrp を使って、lsatgpa ベクトルを任意の回数で再標本化して、その結果の相関係数のばらつきを考えます。

次に例を示します。

rhos1000 = bootstrp(1000,'corr',lsat,gpa);

次のコマンドは、lsatgpa のベクトルを 1000 回再標本化し、それぞれの標本について関数 corr を計算します。結果をヒストグラムで示します。

hist(rhos1000,30)
set(get(gca,'Children'),'FaceColor',[.8 .8 1])

ほとんどすべての推定が、[0.4 1.0] の区間にあることがわかります。

統計的推定において、パラメーター推定の信頼区間を構成することが、しばしば望ましいことがあります。関数 bootci を使って、ブートストラップを使って信頼区間を得ることができます。lsatgpa データに対する信頼区間は、次のように計算されます。

ci = bootci(5000,@corr,lsat,gpa)

ci =
    0.3313
    0.9427 

したがって、LSAT と GPA の間の相関係数の 95% 信頼区間は [0.33 0.94] です。このことは、LSAT とその結果から得られる GPA が明示的な相関関係をもっているということを示す量的な証拠となります。さらに、これは相関係数の確率分布についての仮定を必要としません。

関数 bootci は、既定の設定のタイプとして、Bias Corrected and accelerated (BCa) 区間を計算しますが、スチューデント化されたブートストラップ信頼区間のような、さまざまな他のタイプのブートストラップ信頼区間を計算することもできます。

ジャックナイフ

"ジャックナイフ" はブートストラップに似ています。これは再標本化を使用して、標本統計量のバイアスを推定します。時には、標本統計量の標準誤差を推定するためにも使用されます。ジャックナイフは Statistics Toolbox™ の関数 jackknife により実行されます。

ジャックナイフは、ブートストラップのようにランダムではなく、体系的に再標本化します。n 個の点をもつ標本の場合、ジャックナイフは、サイズが n-1 である n 個の個別の標本で標本統計量を計算します。各標本は、1 つの観測が省略された元のデータです。

上の例のブートストラップでは、相関係数を推定する際に、不確実性を測定しました。ジャックナイフを使用して、バイアスを推定することができます。バイアスとは、標本相関関係が真の未知の相関関係を過大に推定または過小に推定する傾向のことです。まず、データの標本相関関係を計算します。

load lawdata
rhohat = corr(lsat,gpa)

rhohat =
    0.7764

次に、ジャックナイフ標本の相関関係を計算し、それらの平均を計算します。

jackrho = jackknife(@corr,lsat,gpa);
meanrho = mean(jackrho)

meanrho =
    0.7759

それから、バイアスの推定を計算します。

n = length(lsat);
biasrho = (n-1) * (meanrho-rhohat)

biasrho =
   -0.0065

標本相関関係はこの量に関する真の相関関係をおそらく過小に推定するでしょう。

再標本化手法の並列計算のサポート

並列な再標本化統計の計算の詳細は、「Parallel Computing Toolbox™」を参照してください。

この情報は役に立ちましたか?