Main Content

error

誤差 (誤分類の確率または MSE)

構文

err = error(B,TBLnew,Ynew)
err = error(B,Xnew,Ynew)
err = error(B,TBLnew,Ynew,'param1',val1,'param2',val2,...)
err = error(B,Xnew,Ynew,'param1',val1,'param2',val2,...)

説明

err = error(B,TBLnew,Ynew) は、与えられた真の応答 Ynew を使用して、テーブル TBLnew に格納されている予測子に対する分類木の誤分類確率または各木の回帰木の平均二乗誤差 (MSE) を計算します。TBLnew に応答変数が含まれている場合、Ynew を省略できます。テーブルに格納されている標本データを使用して B の学習を行った場合、このメソッドの入力データもテーブルに格納されていなければなりません。

err = error(B,Xnew,Ynew) は、与えられた真の応答 Ynew を使用して、行列 Xnew に格納されている予測子に対する分類木の誤分類確率または各木の回帰木の平均二乗誤差 (MSE) を計算します。行列に含まれている標本データを使用して B を学習させた場合、このメソッドの入力データも行列でなければなりません。

分類の場合、Ynew は数値ベクトル、文字行列、string 配列、文字ベクトルの cell 配列、categorical ベクトル、logical ベクトルが可能です。回帰木の場合、Y は数値ベクトルでなければなりません。err は、アンサンブル BNTrees ツリーごとに 1 つの誤差基準をもつベクトルです。

err = error(B,TBLnew,Ynew,'param1',val1,'param2',val2,...) または err = error(B,Xnew,Ynew,'param1',val1,'param2',val2,...) では、オプション パラメーターの名前と値のペアを指定します。

'Mode'誤差の計算方法を示す文字ベクトルまたは string スカラー。'cumulative' (既定) に設定した場合、error は累積誤差を計算します。err は長さが NTrees のベクトルになり、1 番目の要素は trees(1) の誤差を、2 番目の要素は trees(1:2) の誤差を与え、trees(1:NTrees) まで他の要素についても同様になります。'individual' に設定すると、err は長さ NTrees のベクトルになります。ここで、各要素はアンサンブル内のそれぞれのツリーからの誤差です。'ensemble' に設定すると、err はアンサンブル全体の累積誤差を示すスカラーとなります。
'Weights'誤差の平均化に使用する観測値の重みのベクトル。既定の設定では、それぞれの観測値の重みは 1 です。このベクトルの長さは X の行数と等しくなければなりません。
'Trees'この計算に含めるツリーを示すインデックスのベクトル。既定の設定では、この引数は 'all' に設定され、メソッドはすべてのツリーを使用します。'Trees' が数値ベクトルである場合、メソッドは 'cumulative' モードと 'individual' モードでは長さ NTrees のベクトルを返します。ここで、NTrees は入力ベクトルの要素数です。'ensemble' モードではスカラーを返します。たとえば、'cumulative' モードで、最初の要素は trees(1) からの誤差を出力し、2 番目の要素は trees(1:2) からの誤差を出力し、以下同様です。
'TreeWeights'ツリーの重みのベクトル。このベクトルは、'Trees' ベクトルと同じ長さでなければなりません。このメソッドは、簡単な重み付けされていない多数決の代わりに重み付けされた平均を取得することによって、これらの重みを使用して指定したツリーからの出力を結合します。'individual' モードでこの引数を使用することはできません。
'UseInstanceForTree'観測ごとの予測を行うために使用する必要があるツリーを示す、サイズ NobsNTrees 列の logical 行列。既定の設定では、このメソッドはすべての観測のすべてのツリーを使用します。

アルゴリズム

アンサンブル誤差を推定するときに

  • 名前と値のペアの引数 'Mode' を使用すると、次の 3 つの方法のいずれかで誤差を返すように指定できます。

    • アンサンブル内の個々の木の誤差

    • すべての木の累積誤差

    • アンサンブル全体の誤差

  • 名前と値のペアの引数 'Trees' を使用すると、どの木をアンサンブル誤差の計算で使用するかを指定できます。

  • 名前と値のペアの引数 'UseInstanceForTree' を使用すると、選択した木のそれぞれについてのアンサンブル誤差の計算で入力データ (X および Y) のどの観測値を使用するかを指定できます。

  • 名前と値のペアの引数 'Weights' を使用すると、各 "観測値" に重みを割り当てることができます。以下の式では、wj は観測値 j の重みです。

  • 名前と値のペアの引数 'TreeWeights' を使用すると、各 "木" に重みを割り当てることができます。

回帰問題の場合、error は与えられた X に対して Y を予測するために、選択された木と観測値を使用して、バギング回帰木のアンサンブルについて重みを付けた MSE を推定します。

  1. error は、アンサンブル内の選択された回帰木を使用して、X 内の選択された観測値の応答を予測します。

  2. MSE の推定は、'Mode' の値によって異なります。

    • 'Mode','Individual' を指定した場合、木 t の重み付き MSE は次のようになります。

      MSEt=1j=1nwjj=1nwj(yjy^tj)2.

      y^tj は、選択された回帰木 t からの観測値 j の予測された応答です。error は、選択された木で未選択の観測値を、観測された学習データ応答値の加重標本平均に設定します。

    • 'Mode','Cumulative' を指定した場合、重み付き MSE は、T* ≤ T 本の選択された木に対する累積的な重み付き MSE が格納されている、サイズが T* のベクトルになります。error は次のステップに従い、選択された最初の t 本の木を使用して重み付き累積 MSE、MSEt* を推定します。

      1. error は、選択された観測値 j (j = 1,...,n) について、選択された最初の t 本の木における予測子の加重平均 y^bag,tj を推定します (詳細は predict を参照してください)。この計算で、error は木の重みを使用します。

      2. error は、木 t までの重み付き累積 MSE を推定します。

        MSEt=1j=1nwjj=1nwj(yjy^bag,tj)2.

      error は、選択されたすべての木における未選択の観測値を、観測された学習データ応答値の加重標本平均に設定します。

    • 'Mode','Ensemble' を指定した場合、重み付き MSE は重み付き累積 MES ベクトルの最後の要素になります。

分類問題の場合、error は与えられた X に対して Y を予測するために、選択された木と観測値を使用して、バギング分類木のアンサンブルについて重みを付けた誤分類率を推定します。

  • 'Mode','Individual' を指定した場合、木 t の重み付き誤分類率は次のようになります。

    et=1j=1nwjj=1nwjI(yjy^tj).

    y^tj は、選択された分類木 t を使用して選択された観測値 j について予測されたクラスです。error は、選択された木で未選択の観測値を、すべての学習応答値について予測され、重み付けられた最も一般的なクラスに設定します。最も一般的なクラスが複数ある場合、errorTreeBagger モデルの ClassNames プロパティで最初にリストされているものを最も一般的であると見なします。

  • 'Mode','Cumulative' を指定した場合、重み付き誤分類率は、T* ≤ T 本の選択された木に対する累積的な重み付き誤分類率が格納されている、サイズが T* のベクトルになります。error は次のステップに従い、選択された最初の t 本の木を使用して重み付き累積誤分類率 et* を推定します。

    1. error は、選択された観測値 j (j = 1,...,n) について、選択された最初の t 本の木における重み付けされた、最も一般的なクラス y^bag,tj を推定します (詳細は predict を参照してください)。この計算で、error は木の重みを使用します。

    2. error は、木 t までの重み付き累積誤分類率を推定します。

      et=1j=1nwjj=1nwjI(yjy^bag,tj).

      error は、選択されたすべての木における未選択の観測値を、すべての学習応答値について予測され、重み付けられた最も一般的なクラスに設定します。最も一般的なクラスが複数ある場合、errorTreeBagger モデルの ClassNames プロパティで最初にリストされているものを最も一般的であると見なします。

  • 'Mode','Ensemble' を指定した場合、重み付き誤分類率は重み付き累積誤分類率ベクトルの最後の要素になります。