Main Content

順序応答の多項モデル

応答変数の結果は、指定可能な値が制限されたセットの 1 つになる場合もあります。性別を表す男性または女性など、可能な結果が 2 つしかない場合、これらの応答は二項反応と呼ばれます。複数の結果がある場合、これらの応答は多値応答と呼ばれます。多値応答の例として、病気の症状の程度 (軽症、中等症、重症)、都市内で人気のある居住区、特定の花の種類などがあります。応答カテゴリ間に自然な順序がある場合があります。これらの応答は、"順序応答" と呼ばれます。

この順序とは、オンライン カスタマー サービスについて満足しなかった人、満足した人、非常に満足した人など、カテゴリの選択肢に固有である場合があります。この順序は潜在的 (連続) 変数のカテゴリ化によって導入される場合もあります。たとえば、血圧などの量的な医療計測に基づき、特定の疾病の発症に関するリスクが低いグループ、中リスクのグループ、高リスクのグループに個人が属する場合などです。

応答カテゴリ間で自然な順序を使用する多項回帰モデルを指定できます。この順序モデルでは、カテゴリの累積確率と予測子変数の関係を説明します。

この関係はさまざまなリンク関数で表すことができますが、ロジットおよびプロビットが最もよく使用されます。

  • ロジット: 既定では、関数 fitmnr はリンク関数 logit を使用して順序カテゴリをもつ MultinomialRegression モデル オブジェクトを作成します。(fitmnr で名前と値の引数 Link を使用して別のリンク関数を指定できます。)結果の MultinomialRegression モデル オブジェクトは "対数累積オッズ" をモデル化したものになります。これは、応答がカテゴリ j の P(y ≤ cj) 以下の値をもつカテゴリに属する確率と、応答がカテゴリ j の P(y >cj) を超える値をもつカテゴリに属する確率との比率を表す対数です。

    通常、順序モデルは、予測子変数の影響が対数スケールのすべてのカテゴリで同一であるという仮定に基づいています。つまり、このモデルでは、カテゴリ間の切片は異なりますが、勾配 (係数) が共通しています。このモデルは "並列回帰" モデルまたは "比例オッズ" モデルと呼ばれ、順序応答の既定のモデルです。

    比例オッズ モデルは以下のようになります。

    ln(P(yc1)P(y>c1))=ln(π1π2++πk)=α1+β1X1+β2X2++βpXp,ln(P(yc2)P(y>c2))=ln(π1+π2π3++πk)=α2+β1X1+β2X2++βpXp,ln(P(yck1)P(y>ck1))=ln(π1+π2++πk1πk)=αk1+β1X1+β2X2++βpXp,

    ここで πj, j = 1, 2, ..., k はカテゴリの確率です。

    たとえば、3 つのカテゴリがある応答変数について、次のような 3 - 1 = 2 個の方程式があるとします。

    ln(π1π+2π3)=α1+β1X1+β2X2++βpXp,ln(π+1π2π3)=α2+β1X1+β2X2++βpXp.

    比例オッズの仮定のもとで、予測子変数 X の部分的な影響は、応答変数カテゴリ j の選択肢に対して不変です。たとえば、3 つのカテゴリが存在する場合、係数は、応答値がカテゴリ 1 とカテゴリ 2 またはカテゴリ 3 に含まれる場合とカテゴリ 1 またはカテゴリ 2 とカテゴリ 3 に含まれる場合の相対リスクまたは対数オッズに対する予測子変数の影響を比較して表します。

    したがって、変数 X2 の単位変更は、他がすべて同等であることを前提に、応答値がカテゴリ 1 とカテゴリ 2 またはカテゴリ 3 に含まれる場合と、カテゴリ 1 またはカテゴリ 2 とカテゴリ 3 に含まれる場合の累積オッズの exp(β2) 倍の変更を意味します。

    または、名前と値のペアの 'interactions','on' 引数を使用してカテゴリ間で異なる切片と勾配を使用するモデルを当てはめることもできます。ただし、勾配の等しいモデルが true の場合、順序モデルにこのオプションを使用すると効率が低下する可能性があります (少数のパラメーターで推定する利点が失われます)。

  • プロビット: 名前と値のペアの引数 'link','probit' を指定すると、正規分布の潜在的変数が存在するという仮定に基づく "プロビット" リンク関数が使用されます。順序応答変数の場合、これは "順序 probit" モデルとも呼ばれます。順序プロセスの潜在的変数 y* と予測子変数 X のベクトルの関係を説明する回帰モデルについて考えます。

    y*=βX+ε,

    ここで、誤差項 ε は標準正規分布に従います。潜在的変数 y* と観測された変数 y との間に次の関係があるとします。

    y=c1ifα0<y*α1,y=c2ifα1<y*α2,y=ckifαk1<y*αk,

    ここで、α0 = – ∞ および αk = ∞ です。この場合、y がカテゴリ j、つまり前述のカテゴリの 1 つ P(y ≤ cj) に含まれる累積確率は次と等しくなります。

    P(ycj)=P(y*<αj)=P(βX+ε<αj)=P(ε<αjβX)=Φ(αjβX),

    ここで、Φ は標準正規累積分布関数です。したがって、次のようになります。

    Φ1(P(ycj))=αjβX,

    ここで、αj は潜在的変数の切り取り点および回帰モデルの切片に対応します。これは、正規の潜在的変数と並列回帰の仮定にのみ基づいています。さらに一般的には、k カテゴリと複数の予測子をもつ応答変数の場合、順序 probit モデルは次のようになります。

    Φ1(P(yc1))=α1+β1X1++βpXp,Φ1(P(yc2))=α2+β1X1++βpXp,Φ1(P(yck1))=αk1+β1X1++βpXp,

    ここでは次のようになります。P(y ≤ cj) = π1 + π2 + ... + πj

    係数は、状態の尤度に関して、予測子変数での単位変更の影響を示します。たとえば、正の係数 β1 は、対応する予測子変数 X1 の増加により、基になる潜在的変数の増加を示します。したがって、この場合は P(y ≤ c1) が減少し、P(y ≤ ck) が増加します。

fitmnr を使用して MultinomialRegression モデル オブジェクトを作成してモデル係数を推定した後、predict で名前と値の引数 ProbabilityType="cumulative" を使用して各カテゴリの累積確率を推定できます。predict は、fitmnr で返される MultinomialRegression モデル オブジェクトを受け入れ、カテゴリ ラベル、カテゴリカル確率、および各カテゴリカル確率の信頼限界を推定します。predict でカテゴリ、累積、または条件付きのいずれの確率を返すかについては、名前と値の引数 ProbabilityType を使用して指定できます。

参照

[1] McCullagh, P., and J. A. Nelder. Generalized Linear Models. New York: Chapman & Hall, 1990.

[2] Long, J. S. Regression Models for Categorical and Limited Dependent Variables. Sage Publications, 1997.

[3] Dobson, A. J., and A. G. Barnett. An Introduction to Generalized Linear Models. Chapman and Hall/CRC. Taylor & Francis Group, 2008.

参考

| | | |

関連するトピック