線形混合効果モデル¶
線形混合効果モデルは、依存データを含む回帰分析に使用されます。このようなデータは、各被験者に対して複数の観測が行われる縦断的研究やその他の研究デザインで発生します。具体的な線形混合効果モデルとしては、以下のものがあります。
ランダム切片モデル:グループ内のすべての応答が、グループ固有の値によって加法的にシフトされるモデルです。
ランダム傾きモデル:グループ内の応答が、観測された共変量に対して線形である(条件付き)平均軌道に従い、傾き(および場合によっては切片)がグループによって変化するモデルです。
分散成分モデル:1つ以上のカテゴリ共変量のレベルが、分布からのドローと関連付けられているモデルです。これらのランダム項は、共変量の値に基づいて、各観測値の条件付き平均を加法的に決定します。
statsmodelsによるLMEの実装は、主にグループベースです。つまり、異なるグループの応答に対して、ランダム効果は独立して実現される必要があります。混合モデルの実装には、2種類のランダム効果があります。(i) 共分散行列が不明なランダム係数(おそらくベクトル)、および (ii) 共通の単変量分布からの独立したドローであるランダム係数です。(i)と(ii)の両方について、ランダム効果は、グループ固有のデザイン行列との行列/ベクトル積を通じて、グループの条件付き平均に影響を与えます。
(i)のようなランダム係数の簡単な例は、次のとおりです。
ここで、\(Y_{ij}\)は被験者\(i\)の\(j\)番目の測定応答であり、\(X_{ij}\)はこの応答の共変量です。「固定効果パラメータ」\(\beta_0\)と\(\beta_1\)はすべての被験者で共有され、誤差\(\epsilon_{ij}\)は他のすべてと独立しており、同一の分布に従います(平均ゼロ)。「ランダム効果パラメータ」\(\gamma_{0i}\)と\(\gamma_{1i}\)は、平均ゼロの二変量分布に従い、\({\rm var}(\gamma_{0i})\)、\({\rm var}(\gamma_{1i})\)、\({\rm cov}(\gamma_{0i}, \gamma_{1i})\)の3つのパラメータで記述されます。\({\rm var}(\epsilon_{ij})\)のパラメータもあります。
(ii)のような分散成分の簡単な例は、次のとおりです。
ここで、\(Y_{ijk}\)は条件\(i, j\)における\(k\)番目の測定応答です。唯一の「平均構造パラメータ」は\(\beta_0\)です。\(\eta_{1i}\)は独立しており、平均ゼロ、分散\(\tau_1^2\)の同一分布に従い、\(\eta_{2j}\)は独立しており、平均ゼロ、分散\(\tau_2^2\)の同一分布に従います。
statsmodels MixedLMは、ほとんどの非交差ランダム効果モデルと、一部の交差モデルを処理します。交差ランダム効果をモデルに含めるには、データセット全体を単一のグループとして扱う必要があります。次に、モデルへの分散成分引数を使用して、交差および非交差ランダム効果のさまざまな組み合わせを持つモデルを定義できます。
statsmodels LMEフレームワークは現在、係数に対するWald検定と信頼区間、プロファイル尤度分析、尤度比検定、およびAICを介した推定後の推論をサポートしています。
例¶
In [1]: import statsmodels.api as sm
In [2]: import statsmodels.formula.api as smf
In [3]: data = sm.datasets.get_rdataset("dietox", "geepack").data
In [4]: md = smf.mixedlm("Weight ~ Time", data, groups=data["Pig"])
In [5]: mdf = md.fit()
In [6]: print(mdf.summary())
Mixed Linear Model Regression Results
========================================================
Model: MixedLM Dependent Variable: Weight
No. Observations: 861 Method: REML
No. Groups: 72 Scale: 11.3669
Min. group size: 11 Log-Likelihood: -2404.7753
Max. group size: 12 Converged: Yes
Mean group size: 12.0
--------------------------------------------------------
Coef. Std.Err. z P>|z| [0.025 0.975]
--------------------------------------------------------
Intercept 15.724 0.788 19.952 0.000 14.179 17.268
Time 6.943 0.033 207.939 0.000 6.877 7.008
Group Var 40.394 2.149
========================================================
詳細な例はこちらにあります
Wikiには、いくつかのノートブックの例があります。 MixedLMのWikiノートブック
技術文書¶
データは互いに素なグループに分割されます。グループ\(i\)の確率モデルは次のとおりです。
ここで、
\(n_i\)はグループ\(i\)の観測値の数です
\(Y\)は\(n_i\)次元の応答ベクトルです
\(X\)は\(n_i \times k_{fe}\)次元の固定効果係数行列です
\(\beta\)は\(k_{fe}\)次元の固定効果傾きのベクトルです
\(Z\)は\(n_i \times k_{re}\)次元のランダム効果係数行列です
\(\gamma\)は、平均0、共分散行列\(\Psi\)の\(k_{re}\)次元ランダムベクトルです。各グループは独自の独立したガンマの実現を取得することに注意してください。
\(Q_j\)は、\(j\)番目の分散成分の\(n_i \times q_j\)次元デザイン行列です。
\(\eta_j\)は、分散\(\tau_j^2\)を持つ独立した同一分布の値を含む\(q_j\)次元ランダムベクトルです。
\(\epsilon\)は、平均0、分散\(\sigma^2\)のi.i.d正規誤差の\(n_i\)次元ベクトルです。\(\epsilon\)値は、グループ内とグループ間の両方で独立しています
\(Y\)、\(X\)、\(\{Q_j\}\)、および\(Z\)は完全に観測される必要があります。\(\beta\)、\(\Psi\)、および\(\sigma^2\)はMLまたはREML推定を使用して推定され、\(\gamma\)、\(\{\eta_j\}\)、および\(\epsilon\)はランダムであるため、確率モデルを定義します。
限界平均構造は\(E[Y|X,Z] = X*\beta\)です。限界平均構造のみが関心のある場合は、GEEは混合モデルの良い代替手段です。
表記
\(cov_{re}\)はランダム効果共分散行列(上記では\(\Psi\))であり、\(scale\)は(スカラー)誤差分散です。また、各分散成分には、単一の推定分散パラメータ\(\tau_j^2\)があります。単一グループの場合、exogが与えられたendogの限界共分散行列は\(scale*I + Z * cov_{re} * Z\)です。ここで、\(Z\)は1つのグループのランダム効果のデザイン行列です。
参考文献¶
実装の詳細に関する主な参考文献は次のとおりです。
MJ Lindstrom、DM Bates(1988)。*Newton Raphson and EM algorithms for linear mixed effects models for repeated measures data*。Journal of the American Statistical Association。Volume 83、Issue 404、pages 1014-1022。
また、このより最近のドキュメントも参照してください。
すべての尤度、勾配、およびヘッセ行列の計算は、Lindstrom and Batesに厳密に従っています。
次の2つのドキュメントは、ユーザーの観点からより多く書かれています
https://r-forge.r-project.org/scm/viewvc.php/ *checkout*/www/lMMwR/lrgprt.pdf?revision=949&root=lme4&pathrev=1781
http://lme4.r-forge.r-project.org/slides/2009-07-07-Rennes/3Longitudinal-4.pdf
モジュールリファレンス¶
モデルクラスは次のとおりです。
|
線形混合効果モデル |
結果クラスは次のとおりです。
|
線形混合効果モデルのフィッティング結果を含むクラス。 |