一般化推定方程式

一般化推定方程式は、観測値がクラスタ内で相関している可能性があるが、クラスタ間では相関していない場合に、パネルデータ、クラスタデータ、または反復測定データの一般化線形モデルを推定します。一般化線形モデル(GLM)と同じ1パラメータ指数型分布族の推定をサポートしています。

コマンドと引数については、モジュールリファレンスを参照してください。

てんかん発作のデータを使用して、クラスタ内で交換可能な相関を持つポアソン回帰を示します。

In [1]: import statsmodels.api as sm

In [2]: import statsmodels.formula.api as smf

In [3]: data = sm.datasets.get_rdataset('epil', package='MASS').data

In [4]: fam = sm.families.Poisson()

In [5]: ind = sm.cov_struct.Exchangeable()

In [6]: mod = smf.gee("y ~ age + trt + base", "subject", data,
   ...:               cov_struct=ind, family=fam)
   ...: 

In [7]: res = mod.fit()

In [8]: print(res.summary())
                               GEE Regression Results                              
===================================================================================
Dep. Variable:                           y   No. Observations:                  236
Model:                                 GEE   No. clusters:                       59
Method:                        Generalized   Min. cluster size:                   4
                      Estimating Equations   Max. cluster size:                   4
Family:                            Poisson   Mean cluster size:                 4.0
Dependence structure:         Exchangeable   Num. iterations:                     2
Date:                     Thu, 03 Oct 2024   Scale:                           1.000
Covariance type:                    robust   Time:                         16:09:51
====================================================================================
                       coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------------
Intercept            0.5730      0.361      1.589      0.112      -0.134       1.280
trt[T.progabide]    -0.1519      0.171     -0.888      0.375      -0.487       0.183
age                  0.0223      0.011      1.960      0.050    2.11e-06       0.045
base                 0.0226      0.001     18.451      0.000       0.020       0.025
==============================================================================
Skew:                          3.7823   Kurtosis:                      28.6672
Centered skew:                 2.7597   Centered kurtosis:             21.9865
==============================================================================

GEE の使用に関するいくつかのノートブックの例は、Wiki にあります:GEE の Wiki ノートブック

参考文献

  • KY Liang and S Zeger. “Longitudinal data analysis using generalized linear models”. Biometrika (1986) 73 (1): 13-22.

  • S Zeger and KY Liang. “Longitudinal Data Analysis for Discrete and Continuous Outcomes”. Biometrics Vol. 42, No. 1 (Mar., 1986), pp. 121-130

  • A Rotnitzky and NP Jewell (1990). “Hypothesis testing of regression parameters in semiparametric generalized linear models for cluster correlated data”, Biometrika, 77, 485-497.

  • Xu Guo and Wei Pan (2002). “Small sample performance of the score test in GEE”. http://www.sph.umn.edu/faculty1/wp-content/uploads/2012/11/rr2002-013.pdf

  • LA Mancl LA, TA DeRouen (2001). A covariance estimator for GEE with improved small-sample properties. Biometrics. 2001 Mar;57(1):126-34.

モジュールリファレンス

モデルクラス

GEE(endog, exog, groups[, time, family, ...])

一般化推定方程式を用いた周辺回帰モデル。

NominalGEE(endog, exog, groups[, time, ...])

GEEを用いた名義反応周辺回帰モデル。

OrdinalGEE(endog, exog, groups[, time, ...])

GEEを用いた順序反応周辺回帰モデル

QIF(endog, exog, groups[, family, ...])

二次推論関数 (QIF) を用いて回帰モデルを当てはめます。

結果クラス

GEEResults(model, params, cov_params, scale)

このクラスは、GEEを用いた周辺回帰モデルの当てはめをまとめたものです。

GEEMargins(results, args[, kwargs])

GEEで当てはめた回帰モデルの推定周辺効果。

QIFResults(model, params, cov_params, scale)

QIF 回帰の結果クラス

依存構造

現在実装されている依存構造は次のとおりです。

CovStruct([cov_nearest_method])

相関構造と共分散構造の基底クラス。

Autoregressive([dist_func, grid])

1次自己回帰作業依存構造。

交換可能()

交換可能な作業依存構造。

GlobalOddsRatio(endog_type)

順序データまたは名義データを持つGEEのグローバルオッズ比を推定します。

Independence([cov_nearest_method])

独立作業依存構造。

Nested([cov_nearest_method])

ネストされた作業依存構造。

分布族

分布族はGLMと同じで、現在実装されているのは

Family(link, variance[, check_link])

1 パラメータ指数型分布族の親クラス。

Binomial([link, check_link])

二項指数型分布族。

Gamma([link, check_link])

ガンマ指数型分布族。

Gaussian([link, check_link])

ガウス指数型分布族。

InverseGaussian([link, check_link])

逆ガウス指数型分布族。

NegativeBinomial([link, alpha, check_link])

負の二項指数型分布族 (NB2 に対応)。

Poisson([link, check_link])

ポアソン指数型分布族。

Tweedie([link, var_power, eql, check_link])

Tweedie 分布族。

リンク関数は GLM と同じで、現在実装されているのは以下のとおりです。すべてのリンク関数が各分布族で使用できるわけではありません。利用可能なリンク関数のリストは、以下によって取得できます。

>>> sm.families.family.<familyname>.links

Link()

1 パラメータ指数型分布族の汎用リンク関数。

CDFLink([dbn])

scipy.stats 分布の CDF を使用

CLogLog()

補対数対数変換

Log()

対数変換

Logit()

ロジット変換

NegativeBinomial([alpha])

負の二項リンク関数

Power([power])

べき乗変換

Cauchy()

コーシー(標準コーシー CDF)変換

Identity()

恒等変換

InversePower()

逆変換

InverseSquared()

逆二乗変換

Probit([dbn])

プロビット(標準正規 CDF)変換


最終更新日: 2024年10月3日