連鎖方程式による多重代入

MICEモジュールを使用すると、ほとんどのstatsmodelsモデルを、独立変数または従属変数、あるいはその両方に欠損値を持つデータセットに適合させることができ、適合パラメータの厳密な標準誤差を提供します。基本的な考え方は、欠損値を持つ各変数を回帰における従属変数として扱い、残りの変数のいくつかまたはすべてをその予測変数として扱うことです。MICE手順はこれらのモデルを循環的に処理し、それぞれを順番に適合させ、次に「予測平均マッチング」(PMM)と呼ばれる手順を使用して、適合モデルによって決定された予測分布からランダムドローを生成します。これらのランダムドローは、1つの代入データセットの代入値になります。

デフォルトでは、欠損変数を持つ各変数は、データセット内の他のすべての変数の主効果を持つ線形回帰を使用してモデル化されます。代入モデルが線形の場合でも、PMM手順は各変数のドメインを保持することに注意してください。したがって、たとえば、特定の変数のすべての観測値が正の場合、その変数のすべての代入値は常に正になります。ユーザーは、各変数の代入値を生成するために使用されるモデルを指定することもできます。

クラス

MICE(model_formula, model_class, data[, ...])

連鎖方程式による多重代入。

MICEData(data[, perturbation_method, k_pmm, ...])

MICEによる欠損データ処理を可能にするために、データセットをラップします。

MI(imp, model[, model_args_fn, ...])

MIは、提供された代入オブジェクトを使用して多重代入を実行します。

BayesGaussMI(data[, mean_prior, cov_prior, ...])

ガウスモデルを使用したベイズ代入。

実装の詳細

内部的には、この関数はpandas.isnullを使用します。この関数からTrueを返すものはすべて、欠損データとして扱われます。


最終更新日:2024年10月3日