endog
、exog
とは何でしょう?¶
statsmodels は、推定問題で使用される観測変数であるデータに対して、endog
と exog
という名前を使用しています。他の統計パッケージや教科書でよく使用される名前には、例えば以下のようなものがあります。
endog |
exog |
---|---|
y |
x |
y 変数 |
x 変数 |
左辺 (LHS) |
右辺 (RHS) |
従属変数 |
独立変数 |
被説明変数 |
説明変数 |
アウトカム |
デザイン |
応答変数 |
説明変数 |
その使い方は、多くの場合、ドメインとモデルに固有です。しかし、私たちはほとんどの場合 endog と exog を使用することにしました。2つの用語を区別するための記憶術として、exogenous の名前には「x」が含まれている(x 変数のように)ことを覚えておくと良いでしょう。
x と y は、一時変数に使用されることもある一文字の名前であり、それ自体では情報量が少ないです。一文字の名前を避けるために、記述的な名前を使用することにし、endog
と exog
に決めました。これが批判されたため、将来的には変更される可能性があります。
背景¶
これらの用語の非公式な定義をいくつか示します。
内生変数 (endogenous):システム内の要因によって引き起こされる
外生変数 (exogenous):システム外の要因によって引き起こされる
内生変数は、経済/計量経済モデルにおいて、そのモデルによって説明または予測される変数を指します。 http://stats.oecd.org/glossary/detail.asp?ID=794
外生変数は、経済/計量経済モデルに現れるが、そのモデルでは説明されない変数を指します(つまり、モデルによって与えられるものとして扱われます)。 http://stats.oecd.org/glossary/detail.asp?ID=890
計量経済学と統計学では、これらの用語はより正式に定義されており、モデルに応じて外生性の異なる定義(弱い、強い、厳密な)が使用されます。statsmodelsにおける変数名としての使用は、常に正式な意味で解釈できるわけではありませんが、同じ原則に従うように努めています。
最も単純な形式では、モデルは観測変数 y を、別の変数の集合 x と、線形または非線形の形で関連付けます。
y = f(x, beta) + noise
y = x * beta + noise
しかし、統計モデルにするには、説明変数 x とノイズの特性に関する追加の仮定が必要です。多くの基本的なモデルにおける標準的な仮定の1つは、x がノイズと相関していないことです。より一般的な定義では、x が外生的であるということは、x が y に及ぼす効果を推定したり、この効果に関する仮説を検定したりする場合、説明変数 x がどのように生成されたか(設計によるか、何らかの基礎となる分布からのランダムな抽出によるか)を考慮する必要がないことを意味します。
言い換えれば、y は私たちのモデルにとって内生的であり、x は推定のために私たちのモデルにとって外生的です。
例として、実験を行い、2回目のセッションでは一部の被験者が利用できなくなったとします。脱落は、実験から導き出す結論に関連していますか?言い換えれば、脱落の決定を私たちの課題に対して外生的と見なすことができますか?
モデルの基礎となる統計的仮定が何かを知る(または教科書を参照して調べる)のはユーザーの責任です。OLS
の exog
は、誤差またはノイズ項が時間的に独立している(または時間的に無相関である)場合、遅延従属変数を持つことができます。しかし、遅延従属変数の存在下で誤差項が自己相関している場合、OLS は良好な統計的特性を持たず(不整合である)、正しいモデルは ARMAX になります。statsmodels
には、いくつかの仮定が正当化されているかどうかをテストするための回帰診断関数が用意されています。