データセット¶
現在利用可能なデータセットと使用方法については、データセットページをご覧ください。
ライセンス¶
データセットがstatsmodelsに掲載されるには、パブリックドメインである必要があります。BSD互換ライセンスの下で配布されているか、オリジナルの著者の許可を得る必要があります。
データセットの追加: 例¶
ナイル川データは、1871年から1970年にかけてアスワンのナイル川の流量を測定しています。データはコブ(1978年)の論文からコピーされています。
ステップ1: datasets/nile/ディレクトリを作成します。
ステップ2: datasets/nile/nile.csvと新しいファイルdatasets/__init__.pyを追加します。それには次が含まれます。
from data import *
ステップ3: nile.csvがオリジナルデータの変換/浄化されたバージョンである場合、nile/srcディレクトリを作成し、オリジナルの生データをそこに含めます。nileの場合、この手順は必要ありません。
ステップ4: datasets/template_data.pyをnile/data.pyにコピーします。nile/data.pyを編集し、COPYRIGHT、TITLE、SOURCE、DESCRSHORT、DESCLONG、NOTEの文字列を入力します。
COPYRIGHT = """This is public domain."""
TITLE = """Nile River Data"""
SOURCE = """
Cobb, G.W. 1978. The Problem of the Nile: Conditional Solution to a Changepoint
Problem. Biometrika. 65.2, 243-251,
"""
DESCRSHORT = """Annual Nile River Volume at Aswan, 1871-1970""
DESCRLONG = """Annual Nile River Volume at Aswan, 1871-1970. The units of
measurement are 1e9 m^{3}, and there is an apparent changepoint near 1898."""
NOTE = """
Number of observations: 100
Number of variables: 2
Variable name definitions:
year - Year of observation
volume - Nile River volume at Aswan
The data were originally used in Cobb (1987, See SOURCE). The author
acknowledges that the data were originally compiled from various sources by
Dr. Barbara Bell, Center for Astrophysics, Cambridge, Massachusetts. The data
set is also used as an example in many textbooks and software packages.
"""
ステップ5: data.py内のload関数のドキュメント文字列を編集して、ロードされるデータセットを指定します。また、endog属性とexog属性のパスとインデックスも編集します。nileの場合、exogはないので、exogを参照するものはすべて使用されません。year変数も使用されません。
ステップ6: ディレクトリをインポートするようにdatasets/__init__.pyを編集します。
これで完了です!参考資料として、結果はこちらで確認できます。