fpgrowth
FP-Growth による相関パターン抽出を実行します。
実行方式は JSON-RPC v2.0 を利用します。
リクエスト例
fpgrowth
は分析 API の一種であり、プロべナンス API の process
メソッドに api_method="fpgrowth"
を指定することで実行できます。
以下は、プロべナンスのセッションを開始して、fpgrowth
を実行し、セッションを終了する例です。
import xdata_prov.client import Api
api = Api()
api.begin_session()
api.process(api_method="fpgrowth", api_params={
"output_ddc": "ddc:jartic_xrain_rules",
"input_ddc": "ddc:jartic_xrain_items",
"min_support": 0.01,
"min_confidence": 0.75,
"param_json": "{ (パラメータの項目を参照) }"
})
api.commit()
api.end_session()
パラメータ
process
メソッドを api_method="fpgrowth"
として呼び出す場合、api_params
は以下のキーを含む dict を受け取ります。
既定値が空欄のものは必須のパラメータとなります。
キー | 説明 | 既定値 |
---|---|---|
output_ddc | 処理結果の出力先 ddc | |
output_mode | 出力モード (overwrite または error ) |
error |
input_ddc | 入力データ ddc | |
min_support | support (支持度) の最小値 | |
min_confidence | confidence (確信度) の最小値 | |
param_json | FP-Growth に渡されるパラメータ |
param_json
には、相関パターン抽出の詳細を制御する詳細パラメータを指定できます。
filters
出力する相関パターンの絞り込み条件を指定できます。JSON 配列を値に持ちます。記述例を以下に示します。
"filters": [
{
"pre": {"must": ["mesh", "rf"]},
"post": {"must": ["cl"], "must_not": ["mesh", "dow", "peak"] }
}
]
配列の各要素には、前提 (pre
) と帰結 (post
) に対する絞り込み条件を記述します。
キー | 説明 |
---|---|
pre.must | 前提節に存在すべきカテゴリのリスト (前方一致、すべて含むこと) |
pre.must_not | 前提節に存在すべきでないカテゴリのリスト (前方一致、一つも含まないこと) |
post.must | 帰結節に存在すべきカテゴリのリスト (前方一致、すべて含むこと) |
post.must_not | 帰結節に存在すべきでないカテゴリのリスト (前方一致、一つも含まないこと) |
filters
の値として列挙された条件のうち、いずれか一つでも合致した場合に出力対象となります。
入力データ
記号変換済みトランザクションテーブル
input_ddc
で指定される入力 ddc は、「記号変換済みトランザクションテーブル」です。
このテーブルは、以下のスキーマを持つ必要があります。
カラム名 | データ型 | 説明 |
---|---|---|
id | integer | トランザクションを一意に識別する ID |
start_datetime | timestamp with time zone | 開始日時 |
end_datetime | timestamp with time zone | 終了日時 |
location | geometry | 空間範囲 |
meshcode | character varying | メッシュコード |
items | text[] | この時空間範囲で発生した事象の集合 |
出力データ
相関ルールテーブル
output_ddc
で指定される出力先 ddc に、「相関ルールテーブル」が出力されます。
このテーブルは、以下のスキーマを持ちます。
カラム名 | データ型 | 説明 |
---|---|---|
id | integer | ルールを一意に識別する ID |
pre | text[] | antecedent (前提部) |
post | text[] | consequent (結論部) |
support | integer | absolute support (ルールに合致するデータ数) |
confidence | double precision | confidence (確信度) |
- 出力の support にはルールに合致するデータ数が格納されます
戻り値
fpgrowth
は、出力先 ddc の ddc 情報を戻します。
これは、プロべナンス API の process
メソッドの仕様で定められた動作です。