インフォカートランキングとダウンロードのピックアップです。
[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。
決定木プログラムは、説明変数及び目的変数が、名義尺度や順序尺度の時、 変数の情報指標を計算し、目的変数を的確に分類する説明変数の選択の様子を 明らかにする時に使用します。 プログラムは、「可能性を考慮した決定木構築アルゴリズム」(注1)をもとにVBAで作成しています。 なお、機能を拡張することにより目的変数が数量の場合も処理できます。 (注1)2003/03:火の国シンポジウム:九州工業大学 和田 稔/平田耕一/原尾政輝
操作画面とその解法は次の通りです。
A.項目選択のための情報指標の計算
1.情報量の計算
目的変数の情報量DI Σ-(pk/nj)*log(pk/nj) pk=要素数 nj=レコード数 説明変数(属性)の情報量Dj -Σ((pj/nj)*Σ(pi/pj)*log(pi/pj)) pj=属性での要素数 nj=属性のレコード数 pi=属性の要素の中の目的変数の要素数
2.利得の計算
属性の利得 DI-Dj
3.分割情報量(SPL)
Σ-(pj/nj)*log(pj/nj)
4.利得比
分割情報量/利得
5.非純粋性(GI,GJ)
DIの非純粋性GI 1-Σ(pk/nj)*(pk/nj) 属性の非純粋性Gj Σ((pj/nj)(1-Σ(pi/pj)*(pi/pj)))
6.GINI指標
GI-Gj
B.項目の選択基準
分割判断基準=利得比の大きい説明変数(属性)から 順次選択しパスを作成する。
C.カテゴリの区間数の制限
要素の昇順を考慮した度数の累積割合を算定し、 要素単位で、度数を考慮して制限区間の範囲に割付ける。 制限数=3の時は、設定範囲数=3とする。 変換結果を出力 例) a1 → a1 a1 → a1 b1 → a1 b2 → b2 b3 → b2 c1 → b2 c2 → b2
D.数量の区間数の制限
小さい数字順に並べる 制限区間数の範囲に割付ける。 ただし、同じ数量がある場合は、小さい方の範囲に含ませる。 制限数=3の時は、設定範囲数=3とする。 境界数字で変換結果を出力 境界の表現は次のとおり <=nnn <nnn<= nnn< ただし、nnnは境界の(小+大)/2で表す。
小さい数字順に並べる 制限区間数の範囲に割付ける。 ただし、同じ数量がある場合は、小さい方の範囲に含ませる。 制限数=3の時は、設定範囲数=3とする。 境界数字で変換結果を出力 境界の表現は次のとおり
<=nnn <nnn<= nnn< ただし、nnnは境界の(小+大)/2で表す。
E.分割する最小のレコードの処理
全レコード*割合の整数より、分割するレコード数が少ない場合は、 この範囲以下の分割処理は行わない。
F.目的変数の処理
1)カテゴリの場合は、種類と、その個数を出力 2)数量の場合は、個数とその合計を出力 即ち、決定木と回帰木の両方の処理ができる。
サンプルデータ