关于特征选择的一些思考

问1:特征选择的常用方法有哪些?

答1:信息增益、卡方、基尼系数、信息增益率

问2:信息增益的公式是什么?

答2:IG(T)=H(C)-H(C|T)

H(C)=-∑p(Ci)log(p(Ci))

H(C|T)=∑p(Ti)H(Ci|Ti)

信息增益越大,特征相关性越大

问3:卡方的公式是什么?

答3:D=D11+D12+D21+D22

D11=(A-E11)^2/E11

E11=(A+C)((A+B)/N)

x^2=(AD-BC)^2/((A+B)(A+C)(B+D)(C+D))

≈(AD-BC)^2/((A+B)(C+D))

卡方值越大,特征相关性越大

                属于类C 不属于类C

包含特征           A        B

不包含特征         C         D

问3:基尼系数的公式是什么?

答3:G(D)=1-∑pi^2

G(D|T)=(|D1|/|D|)*G(D1)+(|D2|/|D|)*G(D2)

△G(D)=G(D)-G(D|T)

基尼系数增长越大,特征相关性越大

当T包含多个值时,选取G(D|T)最小的值为分裂后的基尼系数

问4:皮尔森相关系数的公式是什么?

答4:∑(xi-x’)(y-y’)/sqrt(∑(xi-x’)^2)sqrt(∑(yi-y’)^2)

问5:欧式距离的公式是什么?

答5:sqrt(∑(xi-yi)^2)

点赞