问1:特征选择的常用方法有哪些?
答1:信息增益、卡方、基尼系数、信息增益率
问2:信息增益的公式是什么?
答2:IG(T)=H(C)-H(C|T)
H(C)=-∑p(Ci)log(p(Ci))
H(C|T)=∑p(Ti)H(Ci|Ti)
信息增益越大,特征相关性越大
问3:卡方的公式是什么?
答3:D=D11+D12+D21+D22
D11=(A-E11)^2/E11
E11=(A+C)((A+B)/N)
x^2=(AD-BC)^2/((A+B)(A+C)(B+D)(C+D))
≈(AD-BC)^2/((A+B)(C+D))
卡方值越大,特征相关性越大
属于类C 不属于类C
包含特征 A B
不包含特征 C D
问3:基尼系数的公式是什么?
答3:G(D)=1-∑pi^2
G(D|T)=(|D1|/|D|)*G(D1)+(|D2|/|D|)*G(D2)
△G(D)=G(D)-G(D|T)
基尼系数增长越大,特征相关性越大
当T包含多个值时,选取G(D|T)最小的值为分裂后的基尼系数
问4:皮尔森相关系数的公式是什么?
答4:∑(xi-x’)(y-y’)/sqrt(∑(xi-x’)^2)sqrt(∑(yi-y’)^2)
问5:欧式距离的公式是什么?
答5:sqrt(∑(xi-yi)^2)