文本分类——特征选择概述

内容提要

特征选择概述

  在向量空间模型中,文本可以选择字、词组、短语、甚至“概念”等多种元素表示。这些元素用来表征文本的性质,区别文本的属性,因此这些元素可以被称为文本的特征。在文本数据集上一般含有数万甚至数十万个不同的词组,如此庞大的词组构成的向量规模惊人,计算机运算非常困难。进行特征选择,对文本分类具有重要的意义。特征选择就是要选择那些最能表征文本含义的词组元素。特征选择不仅可以降低问题的规模,还有助于分类性能的改善。选取不同的特征对文本分类系统的性能有不同程度的影响。已提出的文本分类特征选择方法比较多,常用的方法有:文档频率(Document Frequency,DF)、信息增益(Information Gain,IG)、 卡方( χ2)校验(CHI)和互信息(Mutual Information,MI)等方法。另外特征抽取也是一种特征降维技术,特征抽取通过将原始的特征进行变换运算,形成新的特征。

常见模型

文档频率(DF)

  某一词组出现在文档中的频率称为文档频率(DF)。计算形式如式所示:

《文本分类——特征选择概述》

  基于文档频率的特征选择一般过程:
  1) 设定文档频率DF的上界阈值u 和下界阈值l
  2) 统计训练数据集中词组 的文档频率 ;
  3) ∀ DF(tk)< ∂l:由于词组tk 在训练集中出现的频率过低,不具有代表性,因此从特征空间中去掉词组tk
  4) ∀ DF(tk)< ∂u :由于词组tk 在训练集中出现的频率过高,不具有区分度,因此从特征空间中去掉词组tk
  所以最终选取的作为特征的词组必须满足条件l≤ DF(tk)≤ ∂u : 。
  基于文档频率的特征选择方法,一方面可以降低特征向量的复杂度;另一方面还可能提高分类的准确率,因为按此种特征选择方法可以删除一部分噪声数据。虽然DF方法简便、易实现,但其理论依据不严谨,属于一种借代算法。根据信息论可知,某些词组虽然出现的频率低,但是却含有较多的信息,对于分类可能更应该重视这些词组。对于这类词组就不应该使用DF特征选择方法将其直接从特征向量排除。

卡方校验(CHI)

  卡方( χ2)校验(Chi-Square Test,CHI)是一种数理统计中用来检验两个变量独立性的方法。其基本思想是通过检验实际值与理论值的偏差来确定理论的正确与否。在文本分类的特征选择中,用它来衡量类别ci 与词组tk 之间关联度,并假设词组tk 与类别ci 之间服从具有一阶自由度的χ2分布。词组对于某类的χ2统计量越高,其与该类之间的关联度愈大,携带的信息随之也较多,反之则较少。
  卡方校验具体做法:
  1) 首先假设两个变量是独立的(原假设);
  2) 然后计算实际测量值(观察值)与“如果两者确实独立”的情况下的理论值的偏差程度;
  3) 若偏差足够小,就认为误差属于自然样本误差,是测量方式不精确引起或者属于偶然现象的,此时就接受原假设,认定二者相互独立;
  4) 若偏差大到某一程度,使得误差不太可能是偶然现象或者测量不精确所致,就否定原假设,而接受侯选假设,认定二者不相互独立,即二者相关。
  假设词组与类关系如表表示:

《文本分类——特征选择概述》

  其中:
  1) A表示属于类别ci 且包含词组tk 的文档数,
  b) B表示不属于类别ci 但包含词组tk 的文档数,
  c) C表示属于类别ci 但不包含词组tk 的文档数,
  d) D表示既不属于类别ci 也不包含词组tk 的文档数,
  e) 设N表示训练集中文档总数。
  特征项tk 对类ci 的卡方统计量计算如式:

《文本分类——特征选择概述》

  由于卡方校验统计的是出现词组tk 的文档数,并没有考虑一篇文档中词组出现的次数,这会使得它偏袒低频词。卡方校验考虑的是范围数量而不是整体数量。这就是卡方检验著名的“低频词缺陷”。因此卡方检验也经常同词频等综合考虑来取长补短。

信息增益(IG)

  信息增益(Information Grain,IG)根据词组tk 为整个分类系统能够带来的信息量来衡量该词组的重要性,从而对该词组进行选择取舍。如果词组带来的信息越多,该词组就越重要,反之则越不重要。信息增益是针对一个词组而言,系统包含词组tk 和排除它的情况下信息量的差值就是这个词组为系统带来的信息量,即增益。其中,信息量的多少由信息熵来衡量。因此,信息增益等于不考虑词组tk 时文档的信息熵和考虑该词组后文档的信息熵的差值。信息增益的计算如式:

《文本分类——特征选择概述》

  其中:
  a) P(ci) 表示类别ci 在训练集中出现的概率,
  b) P(tk) 表示训练集中包含词组tk 的概率,
  c) P(ci|tk) 表示文本包含词组tk 时,属于类别ci 的条件概率,
  d) P(tk) 表示训练集中不包含词组tk 的概率,
  e) P(ci|tk) 表示文本不包含词组tk 时,属于类别ci 的条件概率。

互信息(MI)

  互信息(Mutual Information,MI)也是自然语言处理模型分析的常用方法,它依据信息论基础,来度量两个变量间的相关性。依据互信息进行特征选择的假设前提:在类别ci 中出现频率较高,而在其他类别 !ci 中出现频率较低的词组tk 与类别ci 的互信息较大。
  基本思想:互信息越大,词组tk 与类别ci 越可能共同出现。如果A、B、C、D的含义如上表,那么,词组tk 与类别ci 的互信息计算如式:

《文本分类——特征选择概述》

如果词组tk 和类别ci 无关,则P(tk,ci)=P(tk)XP(ci),那么I(tk,ci)=0
  由于该特征选择方法不需要对词组和类别之间性质作任何假设,因此普遍认为该方法适合于文本分类的特征选择。不过互信息方式的特征选择存在“低频词强依赖”现象,就是那些训练集中出现很少的词组,互信息值很大,很容易被选为特征。然而这些词组可能是错误的单词或者分词系统切分错误的词语,在对未标注样本进行分类或测试的时候,将很难匹配到该词组,这就很容易造成分类的正确度偏低。

知更鸟博文推荐
上一篇 中文分词——知更鸟分词(RS)设计与实现
下一篇 文本分类——常见分类模型
推荐篇 基于Kubernetes、Docker的机器学习微服务系统设计——完整版
研究篇 RS中文分词   |  MP特征选择   |  NLV文本分类   |  快速kNN
作者简介
兴趣爱好机器学习、云计算、自然语言处理、文本分类、深度学习
E-mailxsd-jj@163.com (欢迎交流)

参考文献:
[1] Jain,A.K.,Zongker,D. Feature selection: Evaluation, application, and small sample performance . IEEE Trans. on Pattern Analysis and Machine Intelligence,19(2):153−158.
[2] Yang,Y. M.,Pedersen,J. O. A comparative study on feature selection in text categorization. In: Proc. of the 14th Int’l Conf. on Machine Learning (ICML’97). 412−420.
[3] Jain,A.K.,Duin,R. P. W.,Mao,J. C. Statistical pattern recognition: A review. IEEE Trans. on Pattern Analysis and Machine Intelligence,22(1):4−37.
[4] 朱靖波,王会珍,张希娟.面向文本分类的混淆类判别技术.软件学报,19(3):630-639.

版权声明:个人原创,请勿抄袭,欢迎引用,未经许可禁止转载. © 知更鸟

    原文作者:xsdjj
    原文地址: https://blog.csdn.net/xsdjj/article/details/83788232
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞