基于统计方法进行新词发现

2019年4月14日 272次阅读来源: bnuxuliang

很多行业都会有自己的专有名词，另外现在的网络用语，各种新鲜词层出不穷，对基于词库的分词工具提出了很大的挑战，这样的新词发现工作如果全部交给人工处理，明显会耗费巨大的人力，下面提出一个计算候选词的方法，即使不能准确定位到新词，也会将新词缩小到一个很小的范围，再加上些许人工即可完成这样的复杂工作。

要想从一段文本中抽出词来，我们的第一个问题就是，怎样的文本片段才算一个词？大家想到的第一个标准或许是，看这个文本片段出现的次数是否足够多。我们可以把所有出现频数超过某个阈值的片段提取出来，作为该语料中的词汇输出。不过，光是出现频数高还不够，一个经常出现的文本片段有可能不是一个词，而是多个词构成的词组。

这里引用的两个新的标准，一个是用来衡量内部凝固程度的，比如词a出现的概率为P(a)，词b出现的概率为P(b)，a+b这个词组出现的概率为P(a+b)，如果P(a+b)>>P(a)*P(b)，则能证明a+b不是一个随机出现的组合，要么是一个新词，要么是个词组或者短语。

第二个是文本片段的自由运用程度。如果一个文本片段能够算作一个词的话，它应该能够灵活地出现在各种不同的环境中，具有非常丰富的左邻字集合和右邻字集合。

“信息熵”是一个非常神奇的概念，它能够反映知道一个事件的结果后平均会给你带来多大的信息量。如果某个结果的发生概率为 p ，当你知道它确实发生了，你得到的信息量就被定义为 – log(p) 。 p 越小，你得到的信息量就越大。如果一颗骰子的六个面分别是 1 、 1 、 1 、 2 、 2 、 3 ，那么你知道了投掷的结果是 1 时可能并不会那么吃惊，它给你带来的信息量是 – log(1/2) ，约为 0.693 。知道投掷结果是 2 ，给你带来的信息量则是 – log(1/3) ≈ 1.0986 。知道投掷结果是 3 ，给你带来的信息量则有 – log(1/6) ≈ 1.79 。但是，你只有 1/2 的机会得到 0.693 的信息量，只有 1/3 的机会得到 1.0986 的信息量，只有 1/6 的机会得到 1.79 的信息量，因而平均情况下你会得到 0.693/2 + 1.0986/3 + 1.79/6 ≈ 1.0114 的信息量。这个 1.0114 就是那颗骰子的信息熵。现在，假如某颗骰子有 100 个面，其中 99 个面都是 1 ，只有一个面上写的 2 。知道骰子的抛掷结果是 2 会给你带来一个巨大无比的信息量，它等于 – log(1/100) ，约为 4.605 ；但你只有百分之一的概率获取到这么大的信息量，其他情况下你只能得到 – log(99/100) ≈ 0.01005 的信息量。平均情况下，你只能获得 0.056 的信息量，这就是这颗骰子的信息熵。再考虑一个最极端的情况：如果一颗骰子的六个面都是 1 ，投掷它不会给你带来任何信息，它的信息熵为 – log(1) = 0 。什么时候信息熵会更大呢？换句话说，发生了怎样的事件之后，你最想问一下它的结果如何？直觉上看，当然就是那些结果最不确定的事件。没错，信息熵直观地反映了一个事件的结果有多么的随机。

我们用信息熵来衡量一个文本片段的左邻字集合和右邻字集合有多随机。考虑这么一句话“吃葡萄不吐葡萄皮不吃葡萄倒吐葡萄皮”，“葡萄”一词出现了四次，其中左邻字分别为 {吃, 吐, 吃, 吐} ，右邻字分别为 {不, 皮, 倒, 皮} 。根据公式，“葡萄”一词的左邻字的信息熵为 – (1/2) · log(1/2) – (1/2) · log(1/2) ≈ 0.693 ，它的右邻字的信息熵则为 – (1/2) · log(1/2) – (1/4) · log(1/4) – (1/4) · log(1/4) ≈ 1.04 。可见，在这个句子中，“葡萄”一词的右邻字更加丰富一些。

下面用金庸的射雕英雄传来做个实验，设定3个条件：

（1）P(a+b)>100*P(a)*P(b)或者P(a+b+c)>1000*P(a)*P(b)*P(c)

（2）左临熵和右临熵的最小值为1，如果是a+b，a的右临熵和b的左临熵分别小于1

（3）候选词的出现频率不低于10

结果如下：

《基于统计方法进行新词发现》

找到了一些新词，比如黑风双煞，九阴白骨爪，九阴真经，但是也混入了很多词组，经过多番调试参数，总是会混入大量的词组，一是这种机械方法自身的缺陷，二是这篇文章的特定性，因为一个作者可能就是对某种说法经常使用，如果应用于网络上来源于不同作者的文本组合，可能效果会更好。

    原文作者：bnuxuliang
    原文地址: https://zhuanlan.zhihu.com/p/50884241
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。