Single-pass算法的思想是:
按一定顺序依次读取数据,每次读取的新数据都和已经读取并聚类的数据进行比较,如果按照一定规则找到相应的近似组别,则将这个新数据归入这个类中,如果没有,则将这个新数据视为一个新类。就这样反复执行,直到所有的数据都读完。整个过程只对数据进行一次读取(single)。
Single-Pass算法又称单通道法或单遍法,是流式数据聚类的经典方法。对于依次到达的数据流,该方法按输入顺序每次处理一个数据,依据当前数据与已有类的匹配度大小,将该数据判为已有类或者创建一个新的数据类,实现流式数据的增量和动态聚类。
Single-Pass算法是一种增量算法,适合对流数据进行挖掘,而且算法的时间效率高;不足之处主要表现在该方法具有输入次序依赖特性,即对于同一聚类对象按不同的次序输入,会出现不同的聚类结果。
Single-Pass聚类算法在新事件探测中的应用
将要检测的文档,可以视为按时间排序的文档流,该算法将按照这个流顺序顺次地处理每一个新的文档。
1 利用特征选取技术,对文档内容生成相对应的查询表示。
2 对新文档进行计算初始阈值。
3 将这篇新文档与内存中已存在的查询表示做比较。
4 如果这篇新文档较以前的查询表示并未超过其阈值,则将这个文档标记为其包含新事件。
5 如果这篇新文档触发了某个已有的查询,则将这个文档标记为不包含新事件。
6 读取下一篇文档,并继续以上过程。
这里将每篇文档的内容表示为一个查询(query)。如果一篇文档触发(trigger)了已存在的查询A,则认为这篇文档讨论了A查询中的事件,否则,将这篇文档视为包含新的事件。
——————————————————————————————————————–
参考文献:
Ron Papka,James Allan.On-Line New Event Detection using Single-Pass Clustering.