multivariate time series anomaly detection survey

本文创新之处有两个:提出一种动态、无监督的确定阈值的方法;重新判定是否异常以减少误报率。

  本文只向后预测一步,并且只预测一个维度,收集每一步的误差组成误差向量,并对误差向量做指数平滑处理,然后根据平滑后的数据计算阈值。但是文章中计算阈值公式部分写的不规范,暂时还没有看懂。

 

  得到阈值后,找出高于阈值的样本点标记为异常,然后作者为了降低误报率,对高于阈值的残差做降序排列,再补充低于阈值的最大残差,计算相邻两个残差的下降率。将下降率和最小下降率p依次比较,将小于p对应的样本点及其后面的样本点标记为正常。

 

 

首先,受计算机视觉方法的启发,所有变量根据它们的相关性分成不同的组。 然后,使用改进的卷积去噪自动编码器来提取每组的特征。 最后,融合所有提取的特征以形成特征向量。 因此,可以基于这些特征向量识别故障样本。

 

 

 

提供一个数据集

: 与Isolation Forest和Principal Components Analysis(两种流行的异常检测算法)相比,我们在Los Alamos国家实验室网络安全数据集中观察到了卓越的性能。  Los Alamos National Laboratory Cyber Security dataset 不是时序的数据集吧。

 

谷歌实习生的工作:–不是multivariate的

 

资源集合:

https://github.com/yzhao062/anomaly-detection-resources

 

雅虎的一个数据集:

https://yahooresearch.tumblr.com/post/114590420346/a-benchmark-dataset-for-time-series-anomaly

—已经在申请了

 

全部的数据集:

http://odds.cs.stonybrook.edu/#table3

 

哈佛大学:

https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/OPQMVF

好像不是时序的。

这个好像也不是时序的:

https://ir.library.oregonstate.edu/concern/parent/m326m709w/file_sets/mp48sk328

 

点赞