高效的多维动态时间扭曲实现

2024年2月2日 297次阅读

以下是文献如何解释如何计算两个时间序列的多维动态时间扭曲：

 library(dtw)
 x<- cbind(1:10,1)
 y<- cbind(11:15,2)
 cxdist <-dist(x,y,method="euclidean")
 dtw(cxdist)$distance

实际上,它首先计算交叉距离矩阵,然后将其用作dtw函数中的输入.

我想在具有相当大的图像的图像分类中使用多维动态时间扭曲.
图像值存储在数据框中,如下所示：

 inDf <- data.frame(matrix(rnorm(60), ncol = 6))
 colnames(inDf) <- c('var1t1','var2t1','var1t2','var2t2','var1t3','var2t3')

在此示例中,有两个变量(var1和var2)被观察三次.

问题是如何在计算强度方面尽可能多地获得dtw距离矩阵？

以下是一些想法：
– 迭代输入图像矩阵的每个值,将矢量重新整形为矩阵,以便能够计算交叉距离,然后计算dtw距离并将其存储在专用矩阵中.
这当然是计算密集度最高的解决方案

最佳答案在处理密集计算时,总是考虑使用Rcpp包.如果你想更快地得到距离矩阵与欧氏距离,你可以实现相应的Rcpp函数：

library(Rcpp)
library(inline)

# Rcpp function for euclidean distance
fastdist <- cxxfunction(signature(x="matrix", y="matrix"), plugin="Rcpp",
body='
  Rcpp::NumericMatrix dx(x);
  Rcpp::NumericMatrix dy(y);

  const int N = dx.nrow();
  const int M = dy.nrow();

  Rcpp::NumericMatrix res(N, M);

  for(int i=0; i<N; i++){
    for(int j=0; j<M; j++){
      res(i,j) = sqrt(sum((dx(i,_)-dy(j,_))*(dx(i,_)-dy(j,_))));
    }
  }

  return res;
')

它使用Rcpp语法糖,以使代码更紧凑和可读.但是,有时最好使用包装函数来检查类型,强制等等.没有必要 – 你可以直接调用fastdist.但是,无论如何,包装器看起来像这样：

# Wrapper R function
fast.dist <- function(x, y){
  stopifnot(class(x) %in% c("data.frame","matrix") &
            class(y) %in% c("data.frame","matrix") &
            ncol(x)==ncol(y))

  fastdist(as.matrix(x), as.matrix(y))
}

现在我们可以转向文学例子.

library(dtw)

# EXAMPLE 1
x<- cbind(1:10,1)
y<- cbind(11:15,2)
# Check results
all.equal(fast.dist(x,y), dist(x,y,method="euclidean"), check.attributes=F)
# [1] "target is matrix, current is crossdist"
all.equal(fast.dist(x,y), matrix(dist(x,y,method="euclidean"), ncol=nrow(y)))
# [1] TRUE

注意,dist返回class crossdist的结果.因此,为了进行比较,它应该被强制转换为矩阵.

现在你的主要问题 – 我们首先生成数据：

# EXAMPLE 2
set.seed(1234)
N <- 100
inDf <- data.frame(matrix(rnorm(6*N), ncol = 6))
colnames(inDf) <- c('var1t1','var2t1','var1t2','var2t2','var1t3','var2t3')

# Extracting variables
var1 <- inDf[,c("var1t1","var1t2","var1t3")]
var2 <- inDf[,c("var2t1","var2t2","var2t3")]

我不完全确定您的数据结构,但无论如何您总是可以根据需要准备变量.

比较和基准测试：

library(rbenchmark)

all.equal(fast.dist(var1,var2), matrix(dist(var1,var2), ncol=N))
# [1] TRUE
benchmark(fast.dist(var1,var2), dist(var1,var2), order="relative")[,1:4]
#                    test replications elapsed relative
# 1 fast.dist(var1, var2)          100   0.081    1.000
# 2      dist(var1, var2)          100   0.246    3.037

在这种情况下,fast.dist比dist大约快3倍.然而,在N增长的同时,相对加速将会下降.

还要注意,正如评论中提到的,dtw可以自己计算距离矩阵.然而,预先计算距离矩阵更有效.见下面的快速测试：

cxdist <- fast.dist(var1,var2)
benchmark(dtw(cxdist)$distance, dtw(var1,var2)$distance, order="relative")[,1:4]
#                       test replications elapsed relative
# 1     dtw(cxdist)$distance          100   0.476    1.000
# 2 dtw(var1, var2)$distance          100   0.736    1.546

此外,如果你只对$distance感兴趣,你可以将distance.only = T传递给dtw() – 它可以提高速度.