我正在尝试使用MFCC,它们的增量和delta-delta构建语音的基本情感检测器.许多论文都谈到通过培训这些功能的GMM来获得良好的准确性.
我似乎无法找到一个现成的包来做同样的事情.我确实在Python,Voicebox和Matlab和Rmixmod中的类似工具包,stochmod,mclust,mixtools和R中的其他一些软件包中使用scilearn.什么是从训练数据中计算GMM的最佳库?
最佳答案 具有挑战性的问题是训练数据,其中包含嵌入在特征集中的情绪信息.在测试信号中应使用封装情感的相同功能.使用GMM进行的测试只会作为您的通用背景模型.根据我通常使用GMM的经验,您只能将男性女性和一些独特的扬声器分开.简单地将MFCC喂入GMM是不够的,因为GMM不保留随时间变化的信息.由于情绪语音除了频率变化MFCC参数之外还包含时间变化参数,例如音调和音调随时段的变化.我并不是说目前的技术水平不可能,而是以一种好的方式挑战.