当我阅读下面的论文时,我得到了一个问题,即话语向量是什么.以及如何组成这个向量.
> S.Arora(TACL 2016):基于PMI的词嵌入的潜变量模型方法
> S.Arora(ICLR 2017):句子嵌入的一个简单但难以击败的基线
在本文中,它说,
“话语向量表示正在谈论的内容”
但我不清楚.
总之,我的问题是
>话语向量意味着什么;它是主题或上下文还是其他什么?
>那么如果是这样,我们如何创建这个向量?
>这个向量如何学习?还是修好了?
最佳答案 以下是Sanjeev Arora撰写的文章“Word Senses的线性代数结构,应用于多义词”的段落.
它假定在语料库中的每个点都有一个微观主题(“被讨论的内容”)称为话语
来自ℜd中单位向量的连续体.模型的参数包括每个字w的向量Vw∈d.每个话语’c’定义了单词Pr [w | c]αexp(c·Vw).该模型假设语料库是由cd中单位球体上c的缓慢几何随机游走产生的:当步行在c时,i.i.d发出几个单词.来自分布(2)的样本,由于其对数线性形式,强烈倾向于在余弦相似性中接近c的单词.
每个话语都是主题.作者已在论文中将主题修改为2000.
修正话语向量的一种方法可以是作为估计(MLE)的相邻字向量的简单平均值.
通过采用相邻单词的加权组合(通常为tf-idf)可以改善这种朴素句子嵌入.
论文使用窗口中单词嵌入的加权平均值,较小的权重用于更频繁的单词(让人联想到tf-idf),称为SIF嵌入,以便更好地估计话语.