nlp – “话语向量”在单词/句子嵌入中意味着什么？

2023年5月17日 312次阅读

当我阅读下面的论文时,我得到了一个问题,即话语向量是什么.以及如何组成这个向量.

> S.Arora(TACL 2016)：基于PMI的词嵌入的潜变量模型方法
> S.Arora(ICLR 2017)：句子嵌入的一个简单但难以击败的基线

在本文中,它说,
“话语向量表示正在谈论的内容”

但我不清楚.

总之,我的问题是

>话语向量意味着什么;它是主题或上下文还是其他什么？
>那么如果是这样,我们如何创建这个向量？
>这个向量如何学习？还是修好了？

最佳答案以下是Sanjeev Arora撰写的文章“Word Senses的线性代数结构,应用于多义词”的段落.

它假定在语料库中的每个点都有一个微观主题(“被讨论的内容”)称为话语
来自ℜd中单位向量的连续体.模型的参数包括每个字w的向量Vw∈d.每个话语’c’定义了单词Pr [w | c]αexp(c·Vw).该模型假设语料库是由cd中单位球体上c的缓慢几何随机游走产生的：当步行在c时,i.i.d发出几个单词.来自分布(2)的样本,由于其对数线性形式,强烈倾向于在余弦相似性中接近c的单词.

每个话语都是主题.作者已在论文中将主题修改为2000.

修正话语向量的一种方法可以是作为估计(MLE)的相邻字向量的简单平均值.
通过采用相邻单词的加权组合(通常为tf-idf)可以改善这种朴素句子嵌入.

论文使用窗口中单词嵌入的加权平均值,较小的权重用于更频繁的单词(让人联想到tf-idf),称为SIF嵌入,以便更好地估计话语.