NLP+KG名词解释（持续更新，欢迎补充）

2023年11月13日 1,139次阅读来源: TtC的WH

关系分类（relation classification）：关系分类，又叫关系抽取，就是我有一句话，这句话的两个实体已经标记出来了，那么关系分类就是要找出这句话是描述的这两个实体的什么关系。

远程监督（distant supervision）：用来自动标注语料生成有标记的训练样本。就是把知识库与非结构化文本对齐，只要某个句子含有对应的实体对，就认为这个句子描述的就是知识库里的关系。会有严重的噪音问题。

bag-level prediction：在bag层面上进行关系分类，对应上面的远程监督，就是把所有相同实体对的句子都分到一个bag里然后映射到一个关系，这样的话就可以认为虽然我bag里有很多噪音，但bag的标签是对的。这样的话就不是处理句子看句子是不是描述实体之间的这个关系，而是只能知道两个实体之间是否存在这样的关系。这里应用到的思想就是multi-instance learning。

sentence-level prediction：对应上面的bag-level，sentence-level是对每个句子进行关系抽取。

attention机制：多用于bag-level关系分类模型，大概就是给bag里valid instance赋予更大的权重，给noisy instance更小的权重。

本体学习（Ontology learning）：从原始自然语言文本中（半）自动生成本体知识库。

Bootstrapping : 先从文档中找出包含种子实体的句子，再抽取出实体对和表达关系短语pattern，根据这个pattern去文档中匹配新的潜在关系三元组，迭代多轮直到不符合条件。

事件抽取（event extraction）：从自然语言中抽取出用户感兴趣的事件信息,并以结构化的形式呈现出来,例如事件发生的时间、地点、发生原因、参与者等。包括识别事件触发词（trigger）及事件类型，抽取事件元素（arg role）同时判断其角色，抽出描述事件的词组或句子。

链接预测（link prediction）：预测目标实体，具体用的时候就是给目标实体排序，metrics一般是MRR和Hit@n。

事实预测（fact prediciton）：预测一个未知fact是否为真。

关系推理（relation reasoning）：寻找实体对在KG中的可靠路径（由关系组成），路径一般为多跳（multi-hop）。

    原文作者：TtC的WH
    原文地址: https://zhuanlan.zhihu.com/p/32475093
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。