关系分类(relation classification):关系分类,又叫关系抽取,就是我有一句话,这句话的两个实体已经标记出来了,那么关系分类就是要找出这句话是描述的这两个实体的什么关系。
远程监督(distant supervision):用来自动标注语料生成有标记的训练样本。就是把知识库与非结构化文本对齐,只要某个句子含有对应的实体对,就认为这个句子描述的就是知识库里的关系。会有严重的噪音问题。
bag-level prediction:在bag层面上进行关系分类,对应上面的远程监督,就是把所有相同实体对的句子都分到一个bag里然后映射到一个关系,这样的话就可以认为虽然我bag里有很多噪音,但bag的标签是对的。这样的话就不是处理句子看句子是不是描述实体之间的这个关系,而是只能知道两个实体之间是否存在这样的关系。这里应用到的思想就是multi-instance learning。
sentence-level prediction:对应上面的bag-level,sentence-level是对每个句子进行关系抽取。
attention机制:多用于bag-level关系分类模型,大概就是给bag里valid instance赋予更大的权重,给noisy instance更小的权重。
本体学习(Ontology learning):从原始自然语言文本中(半)自动生成本体知识库。
Bootstrapping : 先从文档中找出包含种子实体的句子,再抽取出实体对和表达关系短语pattern,根据这个pattern去文档中匹配新的潜在关系三元组,迭代多轮直到不符合条件。
事件抽取(event extraction):从自然语言中抽取出用户感兴趣的事件信息,并以结构化的形式呈现出来,例如事件发生的时间、地点、发生原因、参与者等。包括识别事件触发词(trigger)及事件类型,抽取事件元素(arg role)同时判断其角色,抽出描述事件的词组或句子。
链接预测(link prediction):预测目标实体,具体用的时候就是给目标实体排序,metrics一般是MRR和Hit@n。
事实预测(fact prediciton):预测一个未知fact是否为真。
关系推理(relation reasoning):寻找实体对在KG中的可靠路径(由关系组成),路径一般为多跳(multi-hop)。