知识图谱简介(四)——建立本体库

摘要

本体(Ontology)作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,已被广泛应用于知识工程、系统建模、信息处理、数字图书馆、自然语言理解、语义web等领域中。

知识图谱分为数据层和模式层,数据层是由一系列事实数据构成,而模式层则用来从数据中构建实体、属性、关系,是知识图谱的核心。本体库被广泛用于构建知识图谱数据层,由本体库构建的知识图谱冗余较小 ,结构层次强。因此掌握建立领域内本体库的方法,对于构建知识图谱十分重要。

领域本体的构建方法是热门研究问题,但是领域内本体创建还缺乏系统的、工程化的方法。本文给出一些一般化的构建方法。

本体相关理论

定义

本体又称为实体,源自于形而上学的哲学分支,它对客观世界的事物进行分解,发现其基本的组成部分,进而研究客观事物的抽象本质。后来工程学者借用此概念,在开发系统时用于领域知识的获取。

简而言之,本体是用于描述一个领域的数据集合,是知识库的骨架。

本体的具体构造过程,可以用以下公式形象地表示:

《知识图谱简介(四)——建立本体库》《知识图谱简介(四)——建立本体库》

可以归纳本体的五个基本构成元素:类(Class)或概念(Conception),关系(Relations),函数(Functions),公理(Axioms),实例(Instance)。

从语义上来讲,最基本的关系有4种:

基本关系种类

关系名关系描述
part-of部分与整体的关系(发动机是汽车组成部分)
kind-of概念之间的继承关系(轿车是运输工具的一种)
instance-of实体与概念之间的关系(奥迪是轿车这个概念的实体)
attribute-of某个概念是另一个概念的属性(颜色是汽车的属性)

 

构建领域本体

领域本体(Domain Ontology)是用于描述指定领域知识的一种专门本体。有手工构建、半自动构建(复用已有本体)、自动构建三种方式。

本体设计原则

  • 明确性和客观性:本体应该用自然语言对所定义术语给出明确的、客观的语义定义。
  • 完全性:定义完整,能完全表达所描述术语的含义。
  • 一致性:术语得出的推论与术语本身含义是相容的,不会产生矛盾。
  • 最大单调可扩展性:向本体中添加通用或专用术语时,不需要修改其已有内容。
  • 最小承诺:对待建模对象给出尽可能少的约束。
  • 最小编码偏差:本体的建立应尽可能独立于具体编码语言。
  • 兄弟概念间的语义差别应该尽可能小。
  • 使用多样的概念层次结构实现多继承机制。
  • 尽可能使用标准化的术语名称。

构建领域本体步骤

1.确定领域本体的专业领域和范畴

先确定本体所将覆盖的专业领域、范围和应用目标,本体应该在哪些方面发挥作用以及它的系统维护者与应用对象。给出限制有利于复杂系统的实现。

2.考虑复用现有的本体

本体主要作用就是解决知识共享和复用的问题,所以在设计和建立自己的领域本体之前,应该考虑重用已存在的本体。

3.列出本体设计领域中的重要术语

列举出该领域中所有概念以及对概念的详细解释。在特定领域这些概念就是与领域相关的专业术语,把领域中重要术语列出来,有利于知识工程师更好地理解本体建立的目标,除此之外针对概念要列出所有可能属性,每个属性都有对应属性值。

4.定义分类概念和概念分类层次

概念分类层次将领域概念进行分类组织,用于描述领域概念中的类属关系(kind-of继承关系),并将本体中的概念模块化。建立分类概念的层次结构有三种可行方法:自顶向下法、自底向上法和综合法。

本体分类组织最后可以形成一个本体的树形结构,这种结构就清晰地表达了本体之间的类属关系。每一个子树对应着领域中独立的、模块化的知识模型。领域分类概念应该包括:概念名称,语义描述,该概念可能的同义词、缩略语。定义分类概念,就是对这些信息进行描述,同时要对所建立的概念分类层次进行检验,保证没有重复的概念,防止冗余定义。

5.定义概念之间的关系

除了上面提到的类属关系,本体之间的其他关系还需要定义。

构建领域本体的方法

常用方法的成熟度依次为:七步法、Methontology方法、IDEF-5法、TOVE法、骨架法

    原文作者:yuanl15
    原文地址: https://blog.csdn.net/yuanl15/article/details/90547442
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞