来源:《中文信息处理报告》
知识表示
对客观世界知识进行
建模,让
机器识别和
理解, 要考虑到的因素是知识的
表示,存储,使用,运算。
要解决的关键问题是 1)建立什么样的知识
表示形式能够准确地
反映客观世界的
知识; 2)建立什么样的知识表示可以具备
语义表示能力;
【啥叫语义表示?】 3)知识表示如何支持高效
知识推理和
计算,从而使知识表示具有得到新知识的推理能力。
当前的主流技术
符号主义
1) 基础假设 其基础是纽威尔和西蒙提出的
物理符号系统假设,认为人类认知和思维的
基本单元是
符号,而
认知过程就是在符号表示上的
运算。 2) 历史 逻辑表示与人类的自然语言比较接近,因此它也是
最早使用的一种知识表示方法。 3) 子类 主要包括逻辑表示法(如一阶逻辑、描述逻辑),产生式表示法和框架表示 4) 优缺点 基于符号逻辑的知识表示技术虽然可以
很好地
描述逻辑推理,但是由于在推理中
机器生成规则的能力
很弱,推理规则的获取需要
大量的人力,并且对
数据的质量要求较高。在目前大规模数据时代,基于符号逻辑的知识表示已经
不能很好地解决知识表示的问题。 基于符号逻辑的知识表示使知识具有
现实的语义定义,但存在
数据稀疏问题,难以实现大规模的知识图谱应用。
- 语义网
Tim Berners-Lee 在其著作《Waving the Web》中提出了
语义网(Semantic Web)的概念。在语义网中,
网络内容都应该
有确定的意义,而且可以很容易地被计算机理解、获取和集成。 万维网内容知识表示包括 半结构基于标记的置标语言 XML2:
XML 将网页样式与内容分离,通过为内容置标,便于数据交换; 基于 RDF3万维网资源语义元数据描述框架:
RDF 通过三元组(主体,谓词,客体)描述互联网资源之间的语义关系; 基于描述逻辑的 OWL4本体描述语言:
互联网语义资源的 OWL 构建在 RDF 之上,是具有更强表达及其解释能力的语言。
基于三元组的知识表示方法:当前在工业界得到大规模应用。
联结主义
1)基础假设 其假设人的认知就是相互联系的具有一定活性值的
神经单元所形成
网络的
整体活动,知识信息不存在于特定的地点,而是在神经网络的
联结或者
权重中。 2)
表示学习
表示学习的目标是通过机器学习或深度学习将研究对象的语义信息表示为稠密低维的向量。基于深度学习的知识表示可以将知识单元(实体、关系和规则)映射到低维的连续实数空间表示,方便知识计算。
表示学习主要包括张量重构和势能函数的方法:张量重构综合整个知识库的信息,但在大数据环境下张量维度很高,重构的计算量较大;势能函数方法认为关系是头实体向尾实体的一种翻译操作,Bordes 等人提出的 TransE 模型是翻译模型的代表。之后有大量的工作对 TransE 进行扩展和应用,如通过优化向量化表示模型、结合文本等外部信息、应用逻辑推理规则等方法,这些方法进一步提升了表示学习效果。
趋势
研究融合表示学习与符号逻辑的知识表示理论,使知识既具有显式的语义定义,又便于大数据下的知识计算与推理是知识图谱知识表示一个有前景的研究问题