数据库是某个单位或部门所涉及数据的综合,它不仅要反映数据本身的内容,而且要反映数据之间的联系。计算机是不可能直接处理现实世界的具体事物的,所以必须事先把具体事物转换成计算机能够处理的数据。在数据库中用数据模型来抽象、表示和处理现实世界中的数据和联系,也就是说,用数据模型来模拟现实世界。数据模型是数据库系统的核心和基础,各种计算机上实现的DBMS软件都是基于某种数据模型而开发的。
1.2.1数据的三个范畴
数据表示信息,信息反映事物的客观状态。数据、信息、物质三者之间相互联系,自成一体。而从事物的状态到表示该状态的数据,经历了三个不同的世界,即现实世界、信息世界和计算机世界(数据世界)。为了把现实世界中的具体事物抽象、组织为某一DBMS所支持的数据模型,首先要将现实世界抽象为信息世界,然后将信息世界转换为计算机世界。也就是说,首先把现实世界中的客观对象抽象为某一种信息结构,这种信息结构并不依赖于具体的计算机系统,它不是某一个DBMS所支持的数据模型。
现实世界事物之间的联系最后可以用计算机和数据库所能理解的表现的形式反映到数据库中,这是一个从现实世界到信息世界再向计算机世界逐步转化的过程。无论从现实世界到信息世界,还是从信息世界到计算机世界的转化,每一次转化都是一次新的提升和加工过程,都是一次新的飞跃。
1现实世界
现实世界是指客观存在的事物及相互间联系。世界上的事物虽千差万别,每种事物均具有各自的特征,但彼此之间相互区别又相互联系。
我们可以用事物的特征来将不同的事物区别开来,提取所需信息。如在学生信息管理中,学生的特征可用学号、姓名、性别、出生日期和简历等来表示;而在企业人事管理系统中,职工的特征可用用单位号、姓名、性别、身份证号、政治面貌和社会关系等来表示。选取的特征完全由具体需求而定。同时,事物之间的联系也是很丰富的,通常选取那些对我们来说有用的信息。例如,在一个学校中,人与人之间有很多关系,教师之间就有同一个系、同一个教研室、同一课题组、上级与下级关系。然而,在教研室的管理中,我们最关心的关系是同一个教研室的关系;在科研管理中,最关心的 是同一课题组的关系。要想让现实世界在计算机世界的数据库中得以实现,重要的就是将那些最有用的事物特征及其相互间的联系提取出来。
客观事物是信息的来源,设计数据库的出发点。
2信息世界
信息世界是现实世界在人脑中的反映 ,是对客观事物及其联系的一种抽象描述。将现实世界中的事物及其相互之间联系经过收集、分析、抽象等过程,形成概念模型。概念模型是对信息世界的描述,介于现实世界与计算机世界之间,起着承上启下的作用。信息世界的主要概念ru:
1)实体(Entity),将现实世界中客观存在的、能够相互区分的事物经过加工、分类,抽象成为信息世界的实体。它可以是事物,也可以是事物间的联系,可以是具体的,也可是抽象的,如一个学生、一门课程、一次考试或一次比赛等。同一类实体的集合成为实体集。
2)属性(Attribute),现实世界中事物的特征,即实体的特征,用属性表示。例如,学生这个实体可以用学号、姓名、性别、身份证号、出生日期、系和年级等属性来描述。用这些属性的具体值就可以描述一个具体实体。
3)关键字(Key),如果某个属性或属性组合的值能够唯一的标识出实体集中的每一个实体,那么该属性或属性组合就可被选做关键字。用于标识的关键字也称为码。
4)联系(Relation),实体集之间的对应关系称为联系,它反映现实世界中事物之间的相互关联。例如,学生通过选课和课程联系起来。
3计算机世界
计算机世界即数据世界。可用DBMS支持的数据模型来描述该世界,它将概念中的实体与实体之间的联系进一步抽象成便于计算机识别的方式。在计算机世界中用到的术语如下:
1)数据项,是实体、属性的数据表示。例如学号、姓名都是数据项。
2)记录,是实体的数据表示,由若干数据项组成。
3)文件,是同类记录的集合。一个文件包含的都是同类型记录。
4)数据模型。在计算机世界中,记录和记录之间的联系就是数据模型,该模型是结构数据模型,其包括层次模型、网状模型和关系模型,其中关系模型是目前应用最广泛和最成熟的数据模型。