数据标准化体系的建立企业信息资源管理(IRM)基础标准是指决定企业信息系统质量的、因而也是企业信息资源开发利用的最基础的标准,包括数据元素标准、信息分类编码标准、用户视图标准、概念数据库标准和逻辑数据库标准。
1.1 数据元素标准数据元素(Data Elements)是最小的、不可再分的信息单元,其标准化具有化学元素在化学世界中的重要意义。
本项目要建立的数据元素标准,除了遵循国家与行业标准外,还要从本企业信息化的需要做补充,并且用工具软件来支持其建立和管理应用。
数据元素命名规范:采用词组结构“修饰词-基本词-类别词”命名数据元素。
例.“社会保险编号”(SOCIAL-SECURITY-NUMBER)是一个数据元素,其结构是:类别词基本词修饰词类别词(Class Word)是数据元素命名中的一个最重要的名词,用来识别和描述数据元素的一般用途或功能,一般不具有行业特征,条目比较少。
常用的类别词有:数量(AMOUNT)名称(NAME)编号(NUMBER)代码(CODE)系数(CONSTANT)百分比(PERCENT)计数(COUNT)正文(TEXT)日期(DATE)时间(TIME)…………….基本词(Prime Word)是类别词的最重要的修饰词,它对一大类数据对象进一步分类(反映小类数据对象),一般具有行业特征,条目比较多。
例如,制造业常用的基本词有:会计(ACCOUNTING)预算(BUDGET)雇客(CUSTOMER)分配(DISTRIBUTION)员工(EMPLOYEE)工程(ENGINEERING)设备(FACILITY)库存(INVENTORY)制造(MANUFACTURING)市场(MARKET)税金(TAX)订单(ORDERS)付款(PAYMENTS)计划(PLANNING)采购(PROCUREMENT)产品(PRODUCT)研究(RESEARCH)销售(SALES)供应商(SUPPLIER)…………………..数据元素标识规范:采用英文缩略语标识数据元素。
例.社会保险号码可标识为:SCL_SCR_NO。
利用数据元素的命名规范和标识规范,识别定义出企业的所有数据元素,并执行一致定控制,消除“同名异义”和“同义异名”的对象,就构成了一个企业的数据元素标准。
1.2 信息分类编码标准信息分类编码(Information Classifying and Coding)是标准化的一个领域,已发展成了一门学科,有自身的研究对象、研究内容和研究方法。
在工业社会中,信息分类和编码是提高劳动生产率和科学管理水平的重要方法。
美国新兴管理学的开创者莫里斯L·库克(Morris L· Cooker)说:“只有当我们学会了分类和编码,做好简化和标准化工作,才会出现任何真正的科学的管理”。
在信息化时代,信息的标准化工作越来越重要,没有标准化就没有信息化,信息分类编码标准是信息标准中的最基础的标准。
信息分类编码简称“代码”,本项目要实现代码唯一化,即“一人一码”,“一物一码”,“一机构一码”,“一事件一码”,等等。
信息分类就是根据信息内容的属性或特征,将信息按一定的原则和方法进行区分和归类,并建立起一定的分类系统和排列顺序,以便管理和使用信息。
信息编码就是在信息分类的基础上,将信息对象(编码对象)赋于有一定规律性的、易于计算机和人识别与处理的符号。
具有分类编码意义的数据元素是最重要的一类数据元素。
应遵照《GB/T 20529.1-2006 企业信息分类编码导则第1部分:原则与方法》和有关于信息分类编码的标准规定,按照“国际/国家标准—行业标准—企业标准”的序列原则,引用或建立的信息分类编码标准。
编码对象的分类要求按照信息资源规划的方法,将信息分类编码对象划分为A、B、C三种类型,建立企业信息分类编码标准,是适合企业信息化建设需要的。
A类编码对象:在信息系统中不单设编码库表,代码表寓于主题数据库表之中的信息分类编码对象,称之为A类编码对象。
这类编码对象具有一定的分类方法和编码规则,其码表内容一般随信息的增加而逐步扩充,很难一次完成。
虽然不单设编码库表,但其码表可以从数据库表中抽取出来作为一个虚表(是数据库表的一个投影)在信息系统中使用。
这类编码对象一般在具体的应用系统中有较多的使用。
如身份证号码(国家标准),客户编码、职工编码、设备编码(企业标准)等,都是A类编码。
B类编码对象:在信息系统中单独设立编码库表信息分类编码对象,我们称之为B类编码对象。
这类码表内容具有相对的稳定性,可以组织力量一次编制出来。
这类编码表一般都较大,像一些数据库表一样,在应用系统中往往被多个模块所共享,作为一些单独的库表管理是方便的。
如国家行政区划编码、职称编码(国家标准)、生产统计项目编码(行业标准)、设备配件编码(企业标准)等等,都是B类编码。
C类编码对象:在应用系统中有一些码表短小而使用频度很大的编码对象,如人的性别代码、文化程度代码和婚姻状况代码等等,如果都设立编码库表,不仅系统运行时资源开销大(或内外存交换编码信息频繁),还给系统管理带来一系列的问题,把这类对象统一设一个编码库来管理就可以了。
按上述规则识别、定义、列出企业所有各类编码对象,对每一编码对象制定编码规则,并按编码规则编制列出“代码-名称”一览表,即为企业的信息分类编码标准。
1.3 用户视图标准用户视图(User View)是一些数据元素的集合,它反映了最终用户对数据实体的看法。
用户视图是数据在系统外部(而不是内部)的样子,是系统的输入或输出的媒介或手段,数据流就是用户视图的流动。
常见的用户视图有:输入的表单;打印的报表;更新的屏幕数据格式;查询的屏幕数据格式。
企业要建立网络化的信息系统,就要取消大量的报表信息传递,为此,需要分析用户视图,建立用户视图标准。
用户视图登记:用户视图登记应包括用户视图名称、用户视图分类编码、用户视图记录数和生存期等。
a)用户视图名称:用一短语表示用户视图的意义和用途。
b)用户视图分类编码规则:DXX X X XX X族码序号小类编码大类编码职能域编码其中:——大类按用户视图流向分类,编码取值:1=输入,2=存储,3=输出;——小类按用户视图类型分类,编码取值:1=单证,2=账册,3=报表,4=其它;——序号是指同一大类、小类中的用户视图的顺序,编码取值:01~99;——族码是指同一用户视图拆分出的部分子视图编码,取值:A~Z。
用户视图组成:用户视图应由数据项/数据元素及其结构关系组成。
复杂的用户视图应做规范化分析,如复杂报表应拆分,描述每一部分的组成。
1.4 概念数据库标准概念数据库(Conceptual Database)是最终用户对数据存储的看法,是对用户信息需求的综合概括。
简单说,概念数据就是主题数据库的概要信息。
概念数据库一般用数据库名称及其内容的描述来表达:概念数据库标识,概念数据库名称(信息内容描述)其中:概念数据库标识:用字符串(英文缩略语)表达;概念数据库名称:通常的汉语名词;信息内容描述:用自然语言(中文)或数据项/属性列表描述。
例:“机构”和“员工”概念数据库:ORGN 机构(机构代码,机构名称,机构基本信息)EMPL 员工(员工代码,姓名,自然信息,简历,培训记录,…)1.5 逻辑数据库标准逻辑数据库(Logical Database)是系统分析设计人员的观点,是对概念数据库的进一步分解和细化,一个逻辑主题数据库由一组规范化的基本表(Base Table)构成。
基本表是按规范化的理论与方法建立起来的数据结构,一般要达到三范式(3-NF)。
逻辑数据库用下述格式表示:逻辑数据库标识,逻辑数据库名称(主键,属性表)基本表i标识,基本表i名称(主键,属性表)(i = 1,2,… n)其中:逻辑数据库标识和逻辑数据库名称:即一级基本表的标识和名称,采用概念数据库的标识和名称;基本表i标识和基本表i名称:即二级基本表的标识和名称,一个逻辑数据库可包括多个二级基本表(i=1,2,…,n),二级基本表的标识主部与一级基本表标识相同,后缀可用字符串(汉语拼音或英文)表达;二级基本表名称,继承一级基本表名称再增加注明的缩略语;属性表:每一属性由数据元素标识和数据元素名称表示,属性间用逗号分开;主键:用相应属性标识表示,多个属性标识用加号连接。
例.“机构”和“员工”逻辑数据库的简化E-R 图表达法:图 5.1 简化E-R 图表达法1.6 信息资源管理基础标准的建设信息资源管理基础标准的建设,可以在信息资源规划过程中进行,并在相关的应用系统建设之前(或前期)完成。
具体说,在对用户视图做调研和规范化分析时,从用户视图的组成中,就可以提取数据元素和识别信息分类编码对象,这实际上就开始了用户视图、数据元素和信息分类编码的标准化工作;而按业务主题对用户视图分组,识别定义概念主题数据库,进而细分概念主题数据库为一组基本表,这实际上就开始了概念数据库和逻辑数据库的标准化工作。
这就是说,主键:员工代码+起始日期 员工代码,起始日期,结束日期,培训地点,培训课程,…… ORGN 机构基本信息 ORGN_LD 领导班子 ORGN_MM 机构成员 EMPL 员工基本信息EMPL_RS 员工简历 EMPL_TR 培训记录 主键:机构代码机构代码,机构名称,成立日期,人员总数,…… 主键:机构代码+职务代码机构代码,职务代码,任命日期,员工代码,…… 主键:机构代码+员工代码机构代码,员工代码主键:员工代码 员工代码,员工姓名,出生日期,学历代码,…… 主键:员工代码+起始日期 员工代码,起始日期,结束日期,所在单位,…… …… ……不需要脱离信息资源规划工作,另组织一些人去专搞数据标准化工作;参与信息资源规划、开始做起数据标准化工作的人员,在应用开发之前、或前期继续做好数据标准化工作,并作为数据管理员一直支持应用开发和维护工作,将是最有效的数据标准化建设队伍的组建思路。
图5.2 为信息资源管理基础标准框架,其中的数字只是一般企业的预研估计值,具体数值将在信息资源规划实施过程中给出。
图5.2 信息资源管理基础标准示例该套数据标准化体系,需要分三个阶段逐步建设:第一阶段:信息资源规划需求分析时,重点识别数据元、信息分类编码对象和用户视图规范化;第二阶段:信息资源规划系统建模时,重点完成概念数据库和逻辑数据库标准;第三阶段:信息工程实施方案研发时,重点完成五部分标准规范的关联性分析和整体优化,并在后续数据库和应用软件工程实施过程中进一步调整优化完善。
1.7 非结构化数据的存储与处理标准随着信息化手段的日益丰富,支撑应用的数据形式也越来越多样化,不仅有传统的结构化数据,还出现了大量非结构化数据、半机构化的数据。