当前位置:文档之家› 数据采集与分析

数据采集与分析

审计数据采集与分析技术计算机审计的含义•计算机审计有3层含义:–面向数据的审计–面向现行信息系统的审计–对信息系统生命周期的审计面向数据的计算机审计流程•审前调查:电子数据的组织、处理和存储•数据采集:审计接口、数据库访问技术、数据采集技术•数据清理、转换、验证、建立中间表•数据分析:数据分析技术、SQL、审计软件•审计取证一、审前调查及电子数据的组织、处理和存储1.审前调查的内容和方法•对组织结构调查•对计算机信息系统的调查•提出数据需求2.电子数据的组织、处理和存储电子数据处理的特点•存储介质改变•基于一定的数据处理平台,有一定的数据模型•数据表示编码化(各种编码)•带来系统控制和数据安全性的新问题•审计线索改变如何表示数据•数据类型与数据取值–数据类型决定了取值范围与运算范围•数据模型–数据模型是对现实世界数据特征的抽象–它提供模型化数据和信息的工具数据模型的2个层次••概念模型–E-R模型的要素•实体:客观存在并可以相互区分的事物,用方框表示•属性:实体的特征或性质,用椭圆表示•联系:实体之间的联系,用菱形表示•数据模型–关系模型–层次模型–网状模型数据模型的3个要素•数据结构–描述模型的静态特征–是刻画数据模型最重要的方面•数据操作–描述模型的动态特性•数据检索•数据更新(增加、删除、修改)•约束条件–一组完整性规则的集合•实体完整性•引用(参照)完整性•用户定义的完整性关系模型•关系模型是目前最常用的一种数据模型•关系数据库采用关系模型作为数据的组织方式•关系模型建立在严格的关系代数基础之上•关系模型概念单一,用关系表示实体以及实体之间的联系•关系数据库的标准语言SQL是一种非过程化语言,使用方便关系模型的数据结构•关系–一张二维表,每一列都不可再分–表中的行、列次序并不重要•元组–二维表中的每一行,相当于一条记录•属性–二维表中的每一列,属性有名称与类型。

–属性不可再分,不允许重复•主键–由表中的属性或属性组组成,用于唯一确定一条记录•域–属性的取值范围•关系模式–记录结构的描述,对应关系表的表头关系模型的数据运算•传统的集合运算–并(UNION)–交(INTERSECTION)–差(MINUS)–笛卡儿积•专门的关系运算–选择(SELECTION)–投影(PROJECT)–连接(JOIN)•连接的含义:相容属性之间的关系•连接的类型(内连接、外连接、自然连接)―数据文件‖的含义•―数据文件‖泛指各种用来存储数据的文件。

–在数据库技术诞生之前,它指的是存放数据的文件本身。

–数据库技术诞生后,数据由DBMS管理,数据文件是存放物理数据库的载体。

•不同的DBMS存储数据的方式是不同的。

–FoxPro-一个逻辑上的表对应一个―库文件‖(.dbf)–Access-所有的数据库对象放在一个数据库文件中(.mdb)–IBM DB2-一张表的数据可能分别放在不同的数据文件中•除了DBMS产生和维护的数据文件之外,还有很多应用程序管理的数据文件,如各种临时文件、数据交换文件等。

关系模型的完整性约束条件•实体完整性(Entity Integrity)——关键字属性的组成部分不能为空值•参照完整性(Referential Integrity)——参照表中的外关键字要么取空值,要么取被参照表中的某一主关键字的值•用户定义完整性(User-Defined Integrity )——具体应用环境的完整性约束,反映了某一具体应用所涉及的数据应满足的语义要求关系模型的特点•关系模型的概念单一–实体以及实体之间的联系都用关系来表示。

–关系之间的联系则是通过相容(来自同一个域)的属性来表示。

•关系必须是规范化的关系–最基本的要求是每一个分量是一个不可分的数据项,亦即不允许表中还有表(满足第一范式,1NF)•在关系模型中,用户对数据的检索操作不过是从原来的表中得到一张新的表生命周期法的6个阶段•需求分析•概念结构设计•逻辑结构设计•物理数据库设计•数据库实施•运行维护数据库设计方法(1)面向数据的方法,以信息需求为主,兼顾处理需求;(2)面向过程的方法,以处理需求为主, 兼顾信息需求需求分析需求分析的重点是获得两方面的需求:(1)信息需求定义未来信息系统使用的全部信息,了解各项数据间的本质联系,描述数据的内容和结构以及它们之间的联系等。

(2)处理需求定义未来信息系统数据处理的功能及功能与数据之间的联系。

同时考虑性能、安全性和完整性约束。

自顶向下的结构化分析方法•自顶向下的结构化分析方法是需求分析阶段的一种常用方法。

它的核心思想是:自顶向下逐层分解,直到每一项功能都可以被容易地实现为止。

•SA方法中要用到数据流程图(Data Flow Diagram, DFD)来描述数据的处理过程。

数据流图是从―数据‖和―处理‖两方面来表达数据处理过程的一种图形化的表示方法。

数据字典•数据字典是在系统设计过程中对各类基本要素进行描述的集合。

它是描述系统逻辑模型的重要工具。

数据字典的组成部分:–数据项–数据结构–数据流–数据存储–处理过程•其中数据项是数据的最小组成单位,若干个数据项可以组成一个数据结构,数据字典通过对数据项和数据结构的定义来描述数据流和数据存储的内容。

数据库表结构定义概念结构设计的策略•自顶向下:首先定义全局概念结构的框架,再做逐次细化。

•自底向上:首先定义每一局部应用的概念结构,然后按一定的规则把它们集成起来,得到全局概念结构。

•由里向外:首先定义最重要的那些核心结构,再逐渐向外扩充。

•混合策略:把自顶向下和自底向上结合起来的方法。

它先自顶向下设计一个概念结构的框架。

然后以它为骨架再自底向上设计局部概念结构,并把它们集成起来。

用E-R方法进行概念结构设计的简要步骤•设计局部E-R模型•将局部E-R模型集成为全局E-R模型–属性冲突–命名冲突–结构冲突•对全局E-R模型进行优化逻辑结构设计的步骤•形成初始关系数据库模式•关系模式规范化和优化•外模式设计–提供了数据的逻辑独立性–能适应用户对系统的不同需求–具有一定的安全保密作用索引设计•聚簇设计二、审计接口什么是审计接口是从被审计信息系统向审计应用系统传送审计信息的规范和程序。

接口包含两方面内容:–传送数据的格式和规范–完成传送作业的程序数据传递的方式:–系统内部多采用参数或共享数据来完成–系统与系统之间传递信息需要开发专用的数据接口审计接口的分类–按接口的用途划分,可以分为通用接口和专用接口;–按接口与源系统和目标系统的耦合程度划分,可以分为强耦合接口、弱耦合接口和一般耦合接口;–按接口中数据传输的频率来划分,可以分为实时接口与周期性接口。

审计接口的分层模型接口可以分为3层–逻辑层:表示信息含义的语言,对信息的含义进行定义和描述;–传输层:载运信息语言的方式,选择最合适的方式完成源系统到目标系统的信息传输;–控制层:控制信息交换过程的规程,保证信息传输的适时性、正确性和有效性。

逻辑层•又称为接口标准•描述接口标准的语法必须没有二义性传输层的实现形式•被审计单位信息系统和审计系统之间采用数据库连接件通过计算机网络直接相连。

•被审计单位信息系统和审计应用系统采用交换文件传输数据。

控制层—数据验证•核对总记录数、总金额•检查借贷是否平衡•顺序码断号、重号验证•检查勾稽关系三、审计数据采集O D B C驱动程序•基于文件的驱动程序–既处理ODBC调用也处理SQL语句–依据其访问数据的存取方式还可以分为两种•直接存取数据•采用客户机/服务器模式•基于DBMS的驱动程序–只处理ODBC调用–把SQL语句的处理交给数据库引擎–通过单独的引擎访问物理数据–既可以和数据源存储在同一个机器上,也可以分别存储在网络中的不同机器上,甚至可以通过网关访问。

O D B C数据源•机器数据源–存储在由用户定义名字的系统上–可以分为用户数据源和系统数据源•文件数据源–存储于一个文件中–允许连接信息由一个用户重复使用或者由几个用户共享–驱动程序管理器用.dsn文件中的信息连接数据源–这个文件可以像其他任何文件一样操作–一个文件数据源没有数据源名,并且它不注册到任何用户或机器上O D B C的使用1.创建ODBC数据源不同的驱动程序提供的ODBC数据源配置界面不同2.使用ODBC获取数据–在审计软件中使用–在DBMS中使用–在Excel等软件中使用I D A P IIDAPI是由Borland公司为首发布的一个异构数据库访问接口。

它是一个强大的数据库引擎,基于驱动程序的体系结构和面向对象的设计方法为各种数据库的访问提供了一致的接口,扩展和定制起来很容易。

U D AMicrosoft 的UDA为关系型或非关系型数据访问提供了一致的访问接口。

这个一致的接口使得应用程序能够通过它来访问各种各样的数据。

同时,UDA的多层结构和扩展能力使得它具有极强的生命力。

U D A的层次模型U D A的两层软件接口•OLE DB–系统级的编程接口,定义了一组接口,封装了各种数据系统的访问操作;–提供了一组标准的服务组件,用于提供查询、缓存、数据更新、事务处理等操作;–是新的底层接口,采用一种―通用的‖数据访问范例,能够处理任何类型的数据,不需考虑格式和存储方法。

•ADO–应用层的编程接口,以OLE DB为基础并对其进行了封装;–通过OLE DB提供的接口访问数据,适合于各种客户机/服务器应用系统和基于Web的应用;–具有更好的灵活性,使用方便,效率更高。

用文本文件交换数据•优点:–灵活方便–数据量大小基本不受限制•缺点:–占用较大的存储空间–较多的传输时间–需要进行类型或字段名称的重定义•分类:–分隔符形式–固定宽度•分隔符形式的文本文件–以回车换行符号作为记录间的分隔–以分隔符作为字段之间的分隔–第一行可以表示字段名–可以有文本识别符号•固定宽度的文本文件–以回车换行符号作为记录间的分隔–以起始位置和宽度来标识字段–第一行一般不表示字段名–一般没有文本识别符号E x c e l电子表格采集电子表格中的数据在访问Excel电子表格中的数据时,要特别注意这样两个问题:–关系数据库的规范化问题。

应该保证每一列只有一个标题,且这个标题是最高层次的标题。

–数据类型的一致性问题。

Excel工作表中每一个单元格都可以有不同的数据类型,因此每一列中的数据类型可能会不一致。

而关系数据库要求表中每个字段的类型是固定的。

如果出现这种情况,需要首先统一Excel工作表中每一列的数据类型。

否则将不能访问数据。

数据采集的工具•审计软件•DBMS及数据仓库工具–DBMS,如Access、FoxPro等–数据库实用工具,如数据库附加–数据(仓)库导入/导出工具,如MS DTS等•一些通用的数据分析工具–基于表格的分析工具EXCEL•数据库编程工具–PowerBuilder等–数据库访问对象、方法,如ADO等数据采集的策略•直接拷贝–审计人员具有一定的经验–被审计系统相对简单–分析工具能够支持•使用专门的审计(数据)接口–被审计单位的信息系统已有专门的数据接口–这个接口能够满足审计的要求•实现临时的审计接口–被审计单位的信息系统没有实现数据接口–实现了的数据接口不能满足审计要求临时审计接口的两种实现方式•交换文件(文件传输)–被审计信息系统按照审计要求,将原本不符合审计软件要求的数据转换成与审计软件要求相一致的格式提供给审计人员•数据库连接–审计人员通过ODBC等数据库访问接口直接访问被审计信息系统的数据,并把数据转换成审计所需的格式。

相关主题