当前位置:文档之家› 大数据环境下的审计信息化(思路篇)

大数据环境下的审计信息化(思路篇)

大数据环境下的审计信息化(思路篇)前言:审计信息化工作十余年,面临着云计算、物联网、大数据、移动通讯和社交网络等新技术的挑战。

本文希望通过对大数据的理解、审计中的应用分析,提出大数据服务与审计的一个角度或方向,进而形成相关信息化配套建设的思路。

本文的编写希望得到读者的回馈,能够收到您的批评、指正。

一、大数据的定义和理解(一)广泛定义对于大数据的理解现在并没有一个标准的定义,不过大家对于大数据都有一个共同的认识,那就是4V (Volume、Velocity、Variety、Veracity):1.(Volume)数据量大,TB,PB,乃至EB等数据量的数据需要分析处理。

2.(Velocity)要求快速响应,市场变化快,要求能及时快速的响应变化,那对数据的分析也要快速,在性能上有更高要求,所以数据量显得对速度要求有些“大”。

3.(Variety)数据多样性:不同的数据源,非结构化数据越来越多,需要进行清洗,整理,筛选等操作,变为结构数据。

4.(Veracity)价值密度低,由于数据采集的不及时,数据样本不全面,数据可能不连续等等,数据可能会失真,但当数据量达到一定规模,可以通过更多的数据达到更真实全面的反馈。

而简化一下描述,其实“大数据”是一个体量特别大,数据类别特别多的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。

(二)审计的大数据特征从“大数据”概念产生的缘由来看审计行业是一个天然需要大数据概念及其实现技术的行业。

我们分析如下:首先,审计行业的“生产对象”是被审计对象的数据,虽然说审计是对财政财务收支的监督。

但是为了了解财务的真实情况,必然需要关注业务数据,这些行业的数据每一个都可以说是数据体量巨大。

同时这些数据也是复杂多样的,结构化数据不用说了(二维表数据、立方体数据、空间数据等),非结构化数据例如:被审计单位的各种制度、文件、影像等。

其次,审计的职责是查处财政财务的真实、合法和效益问题。

查处过程中,需要在这些海量数据中进行关联、汇聚的查询或计算工作,而且这些计算需要同时作用在结构化、半结构化、非结构化数据之上。

在没有大数据技术支撑之前,采用抽样或按领域分开的方式进行审计分析,无形中形成了数据之间的壁垒和分析的局限性。

最后,审计工作中的审计思路、方法,虽然有章可循,但最终还要依赖于具体参与审计工作的人的智慧。

这也就决定了所有的分析工作不能像其他的数据中心、数据分析、数据挖掘、决策支持系统一样,是相对“固化”的。

而思路的火花是稍纵即逝的,对任何一个突然闪出的分析思路都应该在“秒级”响应。

(三)大数据的关键技术大数据关键技术包括数据抽取与集成、数据分析、数据解释3个领域。

1.数据抽取与集成。

大数据的一个重要特点是多样性。

意味着其数据来源极其广泛。

数据类型极为繁杂,这种复杂的数据环境要求必须对数据源中的数据进行抽取和集成。

并采用统一定义的结构来存储这些数据。

为保证数据质量,需要在数据抽取与集成后进行数据清洗。

(1)数据采集:ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。

(2)数据存取:关系数据库、NOSQL、SQL等。

(3)数据处理:自然语言处理(NLP,NaturalLanguageProcessing)是研究人与计算机交互的语言问题的一门学科。

处理自然语言的关键是要让计算机'理解'自然语言,所以自然语言处理又叫做自然语言理解(NLU,NaturalLanguage Understanding),也称为计算语言学(Computational Linguistics。

一方面它是语言信息处理的一个分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。

2.数据分析数据分析是大数据发挥其核心价值的重要流程,主要的分析技术有统计分析、数据挖掘、模型预测等,分析的结论可用于推荐系统、专家系统、商业智能和决策支持系统等。

(1)统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。

(2)数据挖掘:分类(Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、描述和可视化、Description and Visualization)、复杂数据类型挖掘(Text,Web ,图形图像,视频,音频等)(3)模型预测:预测模型、机器学习、建模仿真。

3.数据解释在数据分析的基础上,终端用户往往最关心的是数据的展示方式,如果分析结果没有采用适当的解释方法,所得到的分析结论往往让用户难以理解,极端情况下甚至会误导用户。

传统的解释方法仅是文本、图表等电脑终端上的直观显示,未来提升数据解释能力可以引入标签云(tag cloud)、关系图等可视化技术解决,甚至可以采用人机交互技术,在交互过程中逐步引导用户进入分析流程,达到最佳的数据解释效果。

4.基础架构大数据价值的完整体现需要多种技术的协同。

为了便于数据管理,需要建立云存储系统等存储结构化、非结构化、半结构化类型的数据。

为了加速数据处理,需要采用云计算、云存储、分布式文件存储等分布式计算技术。

通过索引与查询技术,提供搜索引擎服务,提高用户对大数据的使用效率。

二、大数据技术为审计打开的“窗”我们都知道传统的审计,无论是计算机辅助审计、计算机审计、自动化审计,都是在既定计划、既定方向上开展的,这对于制定计划、制定审计方案的人是一个考验,同时执行人也将艰难的去践行。

原来在电子审计体系发展的研究中,有人曾提出过智能审计和智慧审计的概念,如何定义智能、智慧呢,如何实现智能、智慧呢?其实一直没有很好的可执行方案,大数据时代的来临,大数据技术的发展为我们破题了。

我觉得大数据技术的运用至少能够带来以下几个方面的进化:(一)审计计划彻底放开看到这个小标题,大家不要误会,不是说不要计划、随性开展审计项目。

今后的计划分为两类:一是固定审计工作,二是专题审计工作。

1.固定审计类似现在每年都要开展的部门预算执行审计一样,今后像社保、税收、环资、投资等审计都会进入固定审计工作。

就因为大数据时代的来临,对于审计来说数据已经极大丰富,而且能够提供应对这些数据的采集、存储、处理、分析的大数据技术。

2.专题审计(或者叫随机审计)不再像原来一样,年初制定计划,年中调整计划。

而是采用征集审计专题,组织评审后形成专题审计工作(当然这里会有一些安全保密的问题需要处理)。

征集的已经不再是一个思路,而是有大数据分析的结论依据支撑的审计方案。

这也就意味着,专题审计的方向、形成时间都不固定了,虽然是无计划性的,但是很有“市场味”,不但广开思路,而且对外界响应更快、更灵活。

(二)审计思路彻底解放大数据时代来临,审计工作已经不再是计划经济了,对于审计人员来说可以去研究自己擅长的、关注的数据,通过大数据分析去寻找审计专题,形成审计项目。

审计署通过鼓励10万审计人员进行“科研”,并择优支持(即形成专题审计项目)。

专题提出人或团队获得支持(数据、资金、人员、政策等),开展审计实践,形成审计成果和审计研究成果,即完成审计的揭示、预防功能,又形成审计抵御积累。

在现今的社会,已经不强求全面发展的人才,木桶原理也已经略显过时了。

所以对于审计思路,也不要用条条框框去限制,让所有审计人员像创业者一样去发挥自己的特长,做某一点的冒尖者,何愁没有审计思路,没审计成果。

(三)审计效能进入蓝海我们都知道全国审计机关的人数已经有很多年没有增加了,但国民生产总值、财政资金总量都在大幅增长,经济社会的复杂度更是呈几何增长。

通过计算机审计、数字化审计等方式,让审计效能也获得了大幅度提升。

但是随着互联网时代的信息大爆炸(即摩尔第三定律),现有的信息化技术已经无法持续提升审计效能。

审计效能的评价通常以审计人员数量作为基数,而提升审计效能的方法却不是以审计人员数量为基数。

在大数据时代来临,我们将审计工作转向每一个审计人员都是效能提升的一个节点,才能使我们能够适应几何式的增长。

而且效能提升节点之间可以进行网状连接,获得更强的效能提升可能,也是下一步效能提升的重点,只有让每个节点(审计人员)的都是效能提升因素,才能使审计效能进入蓝海。

三、利用大数据服务审计工作的思路从上述分析,如果利用大数据服务审计,将形成怎样的审计工作方式:(一)审计模式的变化之前已经提到过,今后的审计没有什么计划规定,而只有固定和专题(随机)审计两类,固定的不需要计划,专题的无法计划。

作为固定的审计工作,就像走流程一样,安排人去执行,类似巡逻,发现异常拉响警报,派人去调查。

作为随机的审计工作,首先是由思路提出人申报(当然也可以安排专门的团队去研究),然后通过评审确定为审计项目。

审计项目也往往不再是一个点、一个区域的项目,全部都是跨领域、跨地域(全国性)的综合性审计项目。

(二)审计工作的工作变化可以说审计人员不再像传统审计项目,在项目执行阶段不断地去寻找审计思路。

而是在项目确定之前,通过数据分析确定好审计思路(想明白如何审计),真的下项目了,更多的是“体力活”。

审计项目的执行方式也不再是派项目组到处跑,而是通过将专题审计分析的方案发给相关审计区域、领域的接口人,由他们帮助完成“体力活”。

(三)审计成果的变化审计成果的内容也将得到极大的扩展:首先成果的梳理方式都要像全国统一组织项目的成果一样进行梳理;其次由于所有的成果都不再是单点的,所以数额都会成线性增长;最后每年提出的专题审计数量、质量将直接影响当年的审计成果数量和质量。

四、大数据信息化的基础配套建设内容(一)以大数据方式建设的数据中心大数据信息化,首先必须有一个大数据的数据中心。

主要有以下几个特征:1.任何数据都是中心、又不是中心,数据之间的关联性是核心特征之一。

数据之间的关联不会因为数据量、数据类型、数据形态而受影响。

2.数据的检索速度都在秒级。

对于数据的检索与查询都在秒级完成,这样才能提供最基础的数据服务。

(二)大数据的应用建设思路大数据应用功能可以拆分为四个层次:1.统计展示。

此阶段的目的是描述“发生了什么(whathappened)”;我们采用统计报表工具解决这类问题。

相关主题