当前位置:文档之家› 大数据分析的审计概论

大数据分析的审计概论

大数据分析的审计概论当下,大数据分析之于审计是十分必要的,也是时髦的,我亦凑个热闹撰此文以抛砖引玉。

大数据,在数据业界已经应用得趋于成熟了,但对于我们审计人员来说,还是比较新鲜的事物。

何谓大数据?通常地说,大数据指无法在一定时间范围内用常规软件工具捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力、流程优化能力的海量的、高增长率和多样化的信息资产。

根据此定义,我们要把关注点放在大数据是数据集合与数据资产这两个方面,同时还要关注大数据在得到充分有效分析之后,可以给数据资产拥有者所提供的决策力、洞察力和流程优化能力。

基于此,我们进一步挖掘大数据分析的概念是什么?《大数据时代-生活、工作与思维的大变革》的作者肯尼思-库克耶认为:大数据分析是指不用随机分析,而采用所有数据分析处理的分析方法。

大数据的概念基本清楚了,与此对应的小数据又是什么?其实,小数据的概念是大数据概念出来以后才应运而生的。

小数据指通过抽样调查方法获得的数据;小数据分析遵循统计分析原理,运用统计工具、统计理论来开展分析论证,因此小数据也就是我们平常说的统计数据,小数据分析也就是我们平常所应用的各种抽样调查分析。

基于以上,我们就比较清楚地知道了,小数据和小数据分析是与大数据和大数据分析应运而生的概念,是与大数据和大数据分析相对的概念。

说了半天大数据的相关概念,我们不妨再看看大数据具有哪些特征?第一个特征是全量数据(volume)。

全量数据是什么意思?大数据,数据大,大到全量,大到百分百的数据,占有一定比重的数据不是大数据;但若以占有一定比重的某个特征数据作为整体进一步挖掘分析时,这一部分数据就成为大数据了,是某个特征数据的大数据。

因此,我们可以进一步说,全量数据就是事关于此的全部的所有数据。

就商业银行来说,各项存款总额、各项贷款总额、不良贷款总额、银行卡透支总额、信用卡发卡总卡片数、员工总数等等,所有这些纳入分析范畴之维度下的总数据就是该类大数据概念下的全量数据。

根据大数据的全量数据这一特征,我们应正确定义,没有使用全量数据的分析,就不能说是大数据分析。

这是大数据分析的第一个显著特征,也是衡量是不是大数据分析的第一个标准。

第二个特征是高速(velocity)。

高速是指高速产生数据和高速处理数据。

大数据是高速产生的,产生于日常生产和生活之中,处于时刻产生与时刻变化之中,且速度非常快。

比如我们曾经在“光棍节”那一天看到马云在阿里巴巴电子显示屏前观看交易量数据变化的情形就很直观了。

对于老百姓,每天要生活,就要与对方产生交易,这种非常多的交易数据产生并储存于交易对手的生产系统中,形成了高速产生的大数据。

基于大数据的高速特征,数据使用者做大数据分析也只有高速分析才能适应大数据产生的这种高速特征。

第三个特征是多样性特征(variety)。

这个特征表现为数据种类多样和数据渠道来源多样;数据种类包含了数字、音频、视频、符号、方位等等日常生活中所涉及的种类和所有能采集得到的渠道。

比如我们国家天网系统中所产生、收集、存储的视频、声频数据,通讯服务商所收集存储用户的短信字符、使用位置等大数据。

大数据多样性来源于老百姓日常生活交易种类和场景的多样性和提供给生产交易的多样性。

第四个特征是大数据的低价值密度和大数据的高价值度同时存在(value)。

这个特征,读起来有点儿拗口,但略加思考就很好懂了。

大数据全量数据中真正有价值的数据并不多,受到污染的数据需要清洗掉,但数据一旦结构化且不断挖掘的话,合理运用大数据就能以低成本创造出高价值;相同的数据聚合在一起,“团结就是力量”的真理就体现出来了,我们可以比较形象地表述为,离散的乌合之众,每天聚合在一起就有连续的力量了。

大数据的离散只是空间上的离散,成乌合之众状;但在时间上是连续的,成连续状;在数据质量上有同质性和统一性,同质性就是同一个生产系统提供的大数据结构都是一样的,且统一于一个生产系统内,由一家公司掌握着。

第五个特征是真实(veracity)。

因为是同类数据的集合,且数据的生产者与数据的利用者是隔离的,更多情况下数据的生产者并不知晓自己的交易数据被数据利用者集合起来做大数据分析了。

基于这样的机理,数据的生产者并无造假冲动,且都是实际生产生活中,具有实际交易背景下所产生的数据,因此,使得大数据具有真实性的显著特征。

以上就是大数据的五个最显著的基本特征,因其英文的第一个字母都是V,因此又被业界通称为大数据的5V特征。

交待好大数据及其特征以后,我们可以进入本文主题了:大数据分析审计具有哪些特征?前面所说大数据及其特征,在大数据分析审计中均存在,除此以外,大数据分析审计还应具备以下特征:第一,分析审计结果的可视化。

大数据分析审计以后输出的结果需具备可视化特征,即呈现出来的结果,所有阅读大数据分析审计报告的人都看得懂,或者以阅读者的需要而输出结果;按照大数据分析审计深入程度之不同,这种可视化的成果可以分为描述性分析审计成果、预测性分析审计成果、指导性分析审计成果三个层次。

描述性分析审计成果就是大数据的事实描述,这是审计人员就某一类审计专题所作出来的大数据分析审计的事实描述。

比如商业银行裸贷客户治理专题,属于事实性描述的有:客户总数,其中符合裸贷认定标准的客户总数及其占比,再其中对公类裸贷客户总数及其占比、机构类裸贷客户总数及其占比等等就属于描述性分析审计成果。

预测性分析审计是在描述性分析成果的基础上,根据大数据分析所具有的洞察力所作出的预测。

比如不良贷款的大数据分析审计预测,现有的大数据描述性分析审计结果显示该类客户的不良率是多少,即可以预测未来该类客户的不良率亦将是多少。

同时,据此可以呈现指导性分析审计成果,即为尚未出现不良的该类客户出具审计建议。

我们可以清晰地观察到,大数据分析审计的洞察力、流程优化能力、决策力在大数据分析审计所呈现出来的三类成果中都能充分有效地实现。

大数据分析审计的魅力大概也就在于此了。

第二,大数据分析审计过程在逻辑结构上的圈层挖掘。

大数据分析要象挖掘机那样在宽度和深度这两个维度上进行圈、层化的挖掘;所谓的圈就是宽度,不断增加挖掘的宽度也就是增加分析审计的维度;所谓的层就是深度,在同一维度下持续向下层挖掘;无论怎么圈层挖掘,其数据总是表现出全量数据且分析圈层下加总等于全量数据的数据封闭状态,不应该出现数据敞口或者丢失的现象,否则就不是真正意义上的大数据分析;大数据圈层挖掘,呈现出来的成果可以用大数据分析树来呈现,分析树的种类有多种,目前,我们比较推崇目录树,因为目录树在逻辑结构方面能更好地体现圈层挖掘,文字阐述更为清晰。

大数据分析树就是一个倒置的树型结构,这个树型结构,既可以树形图来表示,树形图比较适合于简单一些、圈层少一些的指标关系,优点是比较直观。

除了树形图以外,还可以目录树来表示。

什么是目录树?大家看看一本书的目录就比较有概念了。

一般来说,我们的大数据专题分析审计目录树,可以按照三个主体部分来编制。

开头帽子部分是阐述该专题大数据分析审计的基本原理、逻辑,要讲清楚“为什么”。

主体第一部分是该专题下大数据分析审计风险揭示,体现审计的风险导向;比如裸贷专题,所谓裸贷,通俗讲就是客户在某家商业银行获得贷款以后即将贷款划转其他商业银行,不在贷款银行办理日常受托支付,日常资金回笼归集不在贷款银行。

这样的裸贷客户的风险会有哪些呢?最大的风险就是因为脱离了贷款银行的监管,从而产生不良贷款的风险,第二个风险就是给贷款银行没有产生综合收益的风险,如存款账户日均余额很低、叙做中间业务很少。

因此,这两类风险,就需要在裸贷专题的大数据分析审计第一部分中予以充分有效揭示。

所谓充分有效揭示就是进行全量数据分析,提供描述性分析审计成果、预测性分析审计成果。

第二部分是原因溯证,即上述揭示风险问题的原因何在?一般来说,商业银行对外经营所产生的风险问题都在内部管理上有显著表现,也可以说内部管理的不足是对外经营风险问题的成因。

前面有讲,开头帽子部分需要解决“为什么”的问题,第一部分和第二部分是要解决“是什么”的问题。

第三部分是审计建议,要解决“怎么办”的问题,需要呈现指导性分析审计成果。

一般来说,指导性分析审计成果,要把侧重点放在内部管理上,内部管理的本质是为对外经营服务的,对外经营出现了风险,根源在内部管理上。

第三、大数据分析审计具备良好的预测性。

这是大数据分析审计的核心价值所在、基础价值所在;所谓良好是基于大数据分析所允许的不精确之下的良好;不精确是指模糊,单个数据在大数据分析中十分渺小,多一个不多,少一个不少。

但全量数据集中起来,模糊中就会展现出精确的一面,这种精确,可以用占比来表述。

因此,大数据分析审计报告中,必须要用某种情形的占比来准确描述整体状况。

这一点,与我们传统的审计很不一样,传统审计大多表述为个别、部分等定性语言,而无大数据分析审计这样具体的数量表述。

大数据分析审计的预测性与大数据分析的预测性分析成果是一脉相承的。

第四,大数据分析审计通常会遇到非结构化数据,非结构化数据需要建立语义引擎。

打通数据隔膜,转化为结构化数据,才能作为大数据来分析审计。

打通隔膜最典型的案例是音乐,音乐是非结构性数据,但经过乐谱就可以转化为结构化数据了。

大数据分析审计中更是需要打通数据隔膜,那些音频、视频等非结构化数据需要转化为结构化数据,审计人员才能更有效的应用,这方面还有很长的路要走。

第五,大数据分析审计需要持续的数据质量管理和数据累积管理。

大数据之所以有力量,一是因为大到全量,因而具有团体的力量、整体的力量;二是因为是连续生产出来的数据,因而具有趋势的力量。

二者的力量汇聚在一起,才是大数据的力量。

这需要数据本身是真实的生产环境里产生的,又需要连续不断的数据累积。

这个过程就是大数据的质量管理与数据累积管理。

一天的数据基本上说明不了问题,长期积累起来的数据才具说服力。

这就是让数据说话、让数据发声的含义所指。

最后,我们不妨再说说,大数据分析与小数据分析的区别有哪些?一是数量上的区别。

大数据是全量数据,小数据是抽样数据;这表现为大数据分析的更多;二是结论上的精确性区别。

大数据分析的结论是庞大而又混杂的,允许不精确,小数据分析的结论是精确的,遵循统计原理;但大数据的庞大而又混杂的不精确中包含了精确,这需要好好地去理解;这表现为大数据的更庞大;三是数据分析结论揭示的关系区别。

大数据分析的结论揭示是相关关系,可以用相关系数来表述,讲述“是什么”;小数据分析的结论揭示的是因果关系,讲述“为什么”。

这表现为大数据分析的更好用;同样是用数据发声讲话,但讲的不是一样的关系。

讲相关关系更容易,更快速,讲因果关系更难、更复杂,更慢,需要更多时间和数据去验证,但当需要深挖其因果时,就需要在相关关系上进一步挖掘高度相关甚至相关系数为1的变量来,这个变量也许就是因果关系之因,但还不能确定,因为因果关系中的因是隐藏着的,既有客观的因,也有主观的因。

相关主题