当前位置:文档之家› 从应用视角看大数据对证券公司的影响

从应用视角看大数据对证券公司的影响

从应用视角看大数据对证券公司的影响孟庆江作者简介:孟庆江,澳门大学博士,现就职于中投证券博士后站。

随着移动互联网、物联网、云计算技术的快速发展和社会对于大数据的逐渐重视,大数据从概念逐渐走向应用。

互联网金融企业在过去的一年里快速发展壮大,对传统金融行业造成严重冲击,很大程度上就依赖于大数据和云计算技术,能够动态了解客户的多样化需求,改善传统金融的信息不对称问题,推出满足客户需求的个性化金融产品。

随着A股市场全面放开一人一户限制,以及券商牌照即将向互联网公司放开,面对居民财富迅速增长和其对理财产品多样化的需求,券商受到来自行业内外部的双重压力。

传统IT基础设施环境逐渐无法满足证券公司对转型和创新战略的要求,建立大数据驱动的创新平台,为即将到来的业务差异化竞争提供强有力的技术支持,将是证券公司抢占市场先机的必备条件。

一、证券公司大数据的实际应用相对于其它行业的数据,证券行业数据具有质量高、价值大、可定位性好等特点。

证券公司拥有大量的客户交易数据,通过对这些数据的分析,可以细分客户类别,并据此为客户提供差异化服务。

此外,公司可以对实时行情、财务报告、经济信息、新闻等衍生数据进行分析,也可以对产品/投资品信息、头寸/交易信息、交易对手数据、评级数据等参考数据进行分析,还可以分析曲线、差价、波动信息、相关性分析等经过加工后产生的数据。

(一)证券公司大数据的应用概括定量分析是在基于产品的几十个甚至上百个独立变量之间寻找定义数以千计的客户细分。

从深度历史数据中找到隐含相关性,从而使公司可以做出更加正确的决策,在寻找有针对性的销售、市场和定价策略方面更可能成功,这意味着带给证券公司更多的收入和更快的销售周期。

图1给出了大数据在证券公司的主要应用流程图,详细描述了大数据在量化研究、风险管理及客户管理等方面的应用。

图1:大数据在证券公司的主要应用流程图未来证券公司需要分析的数据量、复杂度和语义深度都将大幅增加。

而数据管理能力涵盖数据的获取、清洗、存储、分析和发布,帮助证券公司在客户管理、产品创新、风险管理和业务运营上提高水平。

证券公司作为多牌照的金融机构,不同牌照间通过对客户行为数据、客户交易数据的分析,可以开发设计出新的产品。

(二)大数据在风险控制中的应用证券公司在风险控制时需要最新的风险敞口信息,在特定时间和所处头寸期间由市场波动来计算风险度量,而风险系统依赖于每天的交易输入和市场数据,这带来了累积式风险的不完整性和不同步性。

为做出正确决定,风险管理系统必须通过各种累积式层次来展示累积式风险,为了分析各种风险,传统的方法是首先创建数据仓库,然后将从其它系统中导入的数据转换为特定格式。

这意味着对于每个风险系统和每个数据格式都需要数据抽取、转换和加载,因此需要针对数据仓库创建特殊的数据库架构,这些结构在未更改数据的快速读入中是最优的。

在处理累积式风险数据和度量时,数据需要在给定风险的最优估计下重新计算,而关系数据库不能很有效地处理这些数据,大数据和NoSQL系统则可以为此提供有力的支持。

二、证券公司大数据分析面临的挑战(一)海量化管理大规模且迅速增长的数据是个极具挑战性的问题,目前数据增长的速度已经超过了计算资源的增长速度。

海量化的挑战不仅仅在于收集和存储巨量的多样化数据,还在于管理和处理旧数据。

证券公司每天产生的大量交易数据、客户咨询以及对公司产生影响的外部数据,新旧数据的存储和管理改变着当前的存储模式。

(二)及时性速度是规模的另一方面。

要处理的数据集越大,进行分析所花费时间将越长。

在大数据背景下,许多情况下需要立即得到分析结果。

例如在进行信用卡交易时,如果怀疑该卡涉嫌欺诈,应该在交易完成前做出判断,这就需要事先对部分结果进行预计算,再结合新数据进行少量的增量计算才能迅速做出判断。

高频交易是近些年来兴起的新型交易策略,它利用复杂的计算机技术和系统,以毫秒级甚至更快的速度执行交易,且日内短暂持仓。

一毫秒的交易执行延迟都可能带来高达数百万的交易损失,这要求在处理数据时需要更低的程序延迟、更高的程序吞吐量和更高级的代码可扩展性。

这给IT部门面对数据量大幅增长和改善交易执行时间带来新的压力。

此外,为了支持大数据上的新型查询,需要设计新的索引结构来支持此类查询。

当数据量越来越大并且查询响应时间有严格限制时,索引结构的设计非常具有挑战性。

随着资本市场交易的异常活跃和金融创新产品的多元化,部分券商后台服务处理能力接近极限,券商系统在网络带宽、行情调取和数据交接等方面面临较大压力,传统交易系统面临系统维护、升级以及数据采集工作等困难。

未来可以通过大数据运营平台进行数据分析,设计预警阈值,及时发现系统运行故障并进行实时监控,提高系统的可预判性。

(三)隐私性在大数据环境下,数据隐私问题更加突出。

有效进行数据隐私管理既是一个技术问题,又是一个社会问题。

如基于位置的服务需要用户和服务供应商分享其位置,这会造成明显的隐私问题。

如何保证证券公司私人数据的正常使用,并将部分数据结果分享给客户,又能够保证数据隐私不被泄漏,对技术的应用提出了挑战。

(四)数据异构性和不完备性大数据的异构性和不完备性是数据处理面临的挑战。

所谓异构性是指数据有多种不同的呈现形式,如视频、数字、文本等,导致数据格式上的异构。

目前机器分析算法能够智能处理同构的数据,但不能理解数据之间的细微差别。

对于大数据而言,即使在数据分析之前进行了数据的清洗和纠错,数据仍可能存在缺失和错误,在进行数据分析时,正确地面对缺失和错误数据是一个挑战。

大数据的异构性、海量化、及时性、复杂性和隐私问题从各个环节阻碍了数据价值的创造。

在数据收集时,应该决定哪些数据需要保留,哪些数据需要丢弃,并且在保留数据的同时可靠地存储正确的元数据。

(五)大数据高效计算系统结构与方法大数据计算的关键与核心问题是效率和成本。

提升计算效率和降低计算成本的主要措施是研发高效的计算系统结构和构造面向大数据的“易计算性”算法。

如何实现高效的内存计算技术、高效存储与技术耦合、高效并行的分布式计算方法及相关的基础理论,以满足实时、高效、低能耗与低成本的大数据分析与技术需求,是证券公司需要面临的挑战。

此外,大数据具有维数高和大样本的特征,这两个特征引起三大挑战:一是高维数据带来噪声积累、伪相关性和偶然同质性;二是高维和大样本数据带来计算上的困难和算法的不稳定性;三是大数据的大样本通常是来自利用不同的技术在不同时间点多源头的聚集。

这通常带来异质性、实验变异、统计偏差等问题,需要设计更多适应性强和健壮的程序来满足要求。

三、证券公司大数据的架构(一)证券公司数据的存储近些年来,传感器和其它数据收集技术及存储工具价格的下降,使得收集数据变得越来越便宜。

由于对于高速和实时性的要求,传统关系数据库系统模型、存储和解析解不能很好地处理大量的非结构化数据,这就需要类似Hadoop和NoSQL之类的非关系数据库,传统查询语言SQL也将被Map Reduce替代。

为了将数据进行分析,首先需将所需要的信息从原始数据中抽取出来,并表达成适合分析的格式。

有效的数据采集是工作人员面临的第一个挑战,研究有效的数据约减技术,删除无用数据,将数据约减到一个能够处理的规模,这需要有效的数据模型。

此外,非结构化数据的存储也是要面临的另一个主要问题。

如何高效存储非结构化数据并在需要时快速提取信息需要技术上的突破。

证券公司对数据传速、存储和分析的及时性有着较高要求,大数据存储需要能够处理容量问题和为分析工作的低延时提供服务。

由于需要显著改善性能和低功耗,相对于硬盘存储器,闪速存储器将会更加普及。

云存储闪存的使用将使得共享资源更加流行,对于大规模非结构化数据解析的需求和对其价值的开发也在逐渐增加。

连续的数据抽取、有效存储和即时分析将有助于证券公司做出快速高效的决策,也将提高公司数据处理的效率。

图2给出了证券公司的数据分析图示,有效结合内外部数据并将数据分析结果进行可视化,可以帮助公司获取真知灼见的洞察力和做出高效的决策。

图2:证券公司的数据分析图示(二)证券公司数据的分析工具在IT方面,Hadoop是解决大数据问题最重要的工具。

在所使用的程序语言方面,C/C++和Java是最常用的程序语言,能够分析大量的数据集也是它们的优点之一。

但近几年来,Python语言和R语言发展迅速,其中R语言主要用于统计分析、绘图语言和操作环境,自由、免费、开源的代码使得它成为当今统计学者和数据分析师常用的语言之一。

考虑到安全性和运行速度,国外的投资银行大多采用unix/linux系统,这就要求相关工作人员充分理解该类系统,并对SQL和NoSQL等数据知识进行掌握。

(三)证券公司数据的分析工具在国外投资银行,宽客(quants)扮演着数据分析的角色。

数据科学家将IT技术和金融、数学结合在一起,他们正成为银行和金融机构的重要力量。

研究人员在机器学习算法上的重大突破,构成了很多数据挖掘算法技术的基础。

除了熟练掌握所需要的硬、软件技术外,数据分析师还需要保持对新思路和新技术的高度好奇和持续的深度研究,为解决复杂问题找到合适答案。

数据的分析主要有数据分析和预测分析。

所谓数据分析,是指通过对大量非结构化和结构化数据进行分析,给投资者提供有效建议。

而预测分析,主要是预测未来的市场、指数和产品以及分析它们之间的相关性。

数据科学主要涉及预测和总结,也与数据操作、可视化和其它相似任务有关,其它用来描述计算机辅助的数据分析如知识抽取、信息发现、信息收获、数据考古、数据模式处理和探索性数据分析,也将是证券公司数据分析的常用工具。

图3描述了证券公司数据处理从原始数据到数据分析结果的全貌。

图3:证券公司数据处理流程图(四)证券公司数据的可视化数据可视化起源于1960年的计算机图形学,人们使用计算机创建图形图表,通过可视化将数据的各种属性和变量呈现出来。

对于大数据不了解的人来讲,数据可视化提供了最简单快捷的了解数据的方法,使得大数据更加贴近一般人群的使用习惯和需求,也使得数据变得更有意义和易于理解,帮助证券公司从复杂的数据中快速高效的实行决策。

不同于传统数据可视化工具仅仅将数据加以组合并通过图形化展示给客户,大数据环境下的数据可视化必须满足快速增长数据的需求,需要快速地收集、筛选和分析数据,然后进行归纳,并将决策者所需要的信息以可视化的形象表示出来,还需要对新增的数据实现实时更新。

考虑到可视化工具需要普通员工简单掌握,所以还需具有易于使用、易于操作、易于理解和易于接受等特点,并能够以多样化的形式展现出来。

四、证券公司大数据分析的受益方大数据在证券公司的应用,不仅可以带来巨大的经济效益,还能够使得公司各层领导、员工和客户不必要了解大数据,即可根据相关数据的可视化了解所需要的信息。

相关主题