当前位置:文档之家› 适用于证券行业的数据集市设计思路与探索

适用于证券行业的数据集市设计思路与探索

近年来,大数据、人工智能、云计算等技术加速创新,并不断应用于证券行业中,推动证券公司数字化转型,已经成为证券行业下一阶段发展的重要驱动力。

数据是证券公司的核心资产,如何最大程度地发挥数据价值,一直是整个行业不断探索的问题。

目前,证券行业机构多、类型广、交易方式多样,数据化程度较高,机构内及机构间数据交换频繁,因此提升对各类数据的快速处理能力迫在眉睫。

本文提出了一种适用于证券公司的数据集市设计思路,基于中信证券股份有限公司(以下简称“中信证券”)的资产管理业务数据仓库,对各类金融数据进行抽象建模,以满足各类数据需求,为证券公司内外部数据服务提供了一种新的思路。

一、数据系统架构中信证券自2002年开始经营资产管理业务,有着二十多年丰富的投资管理经验,与客户携手共同成长。

目前,中信证券是业内唯一一家同时具有企业年金和职业年金投资管理人、社保基金境内投资管理人和社保基金转持股份管理资格、保险资金受托投资管理资格、基本养老保险基金投资管理人资格的券商资管机构。

截至2022年底,中信证券资产管理业务受托管理资金总规模达1.42万亿元,连续14年稳居同业首位,业务范围不仅覆盖了定向资产管理,大集合、小集合资产管理计划以及专项资产管理计划,私募基金、公募基金等基金类净值产品,还包括了为银行或非银企业客户以及其他高净值客户定制的金融服务。

为满足上述业务发展需要,中信证券迫切需要建设一套完备的数据处理系统,用来支撑投资、交易、绩效分析、信息披露、监管报送等各类数据需求。

为此,中信证券资产管理IT团队开展了资产管理业务数据平台(以下简称“资管数据平台”)建设工作。

依托公司的投资交易、估值、公文等应用系统,资管数据平台实现了资产管理业务各类数据的统一存储、统一计算、统一服务,用于满足信息披露、绩效分析、内部运营、高净值客户服务、合规风控等各类业务需求。

随着公司业务的进一步发展,资管数据平台的横向扩展能力可为公司的数字化转型充分赋能。

中信证券资管数据平台整体架构分为源数据、数据仓库、数据应用三个部分(如图1所示)。

图1 中信证券资管数据平台整体架构源数据包含中信证券资管投资交易系统、基金登记结算系统、估值系统、资讯数据平台以及中信证券其他业务系统的源数据。

数据仓库具有资管数据的运算、存储和转换等功能。

首先对数据进行清洗转换等预处理操作,然后对其进行数据标准化、数据整合和数据计算,最终形成一整套标准的多维数据模型,供上层的数据服务应用。

通过一系列的数据处理,可以形成一整套格式化、规范化、标准化的资管业务数据资产。

数据应用提供各种类型的数据服务,其中包括报表展示、即席查询、数据分析等功能,为资产管理的各类业务开展和满足监管需求提供坚实的数据支撑。

在整个资产管理业务数据平台体系中,数据仓库是最重要的部分,数据仓库中的数据模型设计直接影响到最终数据服务的质量。

二、数据分层中信证券资管数据平台架构中的数据仓库采用数据分层的建设理念,其目的是为了应对雷同的数据口径被不同层次的计算逻辑调用,从而导致的依赖结构混乱,甚至出现循环依赖的情况,进而实现数据的有序流转。

数据分层具有如下优势:一是数据结构更为清晰。

在数据分层的体系中,每一个数据层级都有各自的作用和职责,在具体设计和开发时,设计者能快速地理解数据逻辑。

二是复杂问题简单化。

将原有的复杂任务拆分到多个步骤,每个层级只解决特定的问题,从而简化每一步的处理逻辑。

三是数据口径更为统一。

通过数据分层,每层提供统一的数据出口可以使运算结果更为统一。

四是减少重复开发。

通过数据分层,将不同层级的数据加工逻辑进行规范,开发通用的数据指标,可以显著减少重复性开发。

在数据分层体系中,按照业界比较成熟的分层方案,数据仓库分为数据运营层(ODS)、数据模型层(DWD)、数据集市层(MART)和数据服务层(ADS)。

中信证券资管数据平台分层架构如图2所示。

图2 中信证券资管数据平台分层架构1.数据运营层数据运营层是数据仓库分层模型的基础层,为DWD层准备了原始的业务数据。

公司投资交易系统、估值系统等业务系统的数据经过抽取、清洗转换及ETL(Extract-Transform-Load)过程之后,即存入该层。

因为有该层数据的缓冲,业务系统数据的变更对上层数据模型的影响得以减轻。

2.数据模型层数据模型层可进行数据建模操作,去除空数据、脏数据等,根据业务的需要,生成一些面向应用的基础明细表,并且相应地加工出一些面向分析的大宽表,真正实现数据的标准化。

数据模型层是数据仓库应用的基础。

根据业务使用的场景不同,中信证券在该层设计了事实表和维度表,形成了一整套规范的、高质量的、可信的基础模型数据。

3.数据集市层随着业务的快速发展以及对数据精细化要求的愈发严格,完全通用的数据模型难以满足特定数据应用的具体要求。

因此,在DWD层的基础上,资产管理IT团队设计了数据集市层。

该层对标准化的数据进行了业务主题划分,并在划分主题的基础上,衍生出各主题模型的数据整合方式以及相应主题的数据指标。

引入DWD层后,通过主题域的划分,资产管理IT团队将不同类别的数据进行类目划分,可以更便利地查找各类数据,并且在该层可以实现各种定制化数据指标的计算以及数据分类转换等操作。

4.数据服务层数据服务层是指提供最终数据产品的服务层,一般可以将数据分析结果存放在数据库中,供各类报表系统等在线系统使用;或是通过各种业务系统的查询页面供客户进行查看;也可以通过各种离线系统提供纯文本的数据产品服务。

三、数据集市设计建设数据集市是证券公司数据资产信息化的重要一步,其设计思路是:从MART 层抽取出数据,面向部门级业务或某一个特定的主题重新对数据进行加工汇总,可以更好地解决灵活性和性能之间的矛盾。

设计目标是给用户提供一个数据仓库的子集,而不是整个数据仓库,从而缩短处理基础数据的时间。

在实际应用中,数据集市不但可以提高工作效率,还可以通过采用其他技术手段提高数据质量、统一数据口径,使相关岗位员工能专注于更有价值的数据挖掘工作。

数据集市建设分为如下两个步骤:1.梳理抽象模型在设计时,需要根据实际的应用梳理出抽象的数据模型。

资产管理IT团队以监管和信息披露的数据为主线,通过对资本市场的各类业务行为进行梳理,对关键的流程以及数据要素进行识别,形成了特定整体数据架构。

2.设计逻辑模型根据上述设计思路,将数据集市分为如下八个主题域。

(1)产品域资管产品是资产管理业务重点关注的对象,也是资产管理业务开展投资行为的基础。

作为核心的主题域,产品域与资产域、财务域、交易域、指标域有着密切的联系。

产品域包括产品从推出到运行乃至清算的相关环节中的各类产品属性,并存储了产品每日各类明细和汇总类指标数据,以及产品运行中产生的各类费用数据,涵盖了公司公文、估值、交易等系统中关于资管产品的各类数据。

产品域中丰富的数据可以满足监管报送以及信息披露等数据应用需要。

(2)资产域资产域重点关注主体资产,包括资金余额、证券的持有、抵质押、负债等,以及一些业务场景下的修正数据。

资产域在具体设计时,涉及资管产品每日持仓的明细数据(如股票、债券、基金等资产)、资管产品每日持仓汇总数据等。

资产域数据以日为粒度按资产类别等类型对资产数据进行汇总,以便上层数据服务直接调用。

(3)行情域行情域中记录了资管产品运作中在一级市场、二级市场或海外市场中投资的各类证券的基础数据,涉及证券基本信息、证券每日信息等,其中,证券基本信息包括了万得、聚源、估值等系统中的个券基础属性;证券每日信息中记录了每日个券的开盘价、收盘价、个券涨跌幅等指标类行情数据。

行情域是后续进行资产类数据分析以及指标加工类数据分析的基础。

(4)交易域交易域记录了各种与资产管理业务相关的业务行为详细情况。

这些业务行为通常是指证券公司与客户等主体的交互活动,包括详细的交易和行为数据。

交易数据按照业务类型分为委托、成交、资金变动和其他交易流水等数据,按照类型存储在不同的数据表中,保证了各种业务类型数据的使用便利性。

(5)财务域财务域包含了资管产品在运作中生成的各类财务报表。

财务报表是进行监管报送以及信息披露的重要数据依据。

财务域的数据范围包含但不限于产品估值表、资产负债表、利润表和现金余额表。

(6)配置域配置域中存储了数据集市中的各类配置信息,例如,为便于数据处理建立的内外部资产类别转换配置文件,在监管报送中因特定业务种类数据要求而手动上传到数据集市中的资管产品或客户相关属性数据等。

(7)指标域指标域是为了上层的数据应用调用而设立的。

由于信息披露数据产品的差异,有时会需要进行资管产品或客户属性的描述性统计信息,此类统计信息由于数据口径的差异较大,不适合在数据模型层进行存储,因此需要在数据集市层设立专门的指标域。

此外,指标域还解决了由于部分数据逻辑过于复杂而无法在数据应用中直接计算的问题。

(8)客户域客户域描述了相关的业务主题在中信证券以及相关机构登记的各类账户信息,包含交易账户、资金账户、银行账户、各业务系统客户数据等内容,覆盖账户从申请、开立到销户过程中所需要的完整信息,与资产域、交易域、财务域有着密切的联系。

四、数据集市应用在中信证券资产管理业务运行中,信息披露和监管报送是两个重要的业务环节。

监管和披露需求的不断变化对底层数据的质量和数据计算效率要求越来越高。

在业务实践中,通常会选择直接从数据模型层加工的各类数据作为最终的数据结果,但这样会出现雷同的数据口径被重复计算的现象。

在数据集市中,由于面向业务主题域的设计以及指标域的存在,重复计算的问题可以得到解决。

在信息披露类应用中,数据集市实现了各类资管产品定期报告中的产品费用类数据静态存储,同时还实现了产品投资经理等产品属性类信息的存储。

此外,由于主题域的划分,信息披露类数据产品的新增数据需求开发周期也有所缩短。

在监管报送类数据应用中,数据集市实现了配置类数据的规范化存储,便于快速开发以及后续维护。

基于数据集市的统一命名规范,监管报送类数据产品的代码更为简洁,易于管理。

总体而言,数据集市具有六大特点:一是从数据仓库的基础数据模型层分离出特定域的数据,使得专业领域的数据集市更为高效,对业务的支持更充分;二是数据集市基于主题域设计,可缩短报表等查询类数据需要的响应时间,使用数据集市的开发效率更高;三是数据集市的存在使整体数据仓库的技术架构可以更为松耦合,整体技术架构可以采用多层次异构的技术模型;四是由于数据集市的数据已经进行了筛选,因此面向特定主题的数据处理时间大大缩短;五是由于整体数据的多层次处理架构,数据集市可以屏蔽底层数据变化对数据应用层服务的影响;六是基础设施依赖性非常低,数据集市可以与数据仓库分段后部署在不同的硬件平台上,系统灵活度较高。

中信证券从资产管理业务的数据处理需求出发,设计资管数据模型,并在此之上建设了资管数据集市。

相关主题