当前位置:文档之家› ASSZ2015_刘译璟_大数据驱动的金融业务创新(4:3)_0717

ASSZ2015_刘译璟_大数据驱动的金融业务创新(4:3)_0717


自动化
现实业务
数据化
现实世界
大数据时代需要将“人”数据化:“用户画像” Big Data = 无处不在的数据
信息化建设
• 全社会的信息化程度越
可穿戴设备
• 可穿戴设备甚至可植入
信息网络
• 无处不在的网络将
来越高,越来越多的业
务需要计算机应用,用 户与这些应用交互产生
设备将越来越多的出现
在现实生活中 • 攻壳机动队(Ghost In
...
用户性别标签产出流程示例
采集用户 互联网行为
页面标签 抽取
用户行为 建模
用户标签 生成规则
用户采样
用户标签 扩散
用户行为 建模
用户标签 生成规则
用户自身价值
用户自身的价值 − − − − − − − 是否有车 车的品牌型号 是否有房 房的大小、位置 年收入区间 是否企业高管 是否他行VIP ...
用户风险评价
从行内、行外不同的 维度对用户的风险进 行评价 − − − − − − − − − 人行征信评分 百分点征信评分 信用风险等级 洗钱风险等级 综合授信额度 信贷违约记录 拖欠缴费记录 还款能力 违约概率 ...
大数据用户画像:验证
用户画像是对现实世界中用户的数学建模
模型是否反应了现实 • • • • 逻 搜 … 辑:可靠性 索:查准率 无法同时满足 现实是否在模型中体现 • • • • 逻 搜 … 辑:完全性 索:查全率
机器学习:准确率
机器学习:召回率
标签(体系)准不准?
标签(体系)全不全?
大数据用户画像:验证
数字化创新
产品 优化改进 ...
渠道管理部门 运营管理部
运营管理
网点布局 优化设计 网点定位和 功能规划 客户访问 流量预测 网点服务 优化改进 柜台资源 配置优化
...
分行 风险管理部
风险防范
申请过线率 提升 实时 反欺诈 客户信用 风险评价 客户 个性化定价 押品价值 自动评估
... 台
授信审批部 信用卡中心 科技部/信息中心
第三 方线 下渠 道
论坛 社区
微信
微博
智能 产品
客服
用户全渠道ID打通
图 中
• 有三类ID
用户A 用户B
• ID间有相互联系
• 相互联系的ID反映出它们很有可能代表同
一个用户
低密级业务
• 可以仅使用多重ID中的任意一个
用户C
• 最大程度打通,跨平台一致体验
高密级业务
• 使用特定ID,或者多种ID的组合
营销活动信息
用户对营销活动、以 及我行各类产品服务 的关系 − − − − − 忠诚度 用户满意度 用户流失概率 营销活动接受程 度 营销活动活跃度 ...
事 实 标 签
模 型 标 签
预 测 标 签
社交网络关联关系
用户社交网络图谱 − 粉丝数量 − 是否加V − 微信朋友圈 − 社交网络影响力 ...
分类、聚类算法
►KNN ►神经网络
统计分析 原始 数据
客户基本信息 客户持有产品 客户历史交易 客户风险等级
...
►贝叶斯网络 ►SVM支持向量机
文本挖掘算法
►TF-IDF ►TextRank ►VSM ►TopicModel ►CRF条件随机场 ... ►LDA
客户收入支出信息
客户渠道使用
客户资金往来
标签体系
化整为零 每个标签都规定了我们观察、 化零为整 用户画像是一个整体,各个维
认识和描述用户的一个角度
度不孤立,标签之间有联系
用户画像可以用标签的集合来表示
用户画像和标签的数学描述
标签是特征空间中的维度
特征空间
化整为零 每个标签都是特征空间中的基 化零为整 基向量之间有关联,不一定是
向量
正交的
身披鹤氅,飘飘然有神仙之概
用户画像的几个方面
描述人、认识人、了解人、理解人
• 依据:事实、
推理过程
• 检验
目标
• 非形式化手
段:文字、
验证
用户画

方式
语音、图像、 视频… • 形式化手段
常识、共识、知识 体系
标准
组织
结构化、非结构化
大数据用户画像:定义
用户画像是对现实世界中用户的数学建模
用户画像是描述用户的数据, 用户画像是通过分析挖掘用户
人和设备连接在一
起,认识人、与人 沟通的方法将发生
大量数据
The Shell)
本质性的变化
人类要学会从比特流中解读他人,更要教会机器从比特流中理解人类
• • EugeneGoostman 信息诈骗 • • 个性化推荐 个性化医疗 • • RTB 智能客服
理论
用户画像感性认识
身长八尺,面如冠玉,头戴纶巾,
微信ID
微博ID 微信ID
序列号 MAC IMEI 固话
手机 固话
会 员 标 识
序列号
序列号
手机
固话 用户名 邮箱 银行卡
手机
固话 旺旺 邮箱 支付宝 手机 固话
微信ID
手机 用户名 邮箱
手机
固话
手机
固话
用户名
邮箱
用户名 邮箱
一定能得到 的标识 有可能得到 的标识
官网 商城
第三 方电 商
体验 店/销 售专 员
营销活动 策划与支持 差异化广告 投放与推广 跨渠道 精准营销 搜索引擎 关键词优化 社会关系 营销 应用部门 个人金融部 电子银行部 分行 个人金融部 客户流失 预测
...
数字化洞察
客户 微观画像 高净值潜在 客户挖掘 多维度 客户细分 休眠客户 唤醒
...
信用卡中心
分行 产品管理部门
数字化渠道
渠道交互 分析与支持 客户体验 设计优化 ... 跨界 产品研发
Big Brother
政府对社会生活有
深入干涉
Big Govern ment
Big Oil、 Big Steel
1960年代,指代行
业中的超级企业
“Big Data” 之 “BIG”
大数据是信息化技术的自然延伸,它让我们从另外一种角度认识世界
IT时代
业务数据 生成和存储 业务IT系统
DT时代
业务IT系统 智能化 大数据
黑名单信息
− − − − − − 信用卡逾期黑名单 小贷逾期黑名单 欠费用户名单 保险骗保用户名单 最高法失信人名单 公安欺诈名单 ...
自定义信息
不同属性的自定义标签 − 白领 − 高收入人群 ...
行外渠道偏好
用户全网渠道偏好 − 上网习惯 − 上网时长 ...
第一维:业务层次划分
用户画像应用逻辑架构
数据+学习,可以验证结果 • 训练集 + 测试集 示 • 高、富 • 家住北京 例 • •
无事实标准
假设+实现,只能验证过程

计算过程是否合乎逻辑 示
好人 内心强大

实践检验
证伪主义 • 试错、A/B Test、数据闭环、自我完善
实践
大数据时代的金融应用框架:银行版
以客户为中心的数字化战略 数字化营销
用户画像是特征空间中的高维向量
大数据用户画像:验证
用户画像是对现实世界中用户的数学建模
模型是否反应了现实 • • • • 逻 搜 … 辑:可靠性 索:查准率 现实是否在模型中体现 • • • • 逻 搜 … 辑:完全性 索:查全率
机器学习:准确率
机器学习:召回率
标签(体系)准不准?
标签(体系)全不全?
是符合特定业务需求的对用户
的形式化描述
尽可能多的数据信息得到的
源于现实,高于现实
源于数据,高于数据
大数据 + 洞察
大数据用户画像:构建原则
用户画像 业务知识体系 形式化
本体
Wiki: • • • • 本体是一种形式化的、对于共享概念体系的明确而又详细的说明 本体提供的是一种共享词表,也就是特定领域之中那些存在着的对象类型或概念及其属性和相互关 系 本体就是一种特殊类型的术语集,具有结构化的特点,且更加适合于在计算机系统之中使用 本体实际上就是对特定领域之中某套概念及其相互之间关系的形式化表达
用户画像是对现实世界中用户的数学建模
模型是否反应了现实 • • • • 逻 搜 … 辑:可靠性 索:查准率 无法同时满足 现实是否在模型中体现 • • • • 逻 搜 … 辑:完全性 索:查全率
机器学习:准确率
机器学习:召回率
标签(体系)准不准?
标签(体系)全不全?
大数据用户画像:准确性验证
有事实标准
产品数据集成
用户数据集成
数据源
企业网站
社区论坛
移动App
第三方数据
数据集成和应用架构
数据源系统
数据中转系统
大数据平台
数据应用系统
通知类系统 短信平台
数据类系统
信用卡核心交易系统
信用卡风险关联系统 数据仓库 ……
信用卡中心 大数据平台
数据文件 T+1
电子邮件
API
实 时 接 口
营销类系统 网上银行 手机银行
近期需求信息
客户近期的需求 (包含金融+非金融) − − − − − 近期是否准备结 婚 近期是否生小孩 近期是否换工作 近期是否出行 近期是否想买理 财 ...
第 二 维 : 标 签 应 用 深 度
生活信息
用户基本生活类标签 − 用水、用电 − 天然气使用信息 ...
非金融产品偏好
用户的兴趣爱好 − 喜欢高尔夫 − 经常看财经类新闻 ...
金融关联关系
相关主题