当前位置:文档之家› ArcGIS地理大数据平台配置及性能优化策略

ArcGIS地理大数据平台配置及性能优化策略


80%
78% 82% 85% 85% 78%
68.5%
64% 61% 81.5% 78% 60%
50%
47% 41.9% 42% 49% 52%
40.5%
40.3% 41.2% 40.7% 41% 41%
实践3:系统参数影响
实践表明:系统参数设为系统默认时(既 80%),性能 最优
实践4:不同存储类型性能对比
1、输入数据
| 发布成服务
1、准备数据
2、选择注册大数据文件共享
3、输入数据路径注册
1、输入数据 | 服务查看
查看服务清单
查看服务目录
Portal里查看服务
2、分布式计算|与传统GIS Server处理区 别
传统GIS Server处理并发请求: • 启动多实例
GA Server大数据分布式计算: • 分解多个task
3、结果存储|Big Data Store
• • • • 分布式存储 横向扩展 高效检索 备份机制
4、内容发布、可视化显示
丰富的分析工具 5大类,11小类
涵盖了点、线、面的统计、分析、管理 汇总数据
• • • • • 聚合点 连接要素 轨迹构建 汇总属性 范围内汇总
分析模式
• • • • 计算密度 查找热点 创建时空立方体 创建缓冲区
2、软件平台性能|GeoAnalytics参数配置
• 参数设置:站点(根) > System > GeoAnalyticsTools>参数
– CPU参数:是针对集群中总CPU核数进行设置 – 内存参数:是针对每个GA节点进行设置
2、软件平台性能|GeoAnalytics参数配置
• GeoAnalytics参数设置举例:
方案一 方案二
8core 8core
16G 64G
39分钟 9分钟
60% 90%
>95% ~50%
实践2:内存利用率|点聚合性能测试
• 方案一,内存利用率
• 方案二,内存利用率
实践2:DataStore内存密集型|copy to datastore
• 测试场景:
测试场景
基期地类图斑 (模拟)
存储类型
• • Maximum allowed memory per job per machine (GB): 6 Maximum allowed compute cores per job (CPU):4
2、软件平台性能|GeoAnalytics实例数
• 设置GeoAnalytics GP工具的最大实例数,是指可以同时运 行多少个任务数,系统默认的每个节点最大实例数为1, 集群中有三个节点,那么最大实例数为3 既:可以同时执行三个分析任务: 当前有一个任务正在执行:
大数据成果库
1、输入数据 | 类型、来源
Web GIS Layer • 要素服务
Big Data File Share • • 分隔符文件(csv,tsv..) Shapefile
来源:
• • File GDB DBMS
来源: • File(CIFS、NFS) • HDFS • Hive • 云存储
ArcGIS Data Store
X,Y 影像大数据平台 矢量大数据平台 实时大数据平台
GIS Server
提供GIS服务器能力
Geocoding
Business Analyst
Raster Analytics
GeoAnalytics Server
GeoEvent Server
GeoAnalytics Server
ArcGIS地理大数据平台配置及性能优化 策略
刘春影
目录
1、ArcGIS GeoAnalytics介绍 2、性能影响因子 3、性能优化实践 4、配置方案参考 5、总结
ArcGIS GeoAnalytics介绍
什么是ArcGIS GeoAnalytics
1. 对时空数据进行分布式计算处理的新平台
3、数据组织
• Feature Service • bigdata file share
数据 1 类型
• •
csv shp
存储 2 形式
运行 3 场景
• 文件型存储 • 分布式存储 • 云存储
• 计算密集型 • 网络I/O密集型 • 磁盘I/O密集型
3、数据组织|①数据类型
数据预 处理
数据集 准备 Bigdata file share
4、部署模式
单机部署:
• 测试环境
• 计算集群:GA节点配置、数量 • 存储集群:spatioltemporal节点配 置、数量
集群部署:
性能优化实践
典型大数据分析场景
场 景 与 资 源 消 耗
CPU计算密集型
内存密集型 磁盘I/O密集型 网络I/O密集型
如点聚合运算(Aggregate Points)
• • Maximum allowed memory per job per machine (GB): 12 Maximum allowed compute cores per job (CPU): 9
2、软件平台性能|GeoAnalytics参数配置
GeoAnalytics参数设置举例:
– 举例2,同时执行两个任务,集群中有三个节点,每个节点配置: 4core、12G内存,那么集群中总资源为:12core、48G内存,同时执 行两个任务时,参数设置:12core x 40%=4.8core,16G x 40%=6.4G 内存,结果取整,参数设置为:CPU:4,内存:6。设置参数:
场景描述
copy
datastore
to
1000万
HDFS
1000万条基期地类图斑数据,由
HDFS分布式存储,拷贝到 Spatiotemporal时空大数据存储
• 测试结果:
测试场景 耗时 GACPU利 用率 copy datastore to GA内存 利用率 DataStore CPU利用率 DataStore 内存利用率
Feature Service
3、数据组织|②数据存储形式
File
HDFS
Hive
CloudStone

公共存储: • Windows共享 • Linux共享 • 优点: • 使用便捷 • 缺点: • 性能瓶颈
• • 分布式文件存储 • 优点: • 海量数据处理速度快 • 冗余机制 • 缺点: • 大量小文件存储不适合
实践小结
系统性能优化是一个反复实践的过程!
综合影响因素:数据规模、分析场景、参数设置、节点配置
不要忽略了DataStore!
1. DataStore时空大数据存储,建议采用本地磁盘 2. 亿级数据,数据源采用HDFS分布式存储 3. 系统参数,设置为80%时最优
部署模式
基础WebGIS+分布式存储+分布式计算
用率
40% 40% 41%
方案一 方案二
方案三
方案四 方案五 方案六 方案七 方案八
480万
480万 480万 480万 480万 480万
1000万
1000万 1000万 1.3亿 1.3亿 1.3亿
80%
70% 60% 80% 70% 60%
37
42 45 54 60 60
云存储 • 优点: • 高可扩展性 • 高容错性 • 高吞吐量 • 缺点: • 需要专业的 运维
3、数据组织|③运行场景
关于计算、分析的理解:
– 计算:找出这间屋子里谁个子最高 – 分析:找出这间屋子里谁跟谁关系最好
内容分析:需要关联更多属性,消耗资源更多 • 点聚合统计:属于空间计算 • Join连接:属于空间分析,如分析出从一个ATM机,到另一 个ATM机的转账记录,要求一小时以内、且转出ATM机之 间距离在1KM以内、且转账金额为5万美金以内的要素 相同数据规模下,Join工具消耗资源更高!
拷贝数据到Relational ,对DataStore CPU利用率较高
实践2:内存密集型|点聚合性能测试
• 测试数据
测试 测试场 景 数据量 3000万条 数据结构 较为复杂
数据描述
2014年纽约出租 车运行数据
分析内容 1km格网,点聚 合
• 测试结果
测试 CPU 内存 耗时
CPU资源利用

内存利用率
临近分析
数据管理 • 拷贝到DataStore
位置查找
• 查找相似位置
性能影响因子
谈及性能,我们在谈什么?
响应时间

系统吞吐量

资源利用率 ?
是指系统正常运行时,各项计算资源利用率维持在理想范围内,且遇到峰值
访问时,依然保持健壮性、稳定性运行、具备良好扩展性、延展性的一种能 力
而这种能力,需要硬件平台、软件平台、部署模式、软件配置等各项指标综
4
480万条
1.3亿条
实践3:系统参数影响|面状数据统计
• 测试结果
场景 耕地质量 基期地 类图斑 系统参 数 耗时 GA CPU GA内存利 Datastore Datastore CPU利用 内存利用
等别数据
100万 200万
数据
100万 200万 80% 80%
(分钟) 利用率
4.4 25 84% 75%
如属性关联运算 ( Join )、 缓 冲区分析( Buffer)
大数据分析过程、结果数据写入
空间数据读取读取、加载过程
分析场景与资源利用
不同分析场景、对系统资源利用率概览:
实践1:CPU密集型运算|GA CPU利用率
点聚合运算,对GA CPU利用率较高
实践1:CPU密集型运算|DataStore CPU利 用率
相关主题