当前位置:文档之家› 数据仓库和平台

数据仓库和平台


数据仓库的几个概念



维:是人们观察数据的特定角度,是考虑问题时的 一类属性,属性集合构成一个维(时间维、地区、 行业维等) 粒度:数据仓库的数据单位中保存数据的细化或综 合程度的级别。细化程度越高,粒度级就越小;相 反,细化程度越低,粒度级就越大。 单元格:多维数组的取值(2011年10月,安徽,增 值税,56亿)
数据仓库的组成

Байду номын сангаас
2、数据抽取工具 数据抽取工具把数据从各种各样的存储 方式中拿出来,进行必要的转化、整理, 再存放到数据仓库内。对各种不同数据存 储方式的访问能力是数据抽取工具的关键。 数据转换都包括:删除对决策应用没有意义 的数据段;转换到统一的数据名称和定义; 计算统计和衍生数据;给缺值数据赋给缺 省值;把不同的数据定义方式统一。
征管状况分析设计思路


按照“原始凭证──过渡数据表──明细 数据表──汇总数据表”的设计思路,实 现了征管状况分析(登记、申报、征收)。 次月的月初加工征管状况分析报表。 最初的数据是从2010年元月开始的
征管状况分析设计思路
征管状况分析
税务登记表(适用单位纳税人) 税务登记表(适用个体经营) 税务登记表(适用临时纳税人) 登记类汇总表 纳税人信息明细表 申报类汇总表 纳税人状态变 更表 征收类汇总表 纳税人税种变 更表 一般纳税人资 格变更表 非居民企业资 格变更表 企业所得税征 收方式鉴定表 变更税务登记表 纳税人登记补录表 注销税务登记申请审批表 重新税务登记申请审批表 停业复业(提前复业)报告书 复业(提前复业)报告书 非正常户认定书 非正常户解除 非正常户注销 无证户失踪处理 无证户失踪、注销状态解除 无证户失踪注销 无证户注销 税务登记表(无证户)
安徽国税数据仓库资源 集成各系统的原始凭证。 原始凭证加工的公用信息。 各类应用工具。 分析成果。

如何使用数据仓库 省局管理用户的使用 省、市分析用户的使用 一般用户的使用

安徽国税数据仓库的建设概况




安徽国税数据仓库建设项目与浪潮 公司合作完成的。 2008年9月1日,数据仓库一期项目 启动 2009年9月15日,用户试运行,同 年11月一期项目通过验收。 2010年8月启动数据仓库二期项目。 目前已基本完成。
数据仓库特点——面向主题


操作型数据库的数据组织面向事务处理任务,各 个业务系统之间各自分离,而数据仓库中的数据 是按照一定的主题域进行组织的。 主题是与传统数据库的面向应用相对应的,是一 个抽象概念,是在较高层次上将企业信息系统中 的数据综合、归类并进行分析利用的抽象。每一 个主题对应一个宏观的分析领域。数据仓库排除 对于决策无用的数据,提供特定主题的简明视图。
技术架构
数据仓库的数据流程
交易系统
数据仓库
CTAIS
业务应用
防伪税控
ETL
车购税
原 始 凭 证 库
ETL
公 用 信 息 库 明 细 库
ETL
汇 总 库
ETL
ETL
结 果 ︵ 表 、 指 标 ︶
输 出 ︵ 展 现 、 发 布 ︶
门 户
其它
本地元数据(技术元数据、业务元数据)
数据归集




数据仓库——反映历史变化

数据仓库中的数据通常包含历史信 息,系统记录了企业从过去某一时 点(如开始应用数据仓库的时点)到 目前的各个阶段的信息,通过这些 信息,可以对企业的发展历程和未 来趋势做出定量分析和预测。
数据仓库的组成

1、数据仓库数据库 数据仓库的数据库是整个数据 仓库环境的核心,是数据存放的地 方和提供对数据检索的支持。相对 于操纵型数据库来说其突出的特点 是对海量数据的支持和快速的检索 技术。
登录




登录地址: http://79.16.17.82:8710/ 可通过省局网站链接 用户: CTAIS用户,134…… 。密码默认为999999。
IE设置




添加IP地址:http://79.16.17.82到可信 任的“网站”列表中, 安全级别调整到“低”。 进入【Internet选项】常规页, Internet 临时文件框 ,按“设置”按钮,选择“每 次访问此页时检查”。 详细见下载文档。

二者的联系: 数据仓库的出现,并不是要取代 数据库。目前,大部分数据仓库还是 用关系数据库管理系统来管理的。可 以说,数据库、数据仓库相辅相成、 各有千秋。 数据仓库数据一般来源于数据库。
数据仓库与数据库的区别(1)
1、出发点不同:数据库是面向事务的 设计;数据仓库是面向主题设计的。 2、存储的数据不同:数据库一般存 储在线交易数据;数据仓库存储的一般 是历史数据。 3、设计规则不同:数据库设计是尽 量避免冗余,一般采用符合范式的规则 来设计;数据仓库在设计是有意引入冗 余,采用反范式的方式来设计。 4、提供的功能不同:数据库是为捕获 数据而设计,数据仓库是为分析数据而 设计。
业务功能





一户式查询 征管状况分析 申报监控 数据质量分析 税收风险管理 税收收入分析 重点税源分析预警
数据仓库要完成的基础工具



原始凭证定义工具 数据抽取工具 通用查询工具 风险管理工具 应用管理工具 数据质量检测工具 通用采集工具 元数据管理工具 档案管理工具
税源监控分析平台数据特点


1、所有数据来源于原始凭证 数据标准化 有据可查 定位准确 有利于今后的业务拓展 2、各种分析都是通过工具来实现的。实 现了业务加载与技术无关性。 3、采用合作的开发模式。
税源分析监控平台 与各生产系统之间联系与区别



平台的基础数据来源于各生产系统。 生产系统是面向事务的设计,税源分析监控 平台是面向主题设计的。 生产系统是用于采集数据,平台是用于分析 数据。 生产系统一般存储在线交易数据,税源分析 监控平台一般次月进行数据分析,展示分析 结果。
数据归集是对分散在各业务系统数据进行抽取。 目前已抽取的数据包括:综合征管软件、增值税防伪 税控系统、车辆购置税征收管理系统、公路内河货物 运输发票税控系统、机动车销售发票系统、出口退税 系统。 数据抽取的方式是通过原始凭证。从源头规范和统一 了数据口径,提高了数据质量,保障了分析数据的可 追溯性 。可实现透明访问。 抽取的原始凭证与实际上的原始凭证的差异。 已抽取原始凭证220多项,抽取记录近亿条记录 归集的手段:原始凭证定义工具。
数据仓库与数据库的区别(2)
5、基本元素不同:数据库的基本元 素是事实表,数据仓库的基本元素是维 度表。 6、容量不同:数据库基本容量上 要比数据仓库小的多。 7、服务对象不同:数据库是为了 高效的事务处理而设计的,服务对象为 企业业务处理方面的工作人员;数据仓 库是为了分析数据进行决策而设计的, 服务对象为企业高层决策人员。
数据仓库特点——集成的

数据仓库中的数据是在对原有分散的 数据库数据抽取、清理的基础上经过 系统加工、汇总和整理得到的,必须 消除源数据中的不一致性,以保证数 据仓库内的信息是关于整个企业的一 致的全局信息。
数据仓库特点——相对稳定的

数据仓库的数据主要供企业决策分析 之用,所涉及的数据操作主要是数据 查询,一旦某个数据进入数据仓库以 后,一般情况下将被长期保留,也就 是数据仓库中一般有大量的查询操作, 但修改和删除操作很少,通常只需要 定期的加载、刷新。
控件安装
进入“安徽国税统一工作平台”, 打开页面“下载安装”链接,系统 检测需安装的插件,点击 “系统插 件安装”链接。安装下载的“报表” 控件 。 详细见下载文档。

安装FLASH插 件


进入“安徽国税统一工作平台”,打开页 面“下载”按钮,点击“FLASH PLAYER 10 插件下载“超链接,下载“FLASH PLAYER 10”插件,安装下载的“FLASH PLAYER 10” 插件。 详细见下载文档。

数据仓库组成

5、数据集市(Data Marts) 为了特定的应用目的或应用范围, 而从数据仓库中独立出来的一部分数 据。 在数据仓库的实施过程中往往可以从 一个部门的数据集市着手,以后再用 几个数据集市组成一个完整的数据仓 库。
数据仓库数据存储与管理

数据的存储与管理是整个数据仓库系统的核心。 OLAP(联机分析处理)服务器 对分析需要的数据进行有效集成,按多维模型 予以组织,以便进行多角度、多层次的分析,并发 现趋势。其具体实现可以分为:ROLAP(关系型 在线分析处理)、MOLAP(多维在线分析处理) 和HOLAP(混合型线上分析处理)。ROLAP基本 数据和聚合数据均存放在RDBMS之中;MOLAP基 本数据和聚合数据均存放于多维数据库中; HOLAP基本数据存放于RDBMS之中,聚合数据存 放于多维数据库中。
解决树形菜单显示问题





由于IE版本的不同,树形菜单有时只能显示第一 层,不能显示下面的第二层或更多层。 进入“安徽国税税源监控分析平台”,打开页面 “下载”按钮,点击“树形菜单解决方案”超链 接,下载“树形菜单解决方案”压缩包。 解压下载的“树形菜单解决方案”,把其中的 “msxml3.dll”,拷贝到系统system32文件夹下。 点击“开始--运行”,弹出“运行”对话框输入 “regsvr32 msxml3.dll”命令,点击“确定”按 钮。 详细见下载文档。



1)收集和分析业务需求。 2)建立数据模型和数据仓库的物理设计。 3)定义数据源。 4)选择数据仓库技术和平台。 5)从操作型数据库中抽取、净化、和转换数据到数据仓 库。 6)选择访问和报表工具。 7)选择数据库连接软件。 8)选择数据分析和数据展示软件。 9)更新数据仓库 。
相关主题