当前位置:文档之家› 数据仓库

数据仓库

哈尔滨工业大学华德应用技术学院实验报告课程名称:数据仓库与数据挖掘系别:计算机应用技术系专业:软件工程学号:1099111130姓名:陈天任学期:2012春季学期实验成绩:实验项目列表序号实验名称成绩1SQL Server Integration Services2SQL Server Analysis Services3SQL Server Reporting Services456789101112指导教师签字:实验名称:实验一SQL Server Integration Services实验时间:2012.4.17实验地点:S201实验目的:熟悉数据仓库的ETL操作,熟悉SQL Server2005中SSIS的使用;熟练掌握平面文件、excel文件和sql server三者之间的数据转换;实验步骤:启动SSMS,在sql server2005中新建一个数据库命名为dw。

在dw数据库上单击鼠标右键,在弹出的快捷菜单中,选择“任务→导入数据”,设置表名字T2、选择文件源类型excel、选择文件地址、选择导入的数据库dw、设置字段名、设置字段类型。

所有的设置完成点击“完成”.打开数据库,查看表,刷新,导入完成。

在Microsoft SQL Server2005中启动SQL Server Business Intelligence Development Studio,在文件菜单中选择“新建→项目”,在弹出的新建项目对话框中选择,填好名称和位置后,点击确定。

(1)在Microsoft SQL Server2005的dw数据库中,新建user表,结构如下一图:新建系别表,结构如下二图:(2)控制流中添加数据流任务,数据流中添加,,。

(3)设置平面文件源,源文件text1,设置OLE DB,第四列“系别编号”参照新建的系别表中的“编号”,将test1中的前三列及系别表中的系别列导入到dw数据库中的user表中,建立三者的关系,点击文件点启动,等三个控件都变成绿色代表导入成功。

3.将AdventureWorks数据Production.TransactionHistoryArchive表里ProductID,Quantity,ActualCost这三列的数据,按照下表列出的任务、容器、数据源和目标转换到results.xls文件中。

(1).控制流中添加数据流任务,数据流任务(Calculate Values)在包中执行数据流。

(2)数据流中添加设置名为Extract Data,数据库的TransactionHistoryArchive表中加载归档销售事务源。

(3)数据流中添加设置名为Calculate LineItemTotalCost。

此转换通过将每个销售事务的成本与数量相乘(Quantity*ActualCost)并将其结果存储在新列中来创建一个新列LineItemTotalCost。

然后,此新列会添加至每个输出行中。

(4)数据流中添加聚合转换Sum Quantity and LineItemTotalCost)按ProductID列对数据进行分组,并且对于每一个ProductID,都计算其Quantity列的和来作为QuantitySum列,然后计算LineItemTotalCost列的和作为TotalCostByID列。

(5)数据流中添加设置名为Calculate Average Cost)向每一个输出行添加一个新列AvgCostByID。

此列包含由每一个ProductID的QuantitySum得来的TotalCostByID。

(6)数据流中添加设置名为Sort by ProductID按ProductID列对结果进行排序。

(7)数据流中添加设置名为Load Data将数据保存至excel文件results.xls。

(8)完成上述步骤,通过关系连接各个数据流任务。

关系连接好之后,点击文件启动,等所有的任务都变成了绿色。

实验总结:通过本次实验了解了SQL SERVER2005中的示例数据库,了解并熟练掌握数据的导入导出,使用并示例数据库中的表。

并且熟练的掌握了其应用。

实验名称:实验二SQL Server Analysis Services实验时间:2012.04.27实验地点:S203实验目的:掌握决策树挖掘技术;掌握Microsoft时序挖掘技术;掌握Microsoft关联规则挖掘技术;掌握Microsoft时序分析与聚类分析挖掘技术;深刻的对数据挖掘相关名词进行理解和运用实验步骤:1.创建一个Analysis Services项目(1).打开Microsoft SQL Server Management Studio,连接好数据库,确认是否有Adventure Works与Adventure Works DW两个数据库,(2).打开Microsoft Visual Studio,点击文件—新建项目—Analysis Services项目,然后将项目名称改为Adventure Works.点击确定完成。

2.创建一个数据源(1).在解决方案资源管理器中,右键单击“数据源”文件夹,然后选择“新建数据源。

系统将打开数据源向导。

在“欢迎使用数据源向导”页面中,单击“下一步”按钮。

单击“新建”按钮向AdventureWorks数据库添加连接。

(2)在“连接管理器”的“提供程序”列表中,选择“本机OLEDB\Microsoft OLE DBProvider for SQL Server”;数据库服务器名为本地服务器也可填localhost;使用SQL server身份验证;在选择或输入一个数据库名栏中选择Adventure Works DW数据库;点击测试按钮,显示测试成功之后点击下一步继续。

(3)在“模拟信息”页中,选择“默认值”,再单击“下一步”。

在“完成向导”页面中,数据源的默认名称为Adventure Works DW。

单击“完成”。

新的数据源Adventure Works DW将显示在解决方案资源管理器的“数据源”文件夹中。

3.创建数据源视图(1).在解决方案资源管理器中,右键单击“数据源视图”,选择“新建数据源视图”,在“欢迎使用数据源视图向导”页上,单击“下一步”。

(2).在“选择数据源”页的“关系数据源”下,系统将默认选中您在上一个任务中创建的Adventure Works DW数据源。

单击“下一步”。

在“选择表和视图”页上,选择下列各表,然后单击右箭头键,将这些表包括在新数据源视图中:a.dbo.ProspectiveBuyerb.dbo.vAssocSeqLineItemsc.dbo.vAssocSeqOrdersd.dbo.vTargetMaile.dbo.vTimeSeries(3).在“完成向导”页上,默认情况下,系统将数据源视图命名为Adventure Works DW。

单击“完成”。

系统将打开数据源视图设计器,显示Adventure Works DW数据源视图。

点击完成按钮出现如下所示的Adventure Works DW数据源视图。

5.数据挖掘结果分析1.Microsoft决策树挖掘技术—创建用于目标邮件方案的挖掘结构(1).在解决方案资源管理器中,右键单击“挖掘结构”并选择“新建挖掘结构”。

在“欢迎使用数据挖掘向导”页上,单击“下一步”。

(2).在“选择定义方法”页上,确认已选中“从现有关系数据库或数据仓库”,再单击“下一步”。

在“选择数据挖掘技术”页的“您要使用何种数据挖掘技术?”下,选择“Microsoft决策树”。

(3).在“选择数据源视图”页上,请注意已默认选中Adventure Works DW。

在数据源视图中,单击“浏览”查看各表,然后单击“关闭”返回该向导。

(4).在“指定表类型”页上,选中vTargetMail表旁边“事例”列中的复选框,再单击“下一步”。

a.在“指定定型数据”页上,确保已选中CustomerKey列旁边Key列中的复选框。

b.选中BikeBuyer列旁边的“输入”和“可预测”。

c.选中以下各列旁边的“输入”复选框:Age、CommuteDistance、EnglishEducation、EnglishOccupation、FirstName、Gender、GeographyKey、HouseOwnerFlag、LastName、MaritalStatus、NumberCarsOwned、NumberChildrenAtHome、Region、TotalChildren、YearlyIncome。

(5)a.在“完成向导”页上的“挖掘结构名称”中,键入Targeted Mailing。

b.在“挖掘模型名称”中,键入TM_Decision_Tree。

c.选中“允许钻取”复选框,点完成。

决策树结果分析:(1)根据我们的条件什么样的因素影响着购买自行车的行为,通过我们挖掘的决策树我们可以看出,年龄是影响购买自行车行为的最重要的因素,所以根据年龄分组之后,基于年龄因素分组之上还有很多影响购买自行车行为的因素。

从决策树上我们不难看出有没有汽车、是否单身,居住地区等因素都是影响购买自行车行为的因素。

(2)从图中可以看出年龄小于36,没有汽车的人购买的可能性最大。

年龄在36-44之间没有汽车或者有一辆汽车购买的可能性也很大。

依赖关系网络结果分析:(1)我们可以根据依赖关系网络图预测出各个属性之间的关系,也能推断出多种属性组合所影响的行为。

通过节点能看出属性一向可预测属性的强度,根据选项卡颜色的比例可以看出所选节点预测哪些节点,它本身又是由哪些节点预测的。

(2)我们的关系网,购买自行车的行为为可预测属性,年龄,是否有车,居住地址,收入等这些因素就是会影响可预测属性结果的属性。

从中我们不难看出年龄的颜色比例是最深的,各个属性之间也是相互影响的。

实验总结:通过本次实验大致谅解了决策树挖掘技术、Microsoft时序挖掘技术、Microsoft关联规则挖掘技术、Microsoft时序分析与聚类分析挖掘技术;同时对数据挖掘相关名词有了一定的理解。

实验名称:实验三SQL Server Reporting Services实验时间:2012.5.10实验地点:S203实验目的:1.复习前两次实验的数据挖掘技术.2.根据挖掘结果生成报表服务。

实验步骤:1.先利用实验一的知识把老师给的数据源导入数据库。

2.在利用实验二的知识对几个表和相关字段进行数据挖掘和分析。

3.生成报表服务:(1)打开Business Intelligence Development Studio,文件→新建→项目→新建项目→项目类型→商业智能项目→模板→报表服务器向导。

相关主题