当前位置：文档之家› 大数据库系统概论——查询优化实验报告材料

大数据库系统概论——查询优化实验报告材料

数据库实验报告题目：查询优化：军毅日期：2016-5-14实验目的1.明确查询优化的重要性；2.理解代数优化与物理优化方法；3.学习在查询中使用较优的方法。

实验平台1.OS：Windows XP2.DBMS：SQLServer2008、VC6.0（或者visio studio）3.IDE：Eclipse实验用时：两次上机实验容一、数据库的恢复操作（导入数据）1.在【程序】中打开Microsoft SQL Server Management Studio。

新建数据库“FoodmartII”2.在数据库FoodmartII 上右键单击，选择【任务】【导入数据】。

3.在“导入和导出向导”对话框中，数据源选择“Microsoft Access”，单击“文件名”后面的【浏览】按钮，按你的存储路径找到Foodmart.mdb 文件。

单击【下一步】。

4.在“选择目标”部分，注意目标数据库的名称应为刚才建立的“FoodmartII”。

5.选择复制一个或多个数据库表。

6.在接下来的对话框中选择可能用到的数据表，根据需要勾选。

单击【下一步】并“立即执行”，成功导入数据后可以看到如下对话框。

单击【关闭】按钮。

观察数据库引擎中的FoodmartII，看一看数据库中有哪些表，表中有哪些数据，是否包含索引，是否建立了视图？二、理解索引对查询的影响1.新建查询，在查询窗口中输入一个查询命令。

2.在【查询】菜单中选择【显示估计的查询计划】，注意观察查询窗口下面的执行计划窗口。

执行该查询（使用工具栏上的“执行”按钮或者【查询】菜单上的“执行”命令），观察右侧【属性】窗口中“返回的行数”“占用时间”等关键信息。

3.为Customer 表建立索引。

建立Customer_id 列的非聚集索引。

执行查询，在【属性】窗口中观察查询时间。

三、分析查询条件对查询执行的影响1.新建查询，输入查询命令，再按上面的步骤，观察“估计的查询计划”和“占用时间”时间等信息，比较查询条件对查询执行的影响。

2.观察查询命令，在emplyee 表建立salary 列的非聚集索引。

再次观察上面这个查询命令的查询计划和执行情况。

四、分析连接条件对连接操作的影响1.对比下面查询的查询计划和查询执行情况2.在employee 表上对employee_id 列建立聚集索引.观察查询计划和执行情况的变化.五、视图的使用1.执行下面的查询命令，观察查询计划和执行情况。

2.建立视图“cust_prod_sales”，由product，customer ， sales_fact_1998三个表组成，其中包含查询常用的列（选取的列可以多于查询Q51），再执行下面的查询，比较两个查询的执行情况。

六、查询优化测试1.数据准备，导入TPCH 数据集。

数据导入方法同前面Footmark 的导入类似。

2.对以下查询进行优化,写出你的优化方法. 实际执行这个查询, 记录你的执行时间(毫秒).实验中出现的问题实验容一、数据库的恢复操作（导入数据）1.在【程序】中打开Microsoft SQL Server Management Studio。

新建数据库“FoodmartII”打开Microsoft SQL Server Management Studio，如图：新建数据库“FoodmartII”，如图：2.在数据库FoodmartII 上右键单击，选择【任务】【导入数据】。

如图：3.在“导入和导出向导”对话框中，数据源选择“Microsoft Access”，单击“文件名”后面的【浏览】按钮，按你的存储路径找到Foodmart.mdb 文件。

单击【下一步】。

如图，选择“Microsoft Access”，找到Foodmart.mdb 文件：4.在“选择目标”部分，注意目标数据库的名称应为刚才建立的“FoodmartII”。

如图，选择我刚刚建立的“FoodmartII”数据库：5.选择复制一个或多个数据库表。

如图，勾选“复制一个或多个数据库表”：在接下来的对话框中选择可能用到的数据表，根据需要勾选。

我选择了全部的数据表，并单击下一步，如图：单击【下一步】后，选择“立即执行”，如图：如下图，可看到导入成功，单击【关闭】按钮：观察数据库引擎中的FoodmartII，我们可以看到数据库中有哪些表，例如account表,category表，currency表等，如图：我们点击cureency表中的索引，可以看到初始时并没有任何索引，如图：右键cuurency表，选择“编辑前200行”，可以看到表中的数据，如图：二、理解索引对查询的影响1.新建查询，在查询窗口中输入一个查询命令。

select customer_idfrom customerwhere customer_id>60002.在【查询】菜单中选择【显示估计的查询计划】，注意观察查询窗口下面的执行计划窗口。

如图，表扫描占100%：执行该查询（使用工具栏上的“执行”按钮或者【查询】菜单上的“执行”命令），观察右侧【属性】窗口中“返回的行数”“占用时间”等关键信息。

如图，我们可以看到返回的行数为4281行，占用的时间大约为2秒多：3.为Customer 表建立索引。

建立Customer_id 列的非聚集索引，如下图所示。

输入命令：create index ID_noncluson customer(customer_id);建立非聚集索引：在customer表中查看索引，可以看到我们已经建立好的非聚集索引，如图：建立好索引后，仍使用如下查询命令：select customer_idfrom customerwhere customer_id>6000在菜单栏中的“查询”下点击“显示估计的执行计划”，观察新的查询计划，如图，新的执行计划索引查找占100%：执行该查询，在【属性】窗口中观察查询时间。

如图，我们可以看到，建立好索引再进行查询，占用时间减少到不足1秒：三、分析查询条件对查询执行的影响1.新建查询，输入查询命令，再按上面的步骤，观察“估计的查询计划”和“占用时间”时间等信息，比较查询条件对查询执行的影响。

Q1：select customer_idfrom customerwhere customer_id=2621;初始情况下未建立索引，输入命令后，在菜单栏中的“查询”项下选择“显示估计的执行计划”，表扫描占100%：然后点击执行，在属性栏中可以看到，返回的行数为1，占用的时间为7秒多，如图：然后建立非聚集索引，在新建查询中输入上述命令，选择“显示估计的执行计划”，如图，索引查找占100%：点击“执行”，在属性栏中可以看到，返回的行数为1，占用的时间为2秒多，如图：再把where 条件分别改写为：customer_id>2621 和customer_id<>2621，观察他们有什么异同。

总结查询命令书写的经验。

Q2：select customer_idfrom customerwhere customer_id>2621;显示估计的执行计划，表扫描占100%：点击“执行”，在属性栏中可以看到，返回的行数为7650行，占用的时间为3秒多，如图：建立非聚集索引后，显示估计的执行计划，可以看到，索引查找占100%：点击“执行”后，在属性栏中可以看到返回的行数为7650行，占用的时间为2秒多，如图：Q3:select customer_idfrom customerwhere customer_id!=2621;这里我使用的是!=而不是<>，显示估计的执行计划，表扫描占100%，如图：点击“执行”，在属性栏中可以看到，返回的行数为10260行，占用时间为3秒多，如图：建立索引后，显示估计的执行计划，可以看到，索引扫描占100%：点击“执行”，属性栏中可以看到，返回的行数为10260行，占用的时间为2秒多，如图：可以知道，不等于操作符是永远用不到索引的，索引只能告诉什么存在于表中，而不能告诉什么不存在于表中，当数据库遇到“！=”，“<>”时，会转而用全表扫描，对a<>0的条件应写为a<0 or a>0.2.观察下面的查询命令：select full_name,salaryfrom employeewhere salary>30000;在未建立索引的情况显示估计的执行计划，表扫描占100%，如图：返回行数为8行，时间大约3秒多，如图：在emplyee 表建立salary 列的非聚集索引。

再次观察上面这个查询命令的查询计划和执行情况。

RID查找占87%，索引查找占13%，如图：执行后，返回行数为8，占用时间为2秒多，如图：（1）请写出你对以上容的分析或得到的经验。

尽量少用不等于查询条件当需要查找的数据特别多时，使用全表扫描或许比索引扫描还要好（2）试一试, 你还能得到哪些查询命令书写的经验? (不同查询语句导致不同查询计划)当插入的数据为数据表的记录数量10%以上时，首先需要删除该表的索引来提高数据的插入效率，当数据全部插入后再建立索引。

避免在索引列上使用函数或计算，在where子句中，如果索引列是函数的一部分，优化器将不使用索引而使用全表扫描，举例：低效：select * from table where salary*12>25000高效：select * from table where salary>25000/12索引列上用>=替代>，举例：高效：select * from table where Deptno>=4低效：select * from table where Deptno>3四、分析连接条件对连接操作的影响1.对比下面查询的查询计划和查询执行情况Q41:Select employee.employee_id,full_name,employee.salary,pay_date, salary_paidfrom employee,salary显示估计的执行计划，如图，嵌套循环96%,表假脱机4%：Q42:select employee.employee_id,full_name,employee.salary,pay_date, salary_paidfrom employee,salarywhere employee.employee_id=salary.employee_id显示估计的执行计划，哈希匹配50%，表扫描各占41%和9%：点击“执行”，返回行数为21252行，占用时间3秒多：Q43：Selectemployee.employee_id,full_name,employee.salary,pay_date,salary_paidfrom employee,salarywhere employee.employee_id>salary.employee_id显示估计的执行计划，嵌套循环占73%，索引假脱机27%：但是，点击“执行”，因为数据溢出，无法完成。

e商务文档

大数据库系统概论——查询优化实验报告材料

相关文档推荐：