2013高教社杯全国大学生数学建模竞赛承诺书我们仔细阅读了《全国大学生数学建模竞赛章程》和《全国大学生数学建模竞赛参赛规则》(以下简称为“竞赛章程和参赛规则”,可从全国大学生数学建模竞赛网站下载)。
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。
如有违反竞赛章程和参赛规则的行为,我们将受到严肃处理。
我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。
我们参赛选择的题号是(从A/B/C/D中选择一项填写): B 我们的参赛报名号为(如果赛区设置报名号的话):所属学校(请填写完整的全名):参赛队员 (打印并签名) :1.2.3.指导教师或指导教师组负责人 (打印并签名):(论文纸质版与电子版中的以上信息必须一致,只是电子版中无需签名。
以上内容请仔细核对,提交后将不再允许做任何修改。
如填写错误,论文可能被取消评奖资格。
)日期: 2014 年 8月 21 日2013高教社杯全国大学生数学建模竞赛编号专用页赛区评阅编号(由赛区组委会评阅前进行编号):赛区评阅记录(可供赛区评阅时使用):评阅人评分备注全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):互联网搜索引擎的排名与设计摘要针对问题一,互联网搜索引擎的优劣评价标准包括多个方面,包括检索可靠度、信息可信度、查询速度和界面功能方面等,我们用不同的搜索引擎来搜索生活类、娱乐类、工作类、学习类共4类类型的关键字,从生成网页上的信息抽取出准确度,可信度。
另外用页面生成时间和查询返回时间来表示查询速度这一指标,用搜索引擎的界面设计与功能以及广告来表示界面功能这一指标。
最后再利用多元回归来求的各指标的权重系数,其次用曲线估计来预测模型,通过方差检验发现拟合度良好,从而得出搜索引擎的排名。
针对问题二,根据题目我们在设计具有个性化特色的互联网搜索引擎的时候设计出了学生信息管理系统。
具体内容是:首先了解搜索引擎的原理及其他相关知识,建立数据库,以便搜索出相关信息,然后利用E-R实体分析数据库中各个数据库表的相互关系,并提取关键字,最后利用Visual c++来设计代码,并运行。
该系统可以储存数据、读取数据、查找数据才,与搜索引擎的原理类似。
另外,针对问题三,我们设想了一种“云端”来推广。
我们认为这样可以使搜索者获得更大便利。
关键词:多元回归,权重系数,曲线估计,拟合度,Visual c++ ,数据库,,E-R实体,学生信息管理系统一、问题重述随着互联网的高速发展和普及,人们越来越依赖于互联网共享信息和获取信息。
同时,网络上的海量信息是我们巨大而宝贵的资源,但是,这些信息格式和内容纷杂多变,又充斥着大量虚假和垃圾信息,搜索引擎技术是高效且方便地利用这些资源的有效手段。
在搜索页面中,只要输入你想搜索的内容,比如,mp3、游戏、电影、软件、图片、音乐、新闻、视频等等,或者输入作者名、文章标题、书名或期刊名、出版年月或发表年月、关键词等,搜索引擎会立刻给出符合条件的链接。
常见的搜索引擎有百度、谷歌、雅虎等:参考下面的资料和其它资料,解决如下问题:1 建立数学模型,对现有互联网搜索引擎的优劣进行评价,给出排名前5名的搜索引擎,并将排名结果与[1]的排序结果进行比较。
2 建立数学模型,设计出具有个性化特色的互联网搜索引擎,并举例对搜索引擎进行验证。
例如,如果是汉字成语搜索引擎,那么输入“张”时,可搜索出“张冠李戴”等成语;如果是中文人名搜索引擎,那么输入“张”时,可搜索出“张三丰”等人名;当然,也可以对某类图片、某类音乐等进行搜索。
3 将你设计的个性化搜索引擎进行一般性推广。
二、问题分析2.1 问题一:针对问题一的分析,关于对现有互联网搜索引擎的优劣进行评价,搜索引擎的检索效果可以从检索可靠度、信息可信度、查询速度和界面功能方面来衡量。
检索准确度:输入关键字搜索后检索到的内容与用户需要的内容的贴近度;安全可信度:检索到的内容是否安全可信;查询速度:查询信息时的快慢;界面功能:即一个搜索引擎应该具备的一些功能除外,其界面是否还有其他辅助功能等。
用不同的搜索引擎来搜索生活类、娱乐类、工作类、学习类,从生成网页上的信息抽取出准确度,可信度。
另外用页面生成时间和查询返回时间来表示查询速度这一指标,用搜索引擎的界面设计与功能以及广告来表示界面功能这一指标。
最后再利用多元回归来求的各指标的权重系数,其次用曲线估计来预测模型,通过方差检验发现拟合度良好,从而得出搜索引擎的排名。
2.2 问题二:针对问题二的分析,随着我国高等教育的迅速发展,高等规模的不断扩大,学校信息管理的网络化、信息化、智能化成为发展的趋势。
学生信息管理系统是为了适应现代化学校管理的需要、加快推进高效数字化校园建设、充分利用校园网,利用网络、多媒体等计算机应用技术和手段,提高办公效率的信息管理系统。
正因为学生信息管理系统是如此的重要,而对于学生而言也是最需要的。
所以我们设计了一个简化的学生信息管理系统的搜索引擎。
搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。
当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。
在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。
根据自己的优化程度,获得相应的名次。
学生信息管理系统在用户输入用户名、密码时,具有自动识别的功能。
若出错时将给用户提示信息。
三、模型假设3.1 假设评价指标体系只有四个指标体系;3.2 假设搜索内容已排除一切狭义和罕见的生活不常用的检索内容;3.3 假设附表中所有的数据都是真实可靠的;3.4 假设学生信息管理系统中所需的软件和硬件都已具备。
四、符号说明z-------------------------综合得分x1-----------------------检验可靠度x2-----------------------信息可信度x3-----------------------查询速度x5-----------------------界面功能五、模型的建立与求解5.1问题一:5.1.1 首先确定被评价对象有百度、搜搜、搜狗、谷歌、必应、有道、360、宜搜、一淘等搜索引擎,其次对这些搜索引擎的四项指标(检验可靠度、信息可信度、查询速度、界面功能)的数据进行采集。
可得一下表格:表一常见搜索引擎的准确度百度搜搜搜狗谷歌必应有道360 宜搜一淘7 3 4 6 7 6 6 2 0生活类5 4 4 56 4 3 4 0娱乐类4 65 5 2 3 2 1 15工作类10 9 9 9 13 13 15 11 10学习类总计26 22 22 25 28 26 26 18 2532.5 27.5 27.5 31.25 35 32.5 32.5 22.5 31.25 准确度(%)表二常见搜索引擎的信息可信度百度搜搜搜狗谷歌必应有道360 宜搜一淘10 9 11 10 7 7 6 5 10 生活类13 15 14 13 14 10 11 10 10 娱乐类11 16 12 17 15 15 14 15 9 工作类14 10 11 13 14 12 13 11 11 学习类总计48 50 48 53 50 44 44 41 4060 62.5 60 66.25 62.5 55 55 51.25 50 准确度(%)表三常见搜索引擎的查询速度百度搜搜搜狗谷歌必应有道360 宜搜一淘页面生成0.001 0.005 0.002 0.05 0.03 0.11 0.04 0.05 0.03 查询返回0.9 1.3 1.5 1.1 1.2 1.2 1.3 1.1 1.0 总计0.901 1.305 1.502 1.15 1.23 1.31 1.34 1.15 1.03表四常见搜索引擎的界面功能谷歌必应有道360 宜搜一淘百度搜搜搜狗设计、功能 2 1 3 2 1 2 2 3 2 广告 4 2 2 3 2 1 1 2 3 总计 6 3 5 5 3 3 3 5 5 5.1.2 经过查询,得出了以上几个搜索引擎的综合得分,利用SPSS 软件对这些数据先进行标准化,其次进行多元线性回归,分别求出这些指标的权重系数。
CorrelationsZscore(综合得分) Zscore(检验可靠度)Zscore(信息可信度)Zscore(查询速度)Zscore(界面功能)Pearson Correlation Zscore(综合得分) 1.000 .238 .326 -.181 .503 Zscore(检验可靠度).238 1.000 .275 -.170 -.290Zscore(信息可信度).326 .275 1.000 .144 -.063 Zscore(查询速度) -.181 -.170 .144 1.000 -.568Zscore(界面功能) .503 -.290 -.063 -.568 1.000 Sig. (1-tailed) Zscore(综合得分) . .269 .196 .321 .084 Zscore(检验可靠度).269 . .237 .331 .225Zscore(信息可信度).196 .237 . .355 .437 Zscore(查询速度) .321 .331 .355 . .055Zscore(界面功能) .084 .225 .437 .055 . N Zscore(综合得分) 9 9 9 9 9Zscore(检验可靠9 9 9 9 9度)9 9 9 9 9Zscore(信息可信度)Zscore(查询速度) 9 9 9 9 9Zscore(界面功能) 9 9 9 9 95.1.3 结果分析:表格共分为三个部分,第一部分表示的是5个变量两两相关系数表,因变量综合得分与界面功能的相关性较大,4个自变量之间也存在一定的相关性。
第二部分给出了5个变量两两相关的显著性检验结果表。
最后一部分给出了各个变量的样本数。
从表中我们可以得出模型z=0.238x1+0.326x2-0.181x3+0.503x4,从而得出四个指标的权重系数分别为0.238,0.326,0.181,0.503。