当前位置：文档之家› Web数据挖掘研究_李国慧

Web数据挖掘研究_李国慧

数据库与信息管理本栏目责任编辑：闻翔军Ｗｅｂ数据挖掘研究李国慧（潍坊学院数学与信息科学学院，山东潍坊２６１０６１）摘要：基于Ｗｅｂ的数据挖掘是一个结合数据挖掘和ＷＷＷ的热门研究主题，它是现代科学技术相互渗透与融合的必然结果。

本文阐述了Ｗｅｂ数据挖掘的定义、分类和过程，并对Ｗｅｂ数据挖掘的应用与发展前景进行了探讨。

关键词：Ｉｎｔｅｒｎｅｔ；数据挖掘；Ｗｅｂ数据挖掘中图分类号：ＴＰ３０２文献标识码：Ａ文章编号：１００９－３０４４（２００８）０４－１０５９２－０３ＴｈｅＲｅａｓｅａｒｃｈｏｆＷｅｂＤａｔａＭｉｎｉｎｇＬＩＧｕｏ－ｈｕｉ（ＳｃｈｏｏｌｏｆＭａｔｈｅｍａｔｉｃｓａｎｄＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅ，ＷｅｉｆａｎｇＵｎｉｖｅｒｓｉｔｙ，Ｗｅｉｆａｎｇ２６１０６１，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：ＤａｔａＭｉｎｉｎｇｂａｓｅｄｏｎｔｈｅＷｅｂｉｓａｐｏｐｕｌａｒｒｅｓｅａｒｃｈｔｏｐｉｃｔｈａｔｊｏｉｎｓｔｈｅｄａｔａｍｉｎｉｎｇａｎｄＷＷＷｔｏｇｅｔｈｅｒ．Ｉｔｉｓｔｈｅｉｎｅｖｉｔａｂｌｅｏｕｔｃｏｍｅｔｈａｔｔｈｅｍｏｄｅｒｎｓｃｉｅｎｃｅｔｅｃｈｎｉｑｕｅｐｅｒｍｅａｔｅｓｍｕｔｕａｌｌｙｗｉｔｈｆｕｓｉｏｎ．Ｔｈｉｓａｒｔｉｃｌｅｈａｖｅｓｅｔｆｏｒｔｈｄｅｆｉｎｉｔｉｏｎ，ｃｌａｓｓｉｆｉｃａｔｉｏｎａｎｄｐｒｏｃｅｓｓｔｈａｔｔｈｅＷｅｂｄａｔａｍｉｎｉｎｇ，ａｎｄｈａｖｅｃａｒｒｉｅｄｏｕｔｉｎｖｅｓｔｉｇａｔｉｏｎａｎｄｄｉｓｃｕｓｓｉｏｎｏｎｔｈｅａｐｐｌｉｃａｔｉｏｎｔｈａｔｔｈｅＷｅｂｄａｔａｍｉｎｉｎｇｗｉｔｈｄｅｖｅｌｏｐｉｎｇａｐｒｏｓｐｅｃｔ．Ｋｅｙｗｏｒｄｓ：Ｉｎｔｅｒｎｅｔ；ＤａｔａＭｉｎｉｎｇ；ＷｅｂＤａｔａＭｉｎｉｎｇ１引言伴随着网络和通信技术的飞速发展，作为全球最大的信息服务平台的Ｉｎｔｅｒｎｅｔ正在以前所未有的速度渗入到人类的生产和生活的各个方面。

Ｉｎｔｅｒｎｅｔ的普及同时推动了ＷＷＷ（ＷｏｒｌｄＷｉｄｅＷｅｂ万维网）的迅猛发展，据统计每２个小时就有一个新的ＷＷＷ服务器产生，ＷＷＷ作为信息发布和交流的全球性媒体，它的内容涵盖了包括科研、教育、商业、金融、军事等各个领域。

Ｗｅｂ已发展成为一个跨国界的巨大信息空间，Ｗｅｂ页面的数量以惊人的速度增长，正是由于Ｗｅｂ上包含巨大的信息量使得越来越多的用户感觉到在ＷＷＷ上寻找自己想要的信息犹如“大海捞针”一样困难。

据说，９９％的Ｗｅｂ信息相对９９％的用户来说都是无用的。

用户关心的其实只是Ｗｅｂ信息中极少的一部分，而且大量的无关信息会干扰甚至淹没用户感兴趣的内容。

所以如何快速、准确且高效地从浩瀚的Ｗｅｂ信息资源中搜寻和发现用户感兴趣的信息和知识己经成为一个迫切需要解决的问题。

而将传统的数据挖掘技术与Ｗｅｂ有机地结合在一起，进行Ｗｅｂ挖掘是解决这些问题的一个有效的途径。

Ｗｅｂ数据挖掘是对已有Ｗｅｂ资源的有效利用，其主要目标是从分散在Ｉｎｔｅｒｎｅｔ上的半结构化的ＨＴＭＬ页面中挖掘用户所需信息，形成结构化数据，且结构化的结果数据可用于数据库挖掘、文本生成等后续Ｗｅｂ信息处理。

２Ｗｅｂ数据挖掘概念在国内对于Ｗｅｂ挖掘众说纷纭，有学者将网络环境下的数据挖掘归入网络信息检索与网络信息内容的开发，也有的在信息服务的角度上提出“信息挖掘”，指出其有别于传统的信息检索，能够在异构数据组成的信息库中，从概念及相关因素的延伸比较上找出用户需要的深层次的信息，并提出信息挖掘将改革传统的信息服务方式而形成一个全新的适合网络时代要求的信息服务组合。

Ｗｅｂ数据挖掘（ＷｅｂＤａｔａＭｉｎｉｎｇ）简称Ｗｅｂ挖掘，是数据挖掘技术在Ｗｅｂ环境下的应用，它将数据挖掘技术应用在Ｗｅｂ上，从大量的Ｗｅｂ文档集合和在站点内进行浏览的相关数据中发现蕴涵的、未知、有潜在应用价值的、非平凡的模式（Ｐａｔｔｅｒｎ）的过程。

它所处理的对象包括：静态网页、Ｗｅｂ数据库、Ｗｅｂ结构、用户使用记录等信息［１］。

通过对这些信息的挖掘，可以得到仅通过文字检索所不能得到的信息。

基于Ｗｅｂ的数据挖掘和传统的基于数据仓库的数据挖掘有着不同的含义。

根据Ｗ．Ｊ．Ｆｒａｗｌｅｙ和Ｇ．Ｐ．Ｓｈａｐｉｒｏ等人的定义，一般的数据挖掘指从大型数据库的数据中提取人们感兴趣的知识，而这些知识是隐含的，事先未知的、潜在的有用信息，它侧重在于从己有的信息中提取规律性的知识［２］。

而Ｗｅｂ挖掘的研究对象是以半结构化和无结构文档为中心的Ｗｅｂ，这些数据没有统一的模式，数收稿日期：２００８－０１－１２作者简介：李国慧，潍坊学院数学与信息科学学院教师，硕士研究生，研究方向：计算机技术。

本栏目责任编辑：闻翔军数据库与信息管理据的内容和表示互相交织，数据内容基本上没有语义信息进行描述，仅仅依靠ＨＴＭＬ语法对数据进行结构上的描述。

为了对这种半结构化数据进行分析和处理，Ｗｅｂ挖掘必须和其研究手段结合起来。

由于涉及到很多的知识领域，Ｗｅｂ挖掘现在是多个研究方向的交汇点，包括数据库、信息获取、人工智能、机器学习、模式识别、统计学、自然语言处理等。

３Ｗｅｂ数据挖掘的分类在数据挖掘领域，如果面对的数据类型不同就会采用不同的挖掘算法。

因此，根据所挖掘的Ｗｅｂ数据的类型，可以将Ｗｅｂ挖掘分为以下三类：Ｗｅｂ内容挖掘（ＷｅｂＣｏｎｔｅｎｔＭｉｎｉｎｇ）、Ｗｅｂ结构挖掘（ＷｅｂＳｔｒｕｃｔｕｒｅＭｉｎｉｎｇ）、Ｗｅｂ使用挖掘（ＷｅｂＵｓａｇｅＭｉｎｉｎｇ）［３］。

如图１所示：图１Ｗｅｂ挖掘结构３．１Ｗｅｂ内容挖掘Ｗｅｂ内容挖掘可以看作是Ｗｅｂ信息检索（ＩＲ）和信息挖掘（ＩＥ）的结合，是指对Ｗｅｂ上大量文档集合的“内容”进行总结、分类、聚类、关联分析以及利用Ｗｅｂ文档进行趋势预测等，是从Ｗｅｂ文档内容或其描述中抽取知识的过程，主要分为文本信息的挖掘和多媒体信息的挖掘。

目前的研究主要集中在利用词频统计、分类算法、机器学习、元数据（ＭｅｔａＤａｔａ）、部分ＨＴＭＬ结构信息发现、数据间隐藏的模式发现并生成抽取规则（ＥｘｔｒａｃｔｉｏｎＲｕｌｅ），并从页面中分离出概念（Ｃｏｎｃｅｐｔ）和实体（Ｅｎｔｉｔｙ）数据。

由于文本仍是信息传递的主要方式，而且文本处理技术相对比较成熟；因此文本数据的挖掘，在研究和应用上都比较普遍。

文本的知识发现最早是由Ｆｅｌｄｍａｎ和Ｄａｇａｎ首先提出来的。

文本挖掘不仅指的是单独文档中的信息提取，同时也包括分析文档集合的模式和趋势。

３．２Ｗｅｂ结构挖掘Ｗｅｂ结构挖掘是从Ｗｅｂ组织结构和链接关系中推导知识，它分为Ｗｅｂ文档内部结构挖掘（Ｉｎｔｒａ－ＤｏｃｕｍｅｎｔＳｔｒｕｃｔｕｒｅ）和文档间的超链结构挖掘（Ｉｎｔｅｒ－ＤｏｃｕｍｅｎｔＳｔｒｕｃｔｕｒｅ）。

根据科学引文分析理论，文档之间的互连数据中蕴涵着丰富有用的信息。

在通常的搜索引擎中没有考虑到结构的复杂性，仅将Ｗｅｂ看作是一个平面文档的集合，忽略其结构信息。

挖掘页面的结构和Ｗｅｂ结构，可以用来指导对页面进行分类和聚类，找到权威页面、中心页面，从而提高检索的性能。

同时还可以用来指导网页采集工作，提高采集效率。

其中比较有代表性的工作是ＰａｇｅＲａｎｋ和ＣＬＥＶＥＲ，它们正是利用了文档间的链接信息查找相关的Ｗｅｂ页。

有关这方面研究的算法有：ＰａｇｅＲａｎｋ、ＨＩＴＳ（Ｈｙｐｅｒｌｉｎｋ－ＩｎｄｕｃｅｄＴｏｐｉｃＳｅａｒｃｈ）及改进的ＨＩＴＳ（将内容信息加入到链接结构中）和Ｈｕｂ／Ａｕｔｈｏｒｉｔｙ。

ＰａｇｅＲａｎｋ是典型的Ｗｅｂ结构挖掘算法，其核心思想在于发现权威性页面［４］。

ＰａｇｅＲａｎｋ算法是Ｗｅｂ超链接结构分析中最成功的代表之一，是评价网页权威性的一种重要工具。

ＰａｇｅＲａｎｋ是一种静态的链接分析算法，每个ＵＲＬ有一个确定的ＰａｇｅＲａｎｋ值，该值不随查询关键字的不同而改变。

Ｋｌｅｉｎｂｅｒｇ提出了一种与查询有关的ＨＩＴＳ算法，ＨＩＴＳ中最重要的两个概念是Ｈｕｂｓ和Ａｕｔｈｏｒｉｔｙ。

Ｈｕｂ／Ａｕｔｈｏｒｉｔｙ方法的基本思想：现实中当我们搜索某个给定话题的Ｗｅｂ页面时，不仅希望得到相关的Ｗｅｂ页面，而且希望检索到的Ｗｅｂ页面是权威Ｗｅｂ页面。

３．３Ｗｅｂ使用挖掘Ｗｅｂ使用挖掘是Ｗｅｂ挖掘中与传统数据挖掘技术交叉点最多的领域。

一般数据挖掘的基本方法如聚类、分类等算法在这里都可以得到应用。

现在的Ｗｅｂ使用挖掘一般都是指Ｗｅｂ日志的挖掘。

Ｗｅｂ访问日志，是登陆某个Ｗｅｂ站点的用户经过一系列的站点浏览后，系统自动记录的用户浏览行为数据，诸如用户的ＩＰ、用户的访问时间、浏览过页面的ＵＲＬ、请求方法、请求的字节数、客户端的操作系统和浏览器版本号等。

Ｗｅｂ日志挖掘过程大体分为四个阶段：数据预处理、挖掘算法实施、模式分析、可视化。

Ｗｅｂ日志挖掘系统的体系结构如图２所示。

４Ｗｅｂ数据挖掘的过程Ｗｅｂ数据的特点决定了对其进行有效数据挖掘具有极大的挑战性。

根据Ｗｅｂ数据的特点，结合数据挖掘的一般过程，可以将Ｗｅｂ数据挖掘流程描述如图３所示的５个功能模块，即数据采集、数据预处理、数据挖掘、分析与评估和知识表述模块。

各模块的功能如图３。

４．１数据采集图２Ｗｅｂ日志挖掘系统的体系结构图３面向Ｗｅｂ的数据挖掘功能模块按照主题相关的原则，数据采集模块完成从外部的Ｗｅｂ环境中有选择地获取数据，为后面的数据挖掘提供素材和资源。

Ｗｅｂ环境所提供的数据源包括Ｗｅｂ页面数据、超链接数据和记录用户访问情况的数据等。

根据数据源形式的不同可以将Ｗｅｂ数据挖掘分为基于内容的挖掘、基于结构的挖掘和基于用户使用的挖掘３种，每一种数据挖掘类型在数据采集过程中会使用不同的方法和技术，但它们都有共同的基本过程。

通常，数据采集由数据搜索、数据选择和数据收集等３个相对独立的过程组成。

４．２数据预处理数据预处理模块主要对数据采集所获得的源数据进行加工处理和组织重构，构建相关主题的数据仓库，为下一步的数据挖掘过程创建基础平台。

数据预处理是为数据挖掘所做的前期准备，它主要包括数据清理、数据集成、数据变换、数据约简等。

４．３数据挖掘数据挖掘模块是数据挖掘系统的核心部分［６］，它的主要功能是运用各种数据挖掘技术，从海量的经过预处理的数据中提取出潜在的、有效且能被人理解的知识模式。

概括地讲，数据挖掘的最终目标只有描述和预测两个，所谓描述就是用可理解的模式表达数据所包含的属性和特征信息；而预测则是指根据属性的现有数据值找出其规律性，进而推测出其在未来可能出现的属性值。

数据挖掘过程一般由３个主要的阶段组成：数据准备、挖掘操作、结果表达和解释。

数据挖掘算法对数据有一定的要求，如数据冗余性小，数据属性之间的相关性小，数据出错率小等。

而现实世界所采集到的数据通常具有杂乱性、冗余性、小完整性等特点，为此数据挖掘必须经过数据准备阶段以提高数据挖掘质量。

e商务文档

Web数据挖掘研究_李国慧

相关文档推荐：