当前位置：文档之家› 文本挖掘论文：WEB文本信息的提取

文本挖掘论文：WEB文本信息的提取

文本挖掘论文：WEB文本信息的提取
【摘要】随着网络信息的迅速发展，网络信息量日益增加，怎样从海量的网络上提取有用的信息是web文本挖掘技术的重要应用方向。

本文提出一种web文本挖掘系统的设计模型，为实现更深层次的信息处理做准备。

【关键词】文本挖掘 web 信息处理
一引言
web挖掘从数据挖掘发展而来，因此，其定义与我们熟知的数据挖掘定义相类似。

但是，web挖掘与传统的数据挖掘相比有许多独特之处，web挖掘的对象是大量、异质、分布的web文档。

由于web文档本身是半结构化或无结构的，且缺乏机器可理解的语义，因此，有些数据挖掘技术并不适用于web挖掘，即使可用也需要建立在对web文档进行预处理的基础之上。

二 web文本挖掘系统的设计
web文本挖掘系统能自由漫游web站点，在web上能按照某种策略进行远程数据的搜索与获取，并将挖掘文本集合在系统的本地数据库中。

系统原型图，见图1。

1．文档采集器
利用信息访问技术将分布在多个web服务器上的待挖掘文档集成在web挖掘系统的本地数据库中。

2．文本预处理器
利用启发式规则和自然语言处理技术从文本中抽取出代表其特征的元数据，并存放在文本特征库中，作为文本挖掘的基础。

3．文本分类器
利用其内部知识库，按照预定义的类别层次，对文档集合或者其中的部分子集合内容进行分类。

4．文本聚类器
利用其内部知识库对文档集合或其中的部分子集的内容进行聚类。

5．多维文本分析引擎
web文本挖掘系统以引进文本超立方体模型和多维文本分析技术，为用户提供关于文档的多维视图。

多维文本分析引擎还具有统计、分析功能，从而能够揭示文档集合的特征分布和趋势。

此外，多维文本分析引擎还可以对大量文档的集合进行特征修剪，包括横向文档选择和纵向特征投影两种方式。

6．用户接口模块
在用户与多维文本分析引擎之间起桥梁作用。

它为用户提供可视化的接口，将用户的请求转化为专用语言传递给多维文本分析引擎，并将多维文本分析引擎返回的多维文本视
图和文档展示给用户。

三 web文档的采集
1．web文档采集器的设计
文档采集器设计图如图2所示，搜索代理模块相当于搜集控制模块的子进程。

功能是从管道里获取url，通过操作系统提供的socket套接字streams通讯方式，利用http协议，获取指定url的html文档。

此模块也是一个客户进程，它向远程www服务器发出请求，再根据返回状态信息进行处理。

通过对html文档的遍历，发现文档中anchor所对应url 于它的相关值。

系统中维护一个url链表，若url是符合要求的，就把它和相关值写入url链表。

否则忽略掉它，最后把url链表传给搜集控制模块。

2．web抓取
搜集代理模块读取管道中url，根据一个个url调用loadfile下载网页，同时将这些下载后的html文档和图片保持原有的相对关系，放在应用程序所在的目录之下。

搜集代理模块直接对放入管道的url进行分析，将不符合条件的url剔除。

将符合条件的url根据它的路径信息一级一级地创建文件夹，在创建的同时改变路径，最后调用loadtofile从url指定的web站点上获取一个被请求的文档
或图片。

当管道中所有url都处理完后，下载完毕。

四结论
通过对web文本挖掘，从来自异构数据源的大规模文本信息资源中，在知识层面上更加准确地过滤和提取符合需要的部分，整理成简洁、精炼、可理解的知识，从侧面提高信息化的水平，为国家的信息化建设服务。

参考文献
［1］史忠植.中国计算机学会学术著作丛书：知识发现［m］.北京：清华大学出版，2002
注：本文中所涉及到的图表、注解、公式等内容请以pdf 格式阅读原文。

e商务文档