当前位置：文档之家› 网页数据抓取分析

网页数据抓取分析

1、抓取网页数据通过指定的URL，获得页面信息，进而对页面用DOM进行 NODE分析，
处理得到原始HTML数据，这样做的优势在于，处理某段数据的灵活性高，难点在节算法
需要优化，在页面HTML信息大时，算法不好，会影响处理效率。

2、htmlparser框架，对html页面处理的数据结构，HtmlParser采用了经典的Composite
模式，通过RemarkNode、TextNode、TagNode、AbstractNode和Tag来描述HTML页面
各元素。

Htmlparser基本上能够满足垂直搜索引擎页面处理分析的需求，映射HTML标签，可方便获取标签内的HTML CODE。

Htmlparser官方介绍: htmlparser是一个纯的java写的html解析的库，它不依赖于其它的java库文件，主要用于改造或提取html。

它能超高速解析html，而且不会出错。

现在htmlparser最新版本为2.0。

毫不夸张地说，htmlparser就是目前最好的html解析和分析
的工具。

3、nekohtml框架，nekohtml在容错性、性能等方面的口碑上比htmlparser好（包括htmlunit也用的是nekohtml），nokehtml类似XML解析原理，把html标签确析为dom,
对它们对应于DOM树中相应的元素进行处理。

NekoHTML官方介绍：NekoHTML是一个Java语言的HTML扫描器和标签补全器(tag balancer) ,使得程序能解析HTML文档并用标准的XML接口来访问其中的信息。

这个解析
器能够扫描HTML文件并“修正”许多作者（人或机器）在编写HTML文档过程中常犯的错误。

NekoHTML能增补缺失的父元素、自动用结束标签关闭相应的元素，以及不匹配的内嵌元
素标签。

NekoHTML的开发使用了Xerces Native Interface (XNI)，后者是Xerces2的实现基础。

由/整理。

e商务文档