当前位置:文档之家› 网络视频爬虫系统的设计与实现

网络视频爬虫系统的设计与实现

社 会软 件应 用 为 代 表 的 We 20 现 以 后 , b .出 网 络 视 频 大 量 出现 , 大 新 闻 网站 纷 纷 建 各 立在线新闻频道 ,如 C T C V;大量视频博
客的出现 , Yo T b 、 6c m;许多著 如 u u e 5 .o 名论坛也建 立了在线 视频 ,如天涯等等 。 互联 网用 户对 视频 的 需 求 也越 来越 大 ,
理 设计了 霸 l 络 氅 虫 .跨 流磐 虫 j 网
基本架构 详细讨论 了 如何蠹承的避皂髻
且 有 3 %的用户是从 一个入 口访 问的。调 3 查还 显示 平均每 个用户每 月会有 1 个小时
时 间在 办 公 室访 问在 线 视 频 。

ห้องสมุดไป่ตู้
2 I网络 爬 虫 . 网络爬虫 出 自C a e 的意译 ,通常 rwl r
座桥梁 , 足用户搜索视频 内容的愿望 满



网络视频爬虫主要担负着从 网页中提
取视 频信息的使命 , 是整个视频搜索 引擎 的基 础 。下 面 首 先 介 绍 网 络 爬 虫 及 它 的 基 本工 作原理 ,接着详细 介绍 网络视频 爬虫 的工作方式 , 并指 出 C c e a h 算法 在其 中所 起的重要作用。介绍 网络爬虫和 网络视频 爬 虫 的 工 作 原 理 , 指 出 它 们 之 间的 区
所说的 S ie 、Ro o s pd r b t 、Bos t 等等都是
指 网络爬 虫 。网络 爬虫是 一个功 能很 强 的 自动提取 网页 的程 序 ,它为搜 索引 擎 从 I tr e 上下载网页 ,是搜索引擎的重 n en t 要组成 。它通 过请求站点上的 HTML文 档 访 问 某 一 站 点 它遍 历 W e b空 间 ,不 断从一个站点移动到 另一个站点 ,自动建
网络视频爬虫系统的设计与实现
曾文 ’湛腾西
1 .广 东技 术 师 范 学 院 计 算 机 学 院 5 6 5 1 6 0 2 .湖南理工 学院信息与通信工程 学院 4 0 6 1 0 4

本 文介铝 了网 络艇 蝓鹁本架 褥
联 网 用 户 访 问 娱 乐 站 点 的 视 频 服 务 , 并
它不仅能够通过 文字介绍获 得视频信息 , 还 要通过专业 的视频 分析 , 为用 户提供丰 富 的内容信息。基于视频内容的搜索 引擎
就是这样一种工具 :它通 过搜集 ltr e nen t 上 的视频信息 ,并 自动提取视频所对应的
立索 引,并加入到网页数据库 中。 目前最为著名的搜索引擎 Go g e o l 对
别 ,
个 URL服 务 器 给 若 干 个 网 络 爬 行 机 器
人提供 URL列表 。UR L服 务器和 网络爬 行 机 器 人 都 是 用 P t o 实现 的 。 个 网络 yh n 每 爬 行机 器人 可以同时 打开 3 0个链接。抓 0
取 网 页 必须 足够 快 。最 快 时 ,用 4个 网络

地提供 各种需要 的信 息。在中国 ,搜索引
擎 已经成为继浏览新 闻之后的网民第二大 常用的网络服务 ( 中国互联 网发展报 告 ,
20 ) 06。 现 行 的 搜 索 引 擎都 是 基 于 用 户输 入 的 关 键 字 进 行 信 息 查 询 的 文 本 搜 索 引 擎 。但 是 ,随 着 多 媒 体 技 术 的 飞 速 发 展 、 网络 通 信 能 力 的极 大提 高和 计 算 机 处 理 速 度 的 不
断增长 ,nen t 的信息除 了文本之外 , Itr e上
还有大量的图像 、视频 、音频 、动画和图
爬行机 器人每秒可以爬行 10 0 个网页。速 率达每秒 6 O 执行 的重 点是找 DN 。 O K。 S 每
形等 , 对这些媒体类型的信 息进 行快速 准 2 网络 爬虫及其工作原理 . 确的检索 已经成 为人们的迫切需要 。尤其 是 在 B o 、T lg AG、S 、RS , Wi i NS S k等 l
自己 的爬 虫是 这 样 描 述 的 [. 1 1 ' I
1引言 .
随着 搜索 引擎的 诞生 ,人们在 互联 网浩瀚 的知识 海洋面 前再 也 不会感 到茫
然 。 o ge An n Wl 、 y o 、 t o 、 G o l、 T e e L c s HoB t b
抓 网页运行网络爬行机 器人是一项具 有挑战性的任务 。 行任 务时的性能和可 执
文字信 息,同时分析视 频内容 ,提取视频 关键帧 ,建立相应的文字和 图像素 引,能
够在用户和庞大的 网络视频 数据之 间搭起

百 度 等一 大 批 搜 索 引擎 ,随 时 为 人 们 迅 速
靠性 都非 常重要 ,同时 还要考 虑社会 影 响 。网络 爬行是 一项非常薄弱的应用 ,它
需要成百上千的We ] 务器和各种域名服 b ̄ 务 器 的 参 与 ,这 些服 务 器 不是 我们 系统 所 能控 制 的。为 了覆盖 几十亿 的网页 , Go ge o l 拥有快速的分布式网络爬 行系统 。
中国科技信息 2 1 年 第 1 期 00 5
C IA S I C N E H O O Y IF R TO u . 1 HN CE E A D T C N L G N O MA IN A g2 0 N 0
D :1 .9 9 ji n 10 —8 7 .0 0 1 .4 OI 0 36 / . s .0 1 9 2 2 1 5 0 4 s
复 遍历网页 何快速 新 和如
的两个关键f I 络视频爬蔓 壤握频 ; 和阿 ; 和挢霹 露埘工作 方式。 ,
视 频 搜 索 引擎 ; 网络 爬 虫 ; 网络 视 频 爬 虫
面对大 量的在线视频 内容 , 基于文本 的搜索 引擎 由于 自身 的限制 ,不能为用 户
提供关于视频 内容的信息 ,互联网用户迫 切需要一个更加专业的视频搜索 引擎——
相关主题