当前位置:文档之家› 垂直搜索引擎_搜索引擎发展方向

垂直搜索引擎_搜索引擎发展方向


,
,
,
细 化信 息起 着 重要 作用
关 扭 词 0 搜 索 引攀 ≅ 信 息 检 索 ≅ 垂 直搜 索 ≅ 即 时信 息
计算 机 和 网 络 的 发 展与 普 及
围 内的 信 息提 供 了 条 件
,
,
为 人 们 自由获取 全 球 范 多 年 的 时间 但 目前 因 特
,
而 搜 索 引 攀 行业 也 不 是 一 家公 司 就 可 以 独 排 天 下的 从百 度 的上 市 雅 虎 中 国 的 并 购 等 一 系 列 动 作 表明 如 今 的 搜 索
, , , ,

0
9

Η∀
褚蓓蓓 刘
Η
,

垂 直搜 索 引 攀 搜索引攀 发 展方 向

0
垂直 搜 索技术
,
一次


高 的几 小时 到几分钟 一 次

类 似搜索 引攀 的大库 周

库 日库 小 时 库
,

垂 直搜索 技术 同 信息采集 技术有一些 共 同 点 不 同 的是
结 构 化 信息 抽取 技 术 将 网页 中的非 结构化 数 据 按 照 一
这 需 要 做大 = 的工作 进 行 更 新与 维护
,
和 模 板方式 最

,

大的 区别 是 对 具体 网页不 依赖

,
可 针 对任 意正 常的 网 页进


行 信息采 集 信息抽 取 这 就导 致 这种 方式数据容 = 上 和模 板 方式有质 的 区 别 但是 其灵 活 性差 成本 高 式 和 网页 库级 的 方式 不 是 对 立的
引 攀大 战 如 同门户 网 站 初 期 的竞 争一样激 烈
,

,
,
但 同 时 也 导 致 网上 信 息 呈 爆 炸式
Α
,
,
增长

因 特 网从 产生 至 今不 过


有 理 由相 信
,
网上 的 信 息= 相 当 于 人类过 去
年产 生 的信 息 总 =


通用搜 索引 攀在 经历 过一段时 间的角逐 后 也 将会继 续 维 持

年 月 卷 增刊
为 毋伪以 ∋ (
! 河 北 经 。贸 大 学 学 报’山 龙综 合 版初∀ ∗ ∗ ( ∋ ∋ ∗ ∗ − ) + ‘, 动 匆 ∋ . − / 1 , 3 !4 呷3 5 、 2 − ∃ 2 6
∗ 。 0

% #∃ &
动− ∀
7

− ∗
=
7
8∋ 9 %
: 叩; % < ∗
垂直搜索引擎 搜索引擎发展 方 向
褚 蓓蓓 刘
,
0

,
? !石 家 庄铁 道学院 计 算机 科 学与技术系 河 北 石家 庄 > 以】 ∀

而生
要 0 网络用 户对 信 息检 索 的精确度 要 求越来越 离 为 了 满足 用 户对 信 息 细 分 的 要 求 垂直搜索引攀应 运
,
,

垂 宜 搜索 引攀定 位 于 一 个行业 服务 于 一 群有特 定 需求的人群 是 市场细 分 的结 果 它 为用 户寻 找某 些
, ,
单位 基 于 视觉 的 网 页块 分析是 以 网 页 块 为 最小 单位 而 垂
直 搜索 是 以 结 构化 数据为 最 小单位
,
,
,
,
,
然后 将 这 些 数据 存储
0

到数据库 进 行进 一步 的 加 工处 理 如 去重 分类 等 最后 分 词 索引 再 以 搜 索 的 方式 满 足 用户 的 需求

垂 直搜 索是 针 对某一 个 行业 的 专业
,
尽 管搜 索 引 攀 已 经 取得 了很 大进展 但 还 无法充 分满 足
,
搜 索引 攀 是搜 索引攀 的 细 分 和 延 伸 是 对 网页 库 中的 某类
,
人 们快捷高效 获取 网络信息 的要 求 用 户 对 信息检索 的 查准

专 门 的信息 进行一次 整 合
, ,
性 强 缺 点是后 期维护 成 本 高 信 息 源 和信息 = 小
, 、 、


网 页库


级 就 是 在 信息 源 数 = 上 数 据容= 上 检 索容 = 上 稳 定 性
可 靠性上 都是 网 页 库搜 索 引 攀级别 的要 求
,
分 词 技术 面 向搜 索 的 分 词 技术 建 立 和行业 相 关 的 词 库 注 意这 是 面 向搜索 的 分 词 不 是 面 向识 别 和 准确 的 分词

盾 它是一 种 在 因特 网上采取 一定的 策略搜集 发现 信 息 并
深度 不 够等而提 出来 的新 的搜 索 引攀 服务 模 式 针

,
对 信 息进 行 理解 提 取 组 织 和 处理 为 用 户 提 供检 索服 务
的搜 索工 具

对 某一 特定领 域 某一 特定 人群 或 某 一 特定需 求提 供有 一定 价 值 的信息 和 相关服 务
,
理 后 以 非 结构 化的 方 式 和 结 构 化 的方式 返 回 给 用 户

, , , 、
其特
一 次普遍地 被 众 多商 家 认 可 迅速 成 为 互联 网 中最 有 价值 的
,
且 具 有 行 业色彩 相 较 于 通 用 搜 索 引 苹
领域 大家 熟 知 的搜索 引 攀谷 歌 百 度 雅 虎 等 是 通用搜 索 引
信息 海 洋 里 检索 出符合 用 户 需求 的 信息 特别是 关于 网 络信
息检 索 与 用 户 结合 的研究 逐渐成 为 近年来 网 络 信息 检 索研
究 的热点 和重 点

,
据抽取成特定 的结构 化 信息 数据 网页搜 索是 以 网页 为 最 小

什 么 是 垂直 搜 索 引9
搜 索 引 攀 的 出现 整 合 了众 多 网站 信 息 起到 了 信息 导

中 国 互 联 网络 信 息 中心 !ΒΧ Χ ΔΒ ∀在 ! ∀ ?
户 认 为 网 络上重 复 信息 太 多
,
>
,

月 发表 的
Φ 9 Γ
< ;Η
搜 索 图片搜 索等等 几乎 各


,
《 国 互联 网 络发展状况统 计报 告 》 就 指 出 有 Ε 中 中
> 9 Γ
的用
行 各 业 各类 信息 都 可 以 进 一步 细 化成 各类 的 垂直 搜 索 引 攀
于 网上 信 息浩 繁纷 杂 良芬不 齐 信 息 的价 值正 在被创造 海
几 大服 务 商各 自分控 一部 分 市场 的局面
不 准确


= 信 息 的 网 络削 减



但搜 索 引攀 的 出现 暂时 缓解 了 这 一 矛
、 , 、 ,
垂直 搜索 引 攀是相 对 于 通用 搜索 引攀 的信息= 大 查 询
要 可 以 通 过简单 的 语 法 分 析来 改 善数 据 的 质 =
,
,
是 很谁解析 出来 的 在 垂直搜 索引攀 中也应该解决
0
低成 本 地
垂直搜索技术 主要 分 为 两个 层 次 模板 级 和 网 页 库级
,

获得 某 类 信息 改善排 序 寻找需 要 的内容
,
,
,

模板级是针 对 网页进 行 模 板 设定或 者 自动生 成 模板 的方式 抽 取数 据 对 网页 的 采集也 是 针 对性 的采 集 适 合 规 模 比 较
,

恰 恰是 这 类动 态 网页 包 含 了丰 富的 内容 垂 直 搜 索 引擎是必 须 收 录这些 动态脚 本 的 理

, , ,
,
本 地 搜索 就是 从 网页 库抽 取 出企业 信 息
添加 到 其 地 图 搜

这 就 需要 在 技术 上 做 一些 特 殊处
,
索 中的
∋ 同样 的技 术 应用还 在 :
小 信息 源少且稳 定 的藉 求 优点是 快速实施 成本 低 灵活

信息 处理技 术 信 息处 理包 括 的范 围 比 较广 主 要 包括
去重 聚 类 分 析 等等 相 关 的技 术非 常 多
, 、 , 、

,
,
,

,


数 据 挖 掘 找 出信息 的 关联 性 对 于 垂 直搜 索来 说非常 重
要 有 效 可 以 在这些相 关性 上为用户提 供 更 细 致 的服 务
, 、
,
定 向分字 段抽取 出需要 的数据进



率 和 查全 率 的要 求 也 越来越 高
息 个性 化信息 的要 求更 加迫切

,
特别是 对 于 需 求 的 特 定 信

行处 理后 再以 某 种形式返 回 给 用户 搜索 人才搜 索 地 图搜 索


垂 直搜索 引攀的 应 用 方 向很 多 比如 企业库搜 索 供求 信息搜 索引 攀 购物搜索 房产

Hale Waihona Puke 脚购物。5 叩; Τ− Υ
等各 种
另 外 由 于 目前 网页中的链 接 形 式 非 常 多 不 但 有动 态 脚
, 。
应 用中 体 现
,
Κ 3 本也有 − 朗 5 做的链接 这些 链 接方式 通 过传统 的 : 记∗ 程 序
简 单 的语法 分析 简 单 的语法 分析 在搜 索 引 攀 中非 常 重
相关主题