当前位置:文档之家› 面向主题搜索中的讲解

面向主题搜索中的讲解

面向主题搜索中的 中文处理问题
陈 静
北京大学网络与分布式系统实验室 2002年6月
提纲
研究背景
面向主题搜索引擎的实现
中文处理
研究背景

WWW网络的迅猛增长
–全球网页数量激增
• 根据第5届搜索引擎年会的会议报告,截至 2000.1,全球网页超过10亿 • 根据Google搜索引擎的索引数量,到2002.5, 全球网页数量超过20亿
– 中国网页数量也呈现指数增所 未有的挑战
–搜索引擎怎样适应这种规模的急剧膨胀?
研究背景

面向主题搜索引擎
–优点:
• 网页抓取的准确性高,与用户关心的主题相 关度大 • 搜索的范围相对缩小,有利于快速搜集到相 关网页
–弥补了通用搜索引擎的不足
项目介绍

具体系统简介
–北京大学语言所的“汉语词语切分与词性 标注软件 ”
正确切词的意义

举例:
– 原句:“原命题、逆命题、否命题、逆否命 题的定义”
– 修改前:“原 命题 逆 命题 否 命题 逆 否 命题 的 定义” – 修改后:“原命题 逆命题 否命题 逆否命题 的 定义” – 意义:词的意义更具体、准确,是正确有效分类 的基础
修改的主要部分
图表 1 收集、控制子系统
分类器:分类目录
中文处理问题的提出: 特征词的提取

分类器的第一步:提取特征词
–本项目的特性:
• 给定一门课程,其内涵和外延一定是明确的,因此在讲 授该门课程的老师的帮助下,我们很容易在较短(一两 天)时间内获得该课程的特征词。
–我们采用手工预先提取特征词的方法
中文切词的改进

具体改进:
– 方法:修改基础字典。
• 重新定义基础字典,其中加入所有特征词 • 为新字典生成一个索引文件 • 切词软件初始化时调入新的索引文件
– 优点:灵活方便地扩充和精简字典
中文切词的改进
总结

面向课程的素材收集子系统的实现
– 面向主题搜索引擎技术 – 中文处理
谢谢!
– “面向课程的素材收集子系统” – 本项目是“远程教育”项目的一部分 – 目的:利用面向主题搜索引擎技术,在 INTERNET上搜集与给定课程相关的各 类教学素材,为教师备课提供方便 – 选定的具体实例:中学数学 – 本系统建立在天网搜索引擎的基础上
天网搜索引擎

天网的体系结构:
– 搜集器 – 控制器 – 原始数据库 – 索引器 – 索引数据库 – 检索器 – 用户接口

中文切词是分类的前提:
–明确搜索对象:中文网页 –提出要求:中文处理软件能够正确切割出特征词
中文处理背景

中文信息的特点:
–中文词汇大多是由两个或两个以上的汉字 组成的 –中文是连续书写的语言,并且缺乏天然的 词分隔符

难点:汉语切词问题
– “我的笔记本”->“我 的 笔记本”
原天网搜索引擎系统:
相关主题