当前位置:
文档之家› 专利文本分类的基础问题研究_屈鹏
专利文本分类的基础问题研究_屈鹏
38
现代图书情报技术
总第 231 期 2013 年
第3 期
类效果, 而非特征本身具有很好的性质 ( 如专指性) 。 因此, 有必要对术语作为特征的分类效果进行研究 。 ( 2 ) 主权项分类的相关问题 。 主权项是专利特有 的字段, 通常认为其用于文本挖掘的价值高于摘要 。 但是, 主权项本身较为特殊, 如它仅由一个长句子构 在分类时可能存在特征数量不足的问题 。 因此, 需 成, 要研究主权项分类的效果和改善等相关问题 。 ( 3 ) 相近主题对专利文本分类结果的影响 。 专利 文本分类由实际需求驱动, 其类目设置与专利的使用 具有相近的主题 。 这些相近的主题对分类 密切相关, 结果是否有影响以及如何解决这一问题, 是本文所要 讨论的内容之一 。 同时, 它又与使用《国际专利分类 ( International Patent Classification,IPC ) 作 为 分 类 表》 体系有紧密关系 。 尽管本文从信息分析工作出发研究专利文本挖掘 的问题, 但是这些问题对专利而言是基础性的, 从任何 本文并 角度研究专利文本内容时均不可回避 。 因此, “面向信息分析 ” 未冠以 的定语; 研究结论也基本适用 于面向其他应用的专利文本挖掘 。
[10 ]
使
kNN 和 SNoW 等分类器在 WIPO 用 SVM 、 朴素贝叶斯 、 - alpha 集 合 上 进 行 试 验 。 该 集 合 包 括 114 个 大 类 、 451 个小类的 75 250 篇专利 。 研究结果显示: 在同样 SVM 的效果最好; IPC 小类分类的结果 的试验设置下, 不如 IPC 大类分类的结果 。 除上述基于内容的专利文本分类研究之外, 还有 基于引用关系的分类 。 Lai 等
①特征术语是名词词组, 而一般特征词未必是名词词组。 ②为达到一定程度的专指性, 特征术语需要 达 到 三个 词 以上的长度; 对应地, 一般特征词可以是任意长度。
[4 ]
的层次分类法在 IPC 大类水平上使用余弦
相似度, 小类水平上使用 kNN。 他们的数据来自于中 国专利数据库, 共 1 500 篇; 其类目体系分别选取三个 大类下的各两个小类, 分类结果在大类和部分小类上 但 是 在 另 外 一 些 小 类 上 分 准 率 不 高。 李 生 珍 理想, 等
收稿日期: 2013 - 03 - 08 收修改稿日期: 2013 - 03 - 15 * 本文系第 51 批中国博士后科学基金面上资助一等资助项目 “科技文本信息资源中术语抽取与基于术语的分类与聚类 ” ( 项目编号: 2012M510040 ) 和中国科学技术信息研究所学科建设项目 “自然语言处理” ( 项目编号: XK2012 - 6 ) 的研究成果之一。
本领域研究概况
目前, 大部分专利文本分类研究仍注重改造已有
3
3. 1
研究内容与研究方法
研究过程与试验设定 本研究由一系列分类试验构成, 评价指标主要采
的算法并将其应用于专利; 分类体系主要参考 IPC ; 数 从专利局申请数据或从 据来源有三种: NTCIR 的数据 、 数据库下载数据 。以下相关研究按其采用的类目水平 由部到组的顺序做一概述 。 李程雄等
[11 ]
依据专利之间的同引
关系, 使用主成份分析的方法对专利文本进行分类 。 Li 等[12]则结合使用核函数和引用网络对纳米技术的 专利进行分类 。 以上研究虽然提供了重要的参考数据与结论, 但 对专利在文本分类中体现出的 仍是围绕模型或算法, 特点研究较少, 本文则尝试在这一方面进行研究 。
2
使用 SVM 和 kNN 结合的方法, 在7 个
[2 ]
部的 8 个大类下进行试验, 是 IPC 部水平的分类研究 。 华南理工大学的研究团队分别使用核向量空间 叶斯模型
[3 ]
和贝
, 对从广东省知识产权局获取的 14 400 篇
A23 、 A43 和 专利 进 行 分 类 。 类 目 体 系 分 别 在 A01 、 A61 下各选取一个小类, 是 IPC 大类水平的分类研究 。 蒋健安等
SVM
89. 33 400 800 / 集合
3. 3
分类器 ( 1 ) 特征选取方法 特征选取分为三步: 文本预处理, 去掉无意义字符
IDF 筛选 按卡方筛选 按 TF按卡方筛选 IDF 加权 按 TFIDF 加权 和加权 按 TFk = 3 线性核函数
和停用词, 还原词干; 以词频和字符串之间的包含关系 提取候选特征词 ( 或特征术语) ; 计算候选特 为依据, 征词( 或特征术语) 的权重, 以确定用于分类的特征词 ( 或特征术语) 。 14] 根据文献[ 定义, 结合专利文本分类的试验设 定, 对特征术语规定如下:
Fundamental Research Questions in Patent Text Categorization
Qu Peng Wang Huilin ( Institute of Scientific & Technical Information of China,Beijing 100038 ,China) 【Abstract】The paper focuses on some fundamental problems in patent text categorization,including the feasibility of using terms for automatic categorization,the research on claim categorization,and the effect of classes with close - related topics on the categorization result. The research is executed on two Naive Bayesian classifiers,kNN,Racchio and SVM classifier ,and cross validation is used for testing. The results of the paper are that terms are better than common features under the same settings,that training a classifier with abstracts can improve the claim categorization results, and that classes with close - related topics result in low precision and hierarchical design of classifier is necessary,correspondingly. The paper provides fundamental data for patent text categorization and can be referred by information analysis and other applications using patents. 【Keywords】Patent Text categorization Text mining
[13 ] 原工具采用 Porter Stemmer 。
嵌入到整个专利文本分类系统之中 。与通常采用径向 试验结果显示 基函数作为文本分类核函数有所不同, 线性核函数更适应本文的专利文本分类任务, 在此特 别说明 。 ( 3 ) 现有分类器的效果 为检验这些分类器的分类效果和适应性, 选择合 在大量交叉验证试验的基础上得到在 适的参数设置, 如表 1 目前试验条件下最优平均分准率及参数设置, 所示:
[1 ]
用平均分准率 。 首先实现试验所需的分类器, 然后通过调节参数, 使分类器达到在目前试验条件下的最优状态, 在确认 其能够基本满足后续研究要求的基础上, 使用这些分 类器进行研究 。 除主权项的分类外, 其余研究均使用交叉验证的 方法。即在本试验中将每个类目下的专利平均分成 5 份, 每次试验抽取其中的 4 份作为训练集, 剩余 1 份作 为测试集 。多次试验后计算平均分准率 。 本试验获得的数据集存在类目间分布不均匀的问 题, 采用随机抽样的方法解决该问题 。 即每次抽取 N 篇( N 小于各类目下可用于训练的文档数的最小值) , 使每次训练时各类下的文档数量均衡 。N 是后续研究 所使用的一个重要参数 。 在主权项分类的研究中, 训练集( 摘要) 和测试集 ( 主权项) 自然分离, 没有必要使用交叉验证的方法, 直接在摘要中抽取样本, 同时使用全部专利的主权项 XIANDAI TUSHU QINGBAO JISHU
知识组织与知识管理
专利文本分类的基础问题研究
屈 鹏 王惠临 北京 100038 ) ( 中国 科学 技术 信息 研究 所
*
【摘要】对专利文本分类中的基础问题进行研究, 包括术语作为专利文本分类特征的适用性, 主权项字段分类研 kNN、 Racchio 和支持向量机等 5 个分类器上 究和相近主题对分类结果的影响等 。研究在两种朴素贝叶斯分类器 、 进行, 测试主要采用交叉验证的方法 。研究结果显示, 在同样的设定下, 采用术语作为特征的分类结果优于使用 对主权项进行分类有助于改善主权项的分类效果; 相近主题会降低分准率, 有必要设 一般特征词; 使用摘要训练, 计层次的分类器进行分类试验 。研究结果可以为专利文本分类研究和实践提供参考数据, 并可作为信息分析等 工作使用专利文本分类技术的参考 。 【关键词】专利 文本分类 文本挖掘 【分类号】G353. 1
1
引
言
近年来, 专利得到信息分析工作的重视, 其重要性不亚于科技论文和科技报告 。 信息分析工作对专利文本挖 “工程” — — 将已有的模型、 掘的需求也更深入广泛 。这种面向具体应用的文本挖掘研究通常带有 性质— 方法应用于 研究对象, 验证所提出算法的有效性。但是, 专利具有一定的特殊性, 专利文本挖掘也因此需要解决特有的问题。 本文研究三个与专利文本分类相关的问题: ( 1 ) 使用术语作为特征与使用一般特征词的分类效果比较 。通常认为术语比一般特征词具有更高的专指性, 其 用于分类的效果也更好 。 但这仅是理论推断, 缺乏必要的数据支持 。 文本自动分类的特征选取原则是优化分