当前位置:文档之家› 基于同被引分析的专利分类方法及相关问题探讨

基于同被引分析的专利分类方法及相关问题探讨

1引言专利统计分析从时间、空间和技术分类维度对指标(如专利数量、同族专利数量、专利被引数量等)进行统计和计算,具有帮助分析人员了解组织技术活动强度和技术发展趋势、发现重要专利和专利权人的作用。

在专利统计分析的纬度中,时间维度通常以年为单位,空间则以国家或组织(企业)名称为单位,在数据获取方面相对比较简单,数据比较准确;而以技术分类维度进行数据统计时必须先确定专利分类号才能进行。

由于传统的专利分类体系无论是IPC 国际专利分类还是美国专利分类均比较复杂和宽泛,专利分析人员难以在专利分类表中准确定位;另一方面,传统专利分类体系变化很小甚至基本不变,难以反映技术日新月异的变化和发展。

因此,基于传统专利分类体系的以技术纬度进行的专利情报分析在某些情况下存在着偏差,有必要通过一定的聚类手段避开传统专利分类表将有强关联的专利文献集中在一起作为分析对象。

文献的引文关系反映文献间内在的本质的联系,通过引文分析可以对文献的相关结构进行分析以达到对文献自动聚类的目的【1】。

本文介绍同被引基于同被引分析的专利分类方法及相关问题探讨彭爱东(南京农业大学信息科技学院,江苏南京210095)摘要:介绍一种通过对专利文献进行同被引聚类达到对公司及其竞争对手所拥有的专利进行分类并管理的方法及其步骤,并对这种方法中涉及到的引文数据来源、被引频次数据修正以及对部分无法被归类专利的处理等问题进行了探讨。

关键词:专利引文分析;专利同被引;专利分类中图分类号:G356文献标识码:A文章编号:1007-7634(2008)11-1676-04Research on Patent Classification Method and Related ProblemsBased on Co-citationPENG Ai-dong(School of Information Science and Technology,Nanjing Agriculture University,Nanjing 210095,China )Abstract :The paper introduces an approach to classify the patents owned by a company and its com -petitors for patent analysis and management,which is based on co -citation analysis of bibliometrics.The paper also makes a discussion about some problems involved in the approach,such as the source of patent citation data,emendation of patent citation data and the process method for those non-classi -fication patents.Keyword :patent citation analysis;patent co-citation;patent classification收稿日期:2008-03-10作者简介:彭爱东(1971-),女,湖南新化人,讲师,硕士,从事竞争情报、专利情报分析研究.第26卷第11期2008年11月Vol.26,No.11November,2008情报科学分析在专利聚类方面的应用并对其中一些关键问题展开讨论。

2文献同被引分析与专利同被引同被引分析是研究科学共同体的结构和分布规律的主要方法,主要有作者同被引(Author co-ci -tation analysis )、期刊同被引(document co-citation analysis)和文献同被引(document co-citation analy -sis)。

“同被引”的概念最早于1973年由美国情报学家Henry Small 和苏联女情报学家I.V.Marshakova 在研究引证结构和文献分类时提出【2】。

以文献同被引为例,如果A,B 两篇文献均被C 文献作为参考文献引用,则文献A 与文献B 存在同被引关系。

文献同被引分析的前提基于以下的认识:具有同被引关系的文献对(document pair )在主题内容上存在一定的相似性,这种相似性随着文献对的同被引强度(同被引次数)提高而提高。

而我们对文献进行分类的原则也是希望强关联高相似性的文献能够分到同一类目下面,因此通过计算不同文献对的同被引强度是可以将某一范围内(学科或组织)的重要文献进行分类,从而识别其中的核心类和各类之间的关系。

1996年Stuart 和Podoly 最早开始利用专利文献进行同被引分析,他们通过计算各公司所拥有专利的相似程度达到对各公司进行技术能力定位和分群的目的【3】。

专利文献是科技文献的一种,通常在一篇专利说明书的扉页上会有一数据项列出该专利技术所引用的所有在先专利,它们是专利审查员在对该专利申请进行新颖性审查时与在先技术对比得到的。

这些在先专利技术成为该专利文献的引文。

据统计,1999年授权的美国专利平均引文就达到10.7【4】,因此存在许多基本专利同被引的现象,对于那些专利活动频繁的技术领域由于技术开发的连续和继承更显著,这种同被引现象更为突出。

另外,专利文献对专利文献的引用有别于一般期刊文献对参考文献的引用———由于涉及到权利保护范围的划定,申请人和审查员均会谨慎地选择专利引文,因此专利引文能很好的反映技术的继承性。

基于这两点,专利文献同被引聚类可以取得相对好的效果。

3专利同被引聚类的步骤和方法同被引聚类具有大致相似的步骤,但是根据研究对象和研究目的的不同具有不同的细节。

专利同被引聚类也需要确定分析对象的范围、数据收集和存储、构建同被引矩阵、数据缩减与标准化、数据综合分析、效果评价等步骤,图1为台湾学者在研究多篇作者同被引聚类文献后提出的利用专利同被引数据构建专利分类体系的步骤【5】,笔者按照自己的理解对该方法加以描述。

图1专利同被引分析的步骤3.1专利检索专利检索的目的是根据分类目的找出待分类的目标专利。

在进行专利情报分析时,通常都希望了解行业技术发展的趋势和重点,同时比较行业内公司(或组织)及其竞争对手的技术实力和技术特点,在哪一个技术领域哪一个公司具有优势。

由于行业内的主要公司的技术研究及专利活动基本能代表行业技术走向,可以“专利权人”项作为检索入口,将某一公司及其感兴趣的竞争对手的专利全部检索出来作为目标专利。

提取目标专利的参考专利文献(其他类型的参考文献如期刊文献不在本文研究范围之内,故不参与统计)并以规范的格式进行存储。

3.2选择基本专利基本专利从目标专利的专利引文中选取,候选基本专利事实上是所有被目标专利引用的专利文献。

这种分类方法要通过构筑这些基本专利文献的同被引矩阵、计算基本专利对间的相似性从而对基本专利先进行分类,然后根据目标专利对基本专利的引用关系,将目标专利归入到已经分好的类目当中。

并非所有的被引专利文献都能作为基本专利,同被引数据往往要进行缩减。

有些数据对于分类的贡献不大,而且后面做相关性分析的一个条件是变量应是正态分布,没有奇异值噪音,所以分析之前要去除可能的奇异值———设定一个阈值,然后把低于阈值的数据全部删除。

由于专利的重要性与专利被11期基于同被引分析的专利分类方法及相关问题探讨16771678情报科学26卷引次数有很强的正相关,这里将被引次数高于选定阈值的候选基本专利带入同被引矩阵。

阈值的选择比较复杂,笔者认为可以参考该行业技术领域的技术循环周期和该周期内的平均被引数来确定;也可以通过设定不同阈值得到不同分类结果,比较评估这些分类结果后选择最佳阈值。

3.3计算基本专利对的相似性3.3.1计算同被引强度,构建同被引矩阵基本专利选取之后,应计算基本专利对的同被引强度:分别找出基本专利文献I和J的来源专利文献集合进行比较,其中相同文献的数量即为I和J的同被引强度。

设共有基本专利文献N篇,则可构筑矩阵,见表1。

表1基本专利同被引矩阵3.3.2计算关联强度计算基本专利对关联强度的目的在于对同被引强度数据进行第一次修正,以消除由两基本专利本身被引数量造成的同被引强度与相似性不一致———两基本专利各自的被引频次大意味着其同被引的可能性增加(被引基数大),这时同被引强度大并不意味着他们更相似。

可以选择的方法是计算平均被引频次下的同被引强度,即用同被引强度除以引用该基本专利对的文献总数。

3.3.3计算Pearson相关系数这是对同被引强度数据进行的第二次修正,以消除同被引强度数据和连接强度的随机性或偶然性———虽然连接强度大,但存在并不相似的情况。

只有当该基本专利对中两个专利分别与其他基本专利配对时连接强度的高低也保持一致(同时高或同时低),该基本专利相似的可能性才大大提高。

Pearson相关系数是用来检验两个变量是否线性相关的参数,其计算公式为:r=∑XY-∑X∑YN (∑X2-(∑X)2N )(∑Y2-(∑Y)2N姨在本方法中引入中间基本专利k,分别计算基本专利对中两专利I、J和K专利的连接系数Xik和Yjk,k的取值从1到n(n为基本专利的总数),将这一系列数值代入公式,可以得到各基本专利对的Pearson相关系数(式中的N=n-2,因为计算时应除去专利I和J本身),并将其作为聚类的输入数据。

3.4聚类与归类在这一阶段,利用SPSS软件作为统计分析的工具,采用因子分析(Factor analysis)对基本专利进行分类。

由专利同被引矩阵经过修正后得到的Pearson 相关系数矩阵是因子分析的输入数据(变量),选择主成分分析方法根据特征值大于1的标准提取因子,如果每个因子系数(载荷)没有很明显的差别会导致分类后无法命名,因此需要选择旋转方式使系数向0和1两极分化,这里选择斜交旋转。

基本专利通过因子分析后根据提取的主成分(因子)的个数及所选的负载临界值可被分为M类,而引用这些基本专利的目标专利(来源专利)则根据引用情况被归在不同类中。

只引用一项基本专利的目标专利归入该基本专利所属类中;引用多项基本专利的目标专利则将其归入多数基本专利所属的类中,如一目标专利共有专利引文7篇,其中被选入基本专利的引文为3篇,这3篇基本专利2篇属于M1类,1篇属于M2类,则该目标专利被归于M1类;没有引文或引文没有被选入基本专利的目标专利则无法归类。

3.5评估聚类结果以及定期聚类对基本专利进行聚类的结果是将目标专利进行分类的基础,聚类效果必须经过评估才能确定在实证分析时是否能够运用该体系进行专利分类。

评估的指标有三点:①是否容易给所得到的类命名;②所得专利分类体系是否与工业技术的发展相契合,是否能以合适的方式描述工业技术;③分类结果的一致性。

相关主题