概述我认为,专利检索分析的门槛并没有那么高,但是因为每一次检索分析具体情况各不相同,加上流程步骤多,且每一步要执行的操作不一,是否达到要求的判断不一,所以经常做着做着不是漏了重要的步骤,就是某一步骤没有达到要求影响了后面所有的步骤。
本系列文章目的是梳理专利检索分析的一般流程,并针对比较复杂的步骤详细展开,尽可能归纳出模板化、标准化的内容,帮助检索分析工作者理清思路,提供工作效率。
首先我们来看一下一个完整的检索分析流程包括哪些步骤:准备工作→技术分解→检索→数据处理→分析→报告上述检索分析步骤基本上可以适用全部专利分析项目,要注意的是这个流程并不是做完一步就少一步,因为有可能做的过程中需要返回上一步,比如我们进行到检索的时候,可能会发现技术分解形成的技术分支不合理,那我们就需要返回到上一步去调整。
下面我们就开始具体讲解每个步骤的内容。
准备工作首先要明确本次检索分析的对象是产业、产品,还是是技术问题,产业一般涵盖范围广,需要涉及上、中、下游等诸多内容,产品是指单个物件,一辆汽车、一部手机都是产品,技术问题则是诸如“淡水鱼饲料加工方法”之类。
检索分析对象不同会造成检索分析方法、工作量等不同。
其次要尽可能的搜集相关资料,资料来源可以是产业宏观报告、期刊文献、硕博论文、技术标准以及互联网信息等,或者是和相关行业专家、技术人员交流,了解行业信息、研发现状等。
最后要根据以上信息,整理成一份简单的调研报告,调研报告可以包含本次检索分析对象的发展历史和现状、产业链构成、市场概况、主要企业、相关政策等。
技术分解为什么要做技术分解?直接检索主题不就行了?我刚开始做检索的时候也有这个疑问,但是随着实操的深入,我发现有的检索主题如果不分解,确实没有办法检全检准。
比如一台机器,往往是由多个部件以及更多的零件组成,大到系统运行程序,小到一个零件的外观,都有可能涉及专利,用一个检索式很难把这些内容全部检索出来,因此我们需要化整为零,这样才能更有效更全面的检索。
因此,做技术分解,其实就是把我们检索的对象或主题按照一定的标准进行细分,形成技术分支,我们的检索工作就是围绕一个个技术分支开展,要注意的是,我们进行技术分解一定要遵循一个原则——尊重行业习惯,方便检索文献,文献数量适中。
尊重行业分类:我们常用的IPC分类其实也是一种技术分解,但我们在做检索分析时,不能简单的套用IPC分类,比如我们的检索分析对象是产业时我们可以按照产业上中下游分析上游通常是原材料、零部件、基础设施等,中游原材料生产或零部件组装、相应生产制造技术、整合运行技术,下游产品、技术的应用、以及服务。
方便检索文献:每个技术分支要有明确的定义,不同技术分支之间边界要清楚,这样检索才能准确,也便于后期标引工作的开展。
文献数量适中:根据我们检索对象的不同,一个技术分支包含的专利文献数量一般在数百篇至数千篇之间,如果检索出来的结果,一个技术分支有数万件文献或者仅有几篇,那么就需要调整技术分支了。
检索要对每个技术分支进行检索,首先要做的是确定检索要素,最主要的检索要素有两个——关键词和分类号。
关键词要怎么获取?第一种方法是最常用,可靠性也最高的方法,即用我们在完成准备工作时查阅的产业宏观报告、期刊文献、硕博论文、技术标准以及互联网信息等,从这些文献资料中挖掘关键词,以及扩展同义词、上位词、下位词、缩写词、不同语言等不同表达方式;第二种方法是利用数据库的统计功能,对初步检索的结果进行关键词字段统计;第三种方法是利用一些关键词工具,我们输入最基本也是最准确的关键词,由关键词工具生成一些列拓展关键词供我们选择,但是因为技术还没发展到一定程度,所以利用关键词工具的效果有时并不好,不过聊胜于无吧。
分类号要怎么确定?一种方法是通过搜索和查阅的方式确定,这边给大家提供一个国知局的分类号查询工具(/ipc.jsp)。
另一种是先通过简单检索,使用比较准确的关键词先获取一定数量的专利文献,然后统计分析出现频率较高的分类号,逐个检视该分类号是否符合要求。
(TIPS:分类号一般展开到3阶即可,太粗略或太详细都不好)确定好检索要素,就可以开始初步检索,我们很难一次检索就达到要求,所以我们需要不断的检视检索结果,调整检索要素,直到我们的检索结果符合评估标准。
评估我们的检索结果是否符合要求,是否可以终止检索,判断的标准是查全率和查找率。
一般来说,中文文献的查全率和查准率不低于90%,外文不低于80%,当然根据检索目的的不同,这个标准也不是绝对的。
查全率怎么计算?我们先要构建一个完全不同于检索过程中所使用的检索要素的集合(这个集合包含的文献数量不能少于待评估样本的5%),我们一般基于重要申请人/重要发明人构建,要求该申请人/发明人的申请量足够大,同时该申请人/发明人的专利分布在特定技术领域。
例如:我们检索出了一批曲面屏电视,首先我们在检索结果中以“三星公司”作为申请人进行二次检索,将得到结果进行人工阅读,获得与主题密切相关的专利X篇;然后我们开始一项和刚刚曲面屏电视毫无关系的全新的检索,在数据库中检索申请人是“三星公司”的专利,将得到的结果进行人工阅读,得到相关专利Y篇;最后查全率=(X÷Y)×100%。
查准率怎么计算?查准率的计算比较简单,只要在检索结果中随机获得足够的查准样本即可,只要注意避免通过检索的方式直接限定出评估样本,一般通过年份分布抽样、技术分支抽样、申请人或发明人抽样、国家地区抽样,尽量避免单一抽样方法,应多种抽样方法结合。
数据处理数据处理一般包括数据清洗和标引两步,数据清洗原本包含很多内容,比如统一专利号格式、统一申请和公开日期、去掉格式错误文献等诸多内容,但是随着我们使用的专利数据库的进步,现在的数据清洗基本只要做两步,即去噪和合并。
从上一篇文章我们可以知道,任何一次检索基本都不可能做到查准率100%,那么检索结果势必有一步噪音文献,去噪就是要把这部分文献从检索结果中去除。
而合并是要根据检索目的,人为的将数据库中不同的申请人、发明人、地区等字段进行合并,方便之后的统计分析。
首先我们来讲去噪,去噪可以分为人工阅读去噪和检索批量去噪。
人工阅读去噪就是逐篇阅读检索结果,根据人工判断去除噪音文献,为了提高阅读效率,一般通过阅读标题、摘要等著录项目获取文献技术信息,并尽可能使用关键词高亮功能。
批量检索去噪一般是利用检索关键词、分类号和申请日进行,比如我们对“智慧农业”的定义是通过机器学习的方式,不包含普通传感器控制技术,那么我们就可以通过检索关键词“传感器”,批量去除噪音。
分类号和申请日原理类似,比如我们确定含有某个分类号的文献一定是噪音,或者在某个日期之前的文献一定是噪音,那么就可以通过检索的方式,把这些文献批量检索出来,进行去除。
接下来讲合并,同一个申请人在不同国家申请专利的时候,因为语言或法律等原因,专利文献上记载的申请人名字会有不同,比如国内申请人“小米科技有限责任公司”,在国外申请人是“XIAOMI INC”,他们虽然是同一个申请人,但是在统计的时候会当作两个申请人显示,这时候就需要合并申请人。
不过随着技术的进步,现在的数据库一般都会进行一些合并,减少这类问题的发生。
但是还有一些特别情况,比如为了防止竞争对手监控研发进展,有的公司会把专利放在个人名下,还有我国的企业如果不是为了申报高新技术企业等资质,不少老板也喜欢把专利放在个人名下。
这些行为都会干扰统计结果,所以在统计分析之前,要通过合并把这些因素都消除掉。
除了原始数据方面的合并,也可以根据分析目的进行合并,比如我们可以把专利数量少于3笔的申请人合并为“其他”,又或者根据申请人所处大洲进行合并。
最后是标引,标引的作用是根据分析目的,人为的给处理好的专利文献加入标识,以便于进行下一步分析。
标引一般包括常规字段标引和自定义标引。
随着现在数据库对专利文献信息挖掘的深入,常规字段标引基本不需要我们动手,系统至少会提供十几个标引好的常规字段,这是技术进步给我们工作效率带来的提升。
自定义标引目前还没有可靠的技术手段可以自动化处理,还需要人工逐篇阅读。
细心的读者可能已经联想到了,我们在做去噪的时候,人工阅读去噪也是需要逐篇阅读,是的,自定义标引和去噪有时候可以同步进行。
最常见的自定义标引是技术-功效标引,即从技术角度和功效角度给每条专利文献打上标签。
例如:“水稻病虫害防治”,技术手段可以有化学防治、物理防治、生物防治、综合防治等,而功效可以有环保、见效快、低成本、作用时间长等。
专利分析图表制作我们先来梳理一下专利分析中常用的图表类型。
一般来说,一份专利分析报告一定可以看到以折线图为代表的趋势图,以饼图和环图为代表的份额图,以柱形图、条形图为代表的排名图,以气泡图、散点图为代表的矩阵图。
在此基础上,随着分析需要的发展,各种基本类型图的变种图以及新图表层出不穷。
比如可以反映地区分布的热力地图,可以反映技术路线的泳道图,可以结合具体产品技术分布的实物图……我的建议是,在做好趋势图、份额图、排名图、矩阵图这四大基本图表的基础上,再根据需要学习和选用新图表。
谈完图表类型,我们接着说制图步骤。
制图我们可以分为四步,明确分析目标、选取统计项生成数据、选择合适的图表、选择工具进行图表制作。
比如我们想知道某申请人历年专利申请量变化趋势,这就是一个分析目标,要完成这个分析目标,首先我们要选取申请人、申请年份、年申请量这三个统计项,并生成对应的数据,然后判断折线图最适合这次分析,最后选择合适的工具作图。
值得注意的是,如何选择合适的图表很需要详细说明。
很多时候,同一个统计数据用几种不同的图表呈现都是可行的,因此我们需要依照这几个原则来选择图表——突出主题、信息量适中、兼顾美观。
以下图为例,如果主题是要对比变化趋势,那么折线图无疑比柱形图更直观,因为折线图是反映趋势的首选,能突出主题,且折线图只有5条线,而柱形图有50根柱子,明显信息量太大不利于观察。
分析方法接下来要说的是分析,我们先从大的方面入手,先谈三个常用的分析角度,再谈小的方面,比如图表解析。
我们一般会从技术、市场、区域三个角度入手进行分析。
技术角度分析,一般要分析其技术发展趋势、技术生命周期、技术发展路线、技术功效及重要专利。
区域角度分析,一般要分析某个区域的专利布局情况、具有哪些重要市场主体及其情况、如果区域包含多个国家,还要分析优先权、所属国等内容。
市场角度分析方法略有不同,我们要从检索结果的众多市场主体中,选出值得分析的重要市场主体,重要市场主体一般在市场占有率、影响力、研发能力等方面具有优势,我们在数据处理步骤的合并申请人阶段,一般会对申请人有个全面的了解,可以同时记录好重要市场主体。
确定好重要市场主体后,我们可以从其地区或全球布局、重点技术或重要产品、发明人及研发团队实力、技术交易及并购、专利诉讼等方面进行分析。