[发明专利]核心专利挖掘方法有效
申请号: | 201910053229.4 | 申请日: | 2019-01-21 |
公开(公告)号: | CN109829158B | 公开(公告)日: | 2023-06-06 |
发明(设计)人: | 汪云霄;王方鑫;朱弘扬;刘峥 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06Q50/18;G06F16/33 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 姚姣阳 |
地址: | 210023 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 核心 专利 挖掘 方法 | ||
1.一种核心专利挖掘方法,其特征在于,主要包括以下步骤:
步骤一:基于网络爬虫方法建立专利数据库,并利用网络爬虫在所述专利数据库中提取目标领域的专利文档集作为核心专利挖掘的源数据;
步骤二:基于文档主题生成模型提取所述专利文档集中所有专利文档的主题集;具体包括:
S1:对所述专利文档集进行预处理,并形成分词集,设置所选分词集的大小为n,定义分词的重要性分数为分词出现的频率与分词的互信息值的乘积,根据分词的重要性分数选取前n个重要分词,形成分词集V={w1,w2,…,wn},并统计每个分词出现的次数;
S2:基于文档主题生成模型,从所述专利文档集中提取K个专利文档的主题集Z={z1,z2,…,zK},其中,每个主题zi可视为分词集V的概率分布p(w|zk)w∈v,每一个专利文档d可视为主题集Z的概率分布p(zk|d)k∈{1,…,K};
步骤三:基于所述主题集中主题的相似性度量建立专利新颖性评价模型和专利影响力评价模型;具体为:
提取专利文档集中每一个专利文档d的主要主题集zdom={z|p(z|d)>0.1}来代表专利文档d,通过步骤二中的文档主题生成模型和收敛的θd和βk,θd为主题概率分布,βk为任一主题的分词概率分布,定义两个专利文档d和d'的主题相似性分数:
定义早于专利文档d公开的专利集为其中t是专利文档d公开的时间,Tmin是该专利集中专利最晚公开时间,则专利文档d的新颖性分数表示为:
定义晚于专利文档d公开的专利集为其中Tmax是该专利集中专利最早公开时间,则专利文档d的影响力分数表示为:
基于窗口函数平滑法消除时间因素对核心专利挖掘的影响,使得两个专利文档d和d'的相似性分数更正为:
其中,Δt=t-t'是专利文档d和d'的公开时间差,改进后的新颖性分数和影响力分数分别为:
步骤四:从专利文档集中提取多个专利形成目标专利集,基于专利新颖性评价模型和专利影响力评价模型,利用最优化方法挖掘出所述目标专利集中的核心专利。
2.根据权利要求1所述的核心专利挖掘方法,其特征在于,步骤一具体为:
选择若干专利数据库网站,根据不同的网站构造选择不同的爬虫模块进行爬取,并将爬取到的数据使用网页解析包进行解析,以建立结构化数据库表存储解析结果,构造专利数据库;
根据检索字段构建目标领域的专利文档集D={d1,d2,…,dm},其中m表示专利文档集D中的专利文档d的个数,专利文档集D中专利文档d的公开时间定义为T={t1,t2,…,tm}。
3.根据权利要求2所述的核心专利挖掘方法,其特征在于,所述网络爬虫方法采取分布式爬虫架构,开启多个爬虫线程同时爬取不同的网站以获取数据。
4.根据权利要求1所述的核心专利挖掘方法,其特征在于:步骤S1中的预处理包括分词、去停用词、提取专有技术名词,所述分词集为结合分词出现的频率和分词的互信息值选取的多个重要分词的集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910053229.4/1.html,转载请声明来源钻瓜专利网。