[发明专利]一种专利技术预测方法及系统在审
申请号: | 201610067078.4 | 申请日: | 2016-01-29 |
公开(公告)号: | CN105760946A | 公开(公告)日: | 2016-07-13 |
发明(设计)人: | 林鸿飞;赵虹杰 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q50/18;G06F17/27 |
代理公司: | 大连星海专利事务所 21208 | 代理人: | 徐雪莲 |
地址: | 116023 辽宁省大连市高新园区凌工路2号*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 专利技术 预测 方法 系统 | ||
1.一种专利技术预测方法,其特征在于,包括以下步骤:
S1、预处理:
采集预定领域的专利摘要组成专利摘要集,利用分词工具对所述专利摘要集中的专利摘要进行分词处理并去除停用词,得到摘要词语集;同时提取专利摘要集中每条专利摘要的专利的申请日,得到与专利摘要集相对应的时间集;
S2、获取词语重要程度:
通过如下公式计算摘要词语集中的每个词语对于每条专利摘要的权重,将该权重作为该词语对于该条专利摘要所对应专利的词语重要度:
其中,weight(i,d)表示词语i对于专利摘要d的权重,tfi,d表示词语i在专利摘要d中出现的频次;ni表示词语i在专利摘要集中出现的频次;N表示专利摘要集中包含的专利摘要总数;
S3、构建高权词集:
预设阈值,将词语重要度大于该预设阈值的词语提取出来作为高权词集,高权词集中的每个词语为高权词;
S4、计算时间因子:
根据时间集由时间函数f(y)获得每个专利的时间因子:
f(y)=eN(y)
其中,y表示专利摘要集中最早的专利申请日,即起始时间,N(y)表示专利摘要集中专利申请日的最大时间差,即相对的时间间隔;
S5、获取关联强度:
根据任两个高权词在某条专利摘要中共现频次及该条专利的时间因子获取高权词间关联强度,包括:
a1、计算任两个高权词在某条专利摘要中共现频次,即:
其中,N(i,j)表示高权词i和高权词j共现的频次;N(i)表示高权词i出现的频数;N(j)表示高权词j出现的频数;
a2、计算高权词间关联强度:
S6、构建词语关联图
以高权词作为顶点,根据步骤S5得到的高权词间的关联强度构成对应顶点间边的权重,构建出带有权重的词语关联图;
S7、专利技术预测
基于词语关联图的小世界理论根据词语关联图中词语的局部范围重要程度和全局范围重要程度进行专利技术的预测,预测方法具体如下:
b1、局部范围的重要程度获取:在步骤S6获得的词语关联图上从局部范围衡量词语的重要程度:根据词语关联图的连通性,在词语关联图中删除某一高权词后,词语关联图中的剩余高权词所形成的相互独立的词语岛屿数量的多少作为该高权词在词语关联图中局部范围的重要程度;所述词语岛屿为与其它词语关联图之间无连接关系的词语连通图;
b2、全局范围词语的重要程度获取:在步骤S6获得的词语关联图上从全局范围衡量词语的重要程度:通过小世界网络的特征路径长度,确定词语关联图中任一高权词对整个词语关联图的重要程度,即在词语关联图中任选两个高权词,连通这两个高权词的最少边的数量定义为这两个高权词的路径长度;将词语关联图中所有高权词对的路径长度的平均值作为词语关联图的特征路径长度;具体方法是通过词语关联图的特征路径长度L与在词语关联图中删除某个高权词后的所得的词语关联图的特征路径长度之间的差值的绝对值作为全局范围词语的重要程度;
b3、预测结果输出:
根据步骤b1、b2求得的词语i对应的岛屿数Ni(Ii)和ΔL,分别作为词语的局部重要程度和全局重要程度;利用如下公式得到专利技术预测值:
将所得到的预测值按照降序排列,并选取前K个预测值所对应的专利摘要作为输出结果。
2.一种专利技术预测系统,其特征在于,包括以下部分:
预处理单元:
用于采集预定领域的专利摘要组成专利摘要集,利用分词工具对所述专利摘要集中的专利摘要进行分词处理并去除停用词,得到摘要词语集,同时提取专利摘要集中每条专利摘要的专利的申请日,得到与专利摘要集相对应的时间集;摘要词语集及时间集均保存至本地硬盘;
词语重要程度获取单元:
用于通过如下公式计算摘要词语集中的每个词语对于每条专利摘要的权重,将该权重作为该词语对于该条专利摘要所对应专利的词语重要度输出:
其中,weight(i,d)表示词语i对于专利摘要d的权重,tfi,d表示词语i在专利摘要d中出现的频次;ni表示词语i在专利摘要集中出现的摘要频次;N表示专利摘要集中包含的专利摘要总数;
高权词集构建单元:
用于将词语重要度大于该预设阈值的词语作为高权词集输出,所述高权词集中的每个词语为高权词;
时间因子计算单元:
用于将步骤S1获得的时间集作为输入,由如下的时间函数f(y)输出每个专利的时间因子:
f(y)=eN(y)
其中,y表示专利摘要集中最早的专利申请日,即起始时间,N(y)表示专利摘要集中专利申请日的最大时间差,即相对的时间间隔;
关联强度获取单元:
用于将任两个高权词在某条专利摘要中共现频次及该条专利的时间因子获取高权词间关联强度,包括:
C1、计算任两个高权词在某条专利摘要中共现频次,即:
其中,N(i,j)表示高权词i和高权词j共现的频次;N(i)表示高权词i出现的频数;N(j)表示高权词j出现的频数;
C2、计算高权词间关联强度:
词语关联图构建单元
用于以高权词作为顶点,根据得到的高权词间的关联强度构成对应顶点间边的权重,构建出带有权重的词语关联图;
专利技术预测单元
用于基于词语关联图的小世界理论根据词语关联图中词语的局部范围重要程度和全局范围重要程度进行专利技术的预测,预测单元中包括如下单元:
D1、局部范围的重要程度获取单元:用于在词语关联图构建单元中获得的词语关联图上从局部范围衡量词语的重要程度:根据词语关联图的连通性,在词语关联图中删除某一高权词后,词语关联图中的剩余高权词所形成的词语岛屿数量的多少作为该高权词在词语关联图中局部范围的重要程度,所述词语岛屿为与其它词语关联图之间无连接关系的词语连通图;
D2、全局范围词语的重要程度获取单元:用于在词语关联图构建单元中获得的词语关联图上从全局范围衡量词语的重要程度:通过小世界网络的特征路径长度,确定词语关联图中任一高权词对整个词语关联图的重要程度,即在词语关联图中,任选两个高权词,连通这两个高权词的最少边的数量定义为这两个高权词的路径长度;将词语关联图中所有高权词对的路径长度的平均值作为词语关联图的特征路径长度。具体做法是通过词语关联图的特征路径长度L与在词语关联图中删除某个高权词后的所得的词语关联图的特征路径长度之间的差值的绝对值作为全局范围词语的重要程度;
D3、预测结果输出单元:
用于将D1,D2求得的高权词对应的岛屿数Ni(Ii)和ΔL,分别对应高权词的局部重要程度和全局重要程度。利用如下公式得到专利技术预测值:
将所得到的预测值按照降序排列,并输出前K个预测值所对应的专利摘要。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610067078.4/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理