[发明专利]基于属性异构网络表示学习的专利交易推荐方法在审
申请号: | 202111030367.4 | 申请日: | 2021-08-29 |
公开(公告)号: | CN113836398A | 公开(公告)日: | 2021-12-24 |
发明(设计)人: | 何喜军;才久然;武玉英;吴爽爽 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06N3/02;G06N3/08;G06Q10/06;G06Q40/04;G06Q50/18 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 属性 网络 表示 学习 专利 交易 推荐 方法 | ||
1.一种基于属性异构网络表示学习的专利交易推荐方法,其特征在于,包括以下步骤:(1)属性体系构建:基于IncoPat专利数据库采集专利数据,基于文献研究构建影响专利交易的属性指标体系;(2)专利交易属性异构网络(Attribute Heterogeneous Network,AHN)构建:构建包括三类节点、三类关系及多个属性的专利交易AHN;(3)专利交易AHN的表示学习:包括基于神经网络获得节点的多维高斯分布、基于元路径随机游走生成节点序列、基于skip-gram并利用KL散度度量不同节点高斯分布间的差异,获得每个节点的低维向量空间;(4)目标组织的Top-k推荐:基于余弦相似度计算节点间相似度进行目标组织的Top-k推荐。
2.根据权利要求1所述的一种基于属性异构网络表示学习的专利交易推荐方法,其特征在于,包括以下步骤:
在步骤S101中,构建影响专利交易的属性体系,并基于专利数据库获取专利和组织信息;
基于文献梳理构建影响专利交易的专利及组织属性指标体系,如表1;
表1属性指标体系
专利竞争力计算过程为:专利P的申请人集合为PA,申请人数量为|PA|,IPC集合为PI;专利P的申请人集合拥有的所有专利的IPC集合记为SIPC,数量为|SIPC|;构建申请人-IPC向量其中,IPCj表示SIPC中第j个IPC,j=1,2,…,|SIPC|,表示申请人ai拥有的所有专利中IPCj的出现次数,则专利P的竞争力为申请人集合及IPC集合组合的数量平均,公式如下:
此外,新颖性的计算方法通过专利摘要相似度表征,公式如下:
pm表示数据库中申请时间在专利P之前,与专利P相似度大于等于相似水平α的专利数量,α=0.2;
初始数据获取过程为:基于专利数据库检索有效发明授权专利,通过转让专利的申请人地址、受让人地址、当前专利权人地址进行模糊匹配检索;
数据处理过程如下:
(1)针对一条转让记录中存在多个转让或受让组织的记录,按照将O1→O2O3结构拆分为O1→O2和O1→O3;将O1O2→O3结构拆分为O1→O3和O2→O3的规则拆分,其中:O1,O2,O3代表专利转受让组织,→代表转让方向,数据拆分后提取组织列表,删除转、受让方为个人的记录;
(2)删除转让方和受让方均不在地址限制条件的转让记录;
(3)得到未转让专利项的数目;
(4)针对上述数据集,标注分类标签,发生转让标注为1,未发生转让标注为0;并计算属性指标,对连续型指标利用公式进行归一化处理;利用One-Hot对组织类型属性和组织区域属性进行编码,对组织属性进行向量表示;利用TF-IDF将专利文本属性表示为向量,并结合其他专利属性信息编码向量构成属性矩阵;
在步骤S102中,构建专利交易AHN,给出如下定义:
定义1属性异构网络,AHN,给定AHN,G={V,E,A},其中V表示节点集合,|V|为节点数量,E是网络中边的集合,A是节点的属性矩阵;E仅存在于节点之间,即表示节点vi的属性向量,
专利交易AHN中,节点集合表示为V={v1,v2,…,vO,vO+1,…,vP,vP+1,…,vT},映射为节点类型集合为VType={O,P,T},O表示组织、P表示专利、T表示IPC;|O|表示组织节点的数量;E={E1,E2,E3}为关系类型集合,E1表示组织转出专利、E2表示组织转入专利、E3表示专利与IPC的隶属关系;Ao表示组织属性集合、Ap表示专利属性集合,分别表示表1中列出的组织属性和专利属性;假设Ao={Ao1,Ao2},Ap={Ap1,Ap2},对于每个节点vi∈V,其属性向量表示为则属性矩阵表示为
定义2元路径是网络模式TG={V,E}上的路径,定义为:在不同类型节点之间的一系列关系序列组成的路径;表示O到T之间的复合关系
定义3AHN表示学习,给定AHN,G={V,E,A},A∈Rm×n为属性矩阵,其中m为节点数,m=|V|,n为属性数,目标是学习映射函数f:V→Rd,将G中每个节点映射为d维向量,d取值200;
在步骤S103中,专利交易AHN的表示学习过程包括:基于神经网络得到节点的多维高斯分布;基于元路径随机游走遍历AHN生成节点序列;基于skip-gram并利用KL散度衡量不同节点高斯分布间的差异,从而获得每个节点的低维向量空间;具体如下:
(1)首先,将专利属性矩阵输入神经网络,通过第一层神经网络处理节点属性并输出中间隐藏表示;然后,经过第二层神经网络输出得到节点的均值和协方差矩阵;公式如下:
其中,是节点vi的属性向量,为第一层输出的中间隐藏表示,W和b分别为该层的权重矩阵与偏置向量,和分别表示输出得到的节点vi的均值和协方差矩阵,Wμ和bμ分别表示均值的权重矩阵和偏执向量,W∑和bΣ分别为协方差矩阵的权重矩阵与偏置向量,relu和elu是两个激活函数;
(2)采用为元路径进行随机游走,其含义为某组织转出的专利与另一组织转入的专利同属一个技术领域时,组织间更易发生交易;给定专利交易AHN和元路径,在随机游走的第k+1步的转移概率为:
公式含义为第k步游走到节点vi,且已知预定义的元路径path;首先获取节点vi的类型,如果节点vi是P类型,那么根据上述元路径中不同类型节点间的关系路径,vi的邻居节点的类型应为O类型或T类型,同理,如果节点vi是O类型,那么其邻居节点的类型应为P类型;则第k+1步游走到节点vj需要满足两个条件:节点vi、vj之间存在连接,即(vi,vj)∈E,且节点vj的类型为节点vi的邻居节点类型t类型,即φ(vj)=t,t为vi在元路径中所有邻居节点对应的类型;此时第k+1步游走到节点vj的概率为:Nt(vi)表示节点vi的邻居中类型为t的邻居节点集;当节点vi、vj之间存在连接,即(vi,vj)∈E,但vj不属于vi的邻居节点类型t类型,即φ(vj)≠t,转移概率为0;当节点vi、vj之间不存在连接,即其转移概率也为0;
每个节点随机游走50次,行走长度为10步,且随机游走次数和步长的数值能够保证覆盖网络中的每个节点;最终得到节点序列,
(3)采用skip-gram模型对专利交易AHN网络进行训练,skip-gram是主流的神经网络语言模型,核心思想是使用当前单词预测其周围的单词,在网络中,即使用当前节点预测其周围邻居节点,节点看作单词,节点序列相当于句子;具体步骤如下:
skip-gram模型基于中心节点嵌入最大化观察邻域节点的概率,目标函数即
其中,VType表示节点的类型集合,Nt(vi)表示节点vi的类型为t的邻居节点集,是一个映射函数,将节点映射成向量,含义为在随机游走中,当给定一个节点vi时,在它的窗口范围内出现t类型节点的概率;基于条件独立性假设,将上式中的条件概率近似如下:
其中,vj∈Nt(vi)表示节点vj属于节点vi的t类型邻居;
采用Softmax函数针对节点vj的节点类型进行规范化;给定vi后,邻居vj出现的概率为:
其中,函数exp(x)表示自然对数e的x次方,和分别表示中心节点和其邻居的嵌入,表示网络中任意节点的嵌入,即是二者的点积,KL散度又被称为相对熵(relative entropy)或信息散度(information divergence),是两个概率分布(probability distribution)间差异的非对称性度量;公式如下:
其中,和分别表示两个节点的多维高斯分布,表示两个分布的KL散度,和分别表示两个分布的均值,和分别表示两个协方差矩阵的行列式,R表示向量,l表示嵌入的维度,和tr(·)分别表示协方差矩阵的逆和迹;通过这种方式,公式(7)重新写为:
利用sigmoid函数归一化;损失函数如式(10):
其中,σ是sigmoid函数,即表示为节点vj的嵌入,节点vj属于节点vi的t类型邻居,即vj∈Nt(vi);负样本表示不包含在Nt(vi)中的节点,表示负样本节点vk的嵌入,vk的节点类型和vj相同;Pneg(v)表示中心节点的噪声分布,在E限制的情况下服从具有指定均值和偏差的正态分布,初始的均值和偏差是随机生成的,负样本节点vk是从分布中取得的向量,即vk~Pneg(v),K为从Pneg(v)中收集的负样本总数量;具体而言,首先初始化节点向量,分别对正负样本中的每一个节点初始化一个低维向量作为该节点的向量表示,然后利用梯度下降法最小化损失函数,其本质为最大化不断更新节点的向量,直到收敛或训练阶段结束;首先,在5-100之间,随机设定skip-gram模型中的epoch参数值大小,若训练次数小于epoch参数值,且损失函数已经收敛,则提前结束训练,否则直到达到训练次数,即epoch参数值时结束训练;
在步骤S104中,基于余弦相似度计算节点相似度,对相似度值进行Top-k排序,得到Top-k个专利作为目标组织的推荐结果;
通过表示学习训练完成后提取出组织及专利的表示向量,采用余弦相似度衡量两个节点间相似程度,如果两个向量的余弦相似度越大,那么它们越相似;计算组织oi和专利pj间余弦相似度如式(11):
其中l为向量长度,分别代表组织oi和专利pj的向量,对计算出的余弦值进行降序排列,得到Top-k专利交易推荐结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111030367.4/1.html,转载请声明来源钻瓜专利网。