[发明专利]基于专利供需知识图谱的交易推荐方法在审

专利信息
申请号: 202111023408.7 申请日: 2021-08-29
公开(公告)号: CN113779264A 公开(公告)日: 2021-12-10
发明(设计)人: 何喜军;孟雪;武玉英;张佑 申请(专利权)人: 北京工业大学
主分类号: G06F16/36 分类号: G06F16/36;G06F16/9535;G06F40/30;G06Q40/04;G06Q50/18
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 刘萍
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 专利 供需 知识 图谱 交易 推荐 方法
【权利要求书】:

1.一种基于专利供需知识图谱的交易推荐方法,其特征在于,包括以下步骤:(1)专利供需知识图谱的实体和关系规划,包括:语义实体和非语义实体、语义关系和非语义关系;(2)构建专利领域词典,实现语料半自动化标注,基于BERT-BiLSTM-CRF模型,识别语义实体;(3)利用爬虫技术、词嵌入技术和共现关系抽取非语义实体以及语义关系和非语义关系,存入Neo4j图数据库,完成专利供需知识图谱的构建与存储;(4)在专利供需知识图谱中,利用多跳关系自动获取路径,利用TransR模型完成路径的初始嵌入,获得实体及关系的初始嵌入向量;(5)将初始嵌入向量输入图注意力网络,加权聚合邻居信息以更新中心实体的向量表示,得到中心实体的最终向量表示;(6)计算中心实体间的向量相似度,基于Top-K方法进行交易推荐,为中心实体推荐Top-K个结果。

2.一种基于专利供需知识图谱的交易推荐方法,详细步骤如下:

①S101步骤完成数据获取及预处理;

筛选领域词汇,构建专利检索表达式;

基于数据库检索专利信息,通过数据库映射并采集专利转让及许可信息;由于图谱涉及较多组织,因此,筛选参与专利交易频次大于5的组织作为推荐模型的样本数据,即中心实体;

②S102步骤完成专利供需知识图谱规划;对传统专利知识图谱中包含的实体及关系进行梳理归纳,并融合专利供需和交易信息中的6类实体及6类关系,构建由12类实体和14类关系组成的专利供需知识图谱(PSD-KG),进一步拓展专利知识库;表1展示了PSD-KG中包含的实体和关系;

表1 PSD-KG的实体和关系规划

“*”代表新增实体及关系

③S103步骤基于BERT-BiLSTM-CRF模型完成技术点和技术功效的自动识别,步骤包括:专利领域词典抽取、语料自动化标注、语义实体自动识别;

第一,专利领域词典抽取;首先,利用专利领域的国家标准,自动抽取领域术语,获得技术点种子词典;然后,对IncoPat数据库中“技术功效TRIZ参数”和“技术功效1级”字段中包含的技术功效词进行自动筛选,获得功效术语组成技术功效种子词典;利用StanfordNLP工具对专利摘要进行依存句法分析,获取依存关系为“compound”的词构建复合术语表;最后,在复合术语表中筛选包含技术点、技术功效种子词的复合名词,与种子词典进行合并,得到多个技术点和多个技术功效词汇;

第二,语料自动化标注;基于专利领域词典实现自动化标注;选择BIESO标注模式,并以“Technology”和“Effect”区分技术点和技术功效两类实体;具体为:利用python对专利摘要进行分词,遍历技术点和技术功效词典,将匹配到的词视为实体,不属于实体的词标记为O,按照表2的模式标注;

表2 数据标注模式

第三,语义实体识别;基于BERT-BiLSTM-CRF模型进行语义实体识别,是实现PSD-KG半自动化构建的关键步骤;模型分为3层,首先,标注语料经过BERT层获得相应的序列向量;然后,把序列向量输入到BiLSTM层对上下文的语义特征进行建模;最后,利用CRF层对BiLSTM层的输出结果进行解码,得到预测标注序列,通过对序列中的各个实体进行提取分类,完成实体识别;

(1)BERT层:

专利摘要中的每个句子在领域词典的基础上,首先经过BIESO模式进行自动化标注,并在句子首尾分别嵌入[CLS]和[SEP]标记句子的开始和结束;经过上述操作的句子被转化成词序列W=(w1,w2,...,wn-1,wn),n为所有专利文本中词的总个数,然后经过TokenEmbedding、Segment Embedding和Position Embedding进行词、句子、位置嵌入,通过Transformer特征提取后,得到含有丰富语义特征的序列向量X=(x1,x2,...,xn-1,xn);

(2)BiLSTM层:

BiLSTM层将BERT层获得的序列向量作为各个时间步的输入,对于时间步p1,对多个隐状态序列按照位置拼接得到完整序列,记为hd为隐状态序列维度,计算序列对应的标签得分矩阵L=(l1,l2,...,ln)∈Rn×sn,sn为标签数量。标签集合TAG=(tag1,tag2,...,tagsn)标签得分矩阵L中li=(li1,li2,...,lisn)由TensorFlow库中提供的LSTM模块进行训练,其中lij表示将语义向量xi标注为标签tagj的得分。

(3)CRF层:

CRF层引入标签转移概率矩阵A约束输出标签,代表标签yi转移为yj的概率,将标签得分矩阵L作为状态概率矩阵,表示语义向量xi获得标签yi的概率;对于词序列W=(w1,w2,...,wn),预测出标签序列Y的得分为转移概率和状态概率之和,公式如下:

利用softmax函数对所有可能的序列路径进行归一化,得到标签序列Y产生的概率:

两边取对数得到标签序列Y的似然函数:

(3)式中,表示实际的标注序列,表示对词序列W预测出实际标注序列的得分,YW表示所有可能的标注序列集合;使用Viterbi算法解码后得到最大得分的输出序列,即为最优标签序列:最后,根据标签对实体进行整合,完成实体识别;

④S104步骤完成专利供需知识图谱的构建与存储;包括4个步骤:非语义实体识别、语义关系抽取、非语义关系抽取、基于Neo4i图数据库的存储;

第一,非语义实体识别;(1)组织类型实体识别:构建组织分类的关键词表,将组织划分为6类包括:企业、高校、科研机构、政府机构、个人、金融机构,利用Python实现类型映射;(2)组织所在城市识别:利用Java Script语言调用百度地图API和谷歌地图API,通过模糊查询和人工检索的方式检索出组织所在的城市信息;其他非语义实体识别均通过“正则表达式+爬虫技术”从结构化数据中获取;

第二,语义关系抽取;关系抽取包括语义关系抽取和非语义关系抽取,其中,语义关系包括技术点语义相似、技术功效语义相似关系2类;

用词嵌入方法进行技术点语义关系计算,步骤如下:

(1)构建技术点集合,记作Tech=(tech1,tech2,...,techm),其中techi表示第i个技术点词汇,m为技术点词汇的个数;

(2)利用BERT模型对技术点集合中的技术点词汇进行嵌入表示,得到技术点向量集合Tech_Vector=(T1,T2,...,Tm);

(3)计算技术点语义相似度矩阵;以笛卡尔积的形式计算技术点向量集合的相似度,得到一个m×m语义相似度矩阵M1

M1中的Tsim(Ti,Tj)表示技术点向量Ti和Tj的语义相似度;计算方法为向量的余弦相似度:;

(4)建立技术点相似关系;为每个技术点选择相似度值较高的前20个构建技术点间相似关系;

第三,非语义关系抽取;包括12类:组织和专利间关系包括申请、拥有、转出、受让、许可、被许可、组织和城市隶属关系、组织和类型隶属关系、专利和技术领域隶属关系、专利与技术点的关系、专利与技术功效的关系、专利间引证关系;

抽取步骤如下:

(1)转受让及许可关系抽取:需从转让及许可记录中抽取,当某一专利发生多次转让时,专利库对多个转让方和受让方进行了字段合并,导致转让记录下载后无法准确判断每次转让中的参与组织,因此对多次转让的专利记录进行拆分处理;处理方法为:利用正则表达式对其他国家专利数据的“法律状态”字段进行解析,实现多次转让拆分;中国专利的“法律状态”利用Python逐条爬取转让及许可记录;

得到单次转让记录后,利用Python分别获取转让人、受让人与专利公开号间的转出、受让关系,为区分多次转让,将转让时间作为转出、受让关系属性;许可、被许可关系的抽取与之相同;

(2)其他关系抽取:除转受让及许可关系、技术点与技术功效相似关系外,采用基于专利著录项共现方法从原始数据中补全其他8类关系,具体做法如下:

组织与专利的申请关系、组织与专利的拥有关系:以公开号为中介,分别在专利公开号与申请人、当前专利权人间建立;组织与类型的隶属关系、组织与城市的隶属关系:分别在组织与区域、类型间建立;专利与领域的隶属关系:专利所属领域为国际专利分类法IPC号的前4位,即:分到小类即可;专利与技术点的关系、专利与技术功效的关系:分别在专利公开号与技术点、技术功效间建立;专利间被引关系:在发生引证的专利公开号间建立;

第四,基于Neo4j图数据库的存储;完成实体识别和关系抽取后,共得到12类实体和14类关系,用于构建专利供需知识图谱,结果见表3;利用py2neo库建立python与Neo4j图数据库建立连接,将实体和关系存入Neo4j图数据库中;

表3 实体及关系数量

⑤S105步骤完成中心实体的多跳路径获取及路径的初始嵌入;首先,从专利供需知识图谱中利用多跳关系自动获取中心实体的路径,然后,利用TransR模型完成路径的初始嵌入,获得实体及关系的初始嵌入向量;

第一,中心实体的多跳路径获取;对于PSD-KG,将与中心实体直接相邻的实体称为1跳实体,与1跳实体直接相邻的实体称为2跳实体,以此类推,得到中心实体的q跳实体,q≥2,将q跳范围内的实体集合称为多跳邻居,中心实体与多跳邻居间存在的路径称为多跳路径;以中心实体为出发点,利用Python的py2neo库与图数据库Neo4j建立连接,基于Cypher语言构建检索语句,运用宽度优先搜索策略,获得多跳路径;

第二,基于TransR模型的初始嵌入,将路径的结构信息进行编码,为每个实体和关系生成初始嵌入向量;采用TransR模型生成嵌入向量;组织1和组织2同属于企业类型,但组织类型和所属城市为两种不同关系,通过引入组织类型空间和所属城市空间,使得组织1和组织2满足在组织类型上相似但在所属城市上不相似,即实现在特定关系空间上的考量;

基本方法是:对于由每个头实体h,实体间关系r和尾实体t构成的三元组(h,r,t),TransR使用两个向量来表示每类关系,一个向量表示关系本身,另一个向量用来构造投影矩阵表示这一关系所在的关系向量空间;ed和rd分别为实体嵌入维度和关系嵌入维度;利用eh,来表示每个由头实体和尾实体在实体空间构成的向量;首先,在某个特定关系r上,利用投影矩阵Mr获得头实体和尾实体在关系空间的投影向量和其中:然后,不断学习三元组(h,r,t)中实体和关系的嵌入。学习过程如下所示:

(1)对于任意给定的一个三元组(h,r,t),定义损失函数如下:

其中,是关系r的投影矩阵,用来将实体向量从ed维的实体空间投影到rd维的关系空间中;||·||2表示L2正则化,L2正则化是各个元素的平方和然后再求平方根,用来防止过拟合;

根据损失函数,定义Hinge目标函数如下:

其中,I为预测正确的三元组集合,I′为预测错误的三元组集合,(h′,r,t′)表示在关系r下预测错误的三元组,h′为错误三元组的头实体,t′为尾实体。边界值γ可以使正确预测的得分至少需要比错误预测的得分高出一个边界值才可被视为正样本,用于区分正负样本。本发明取γ=0.1。

TransR对所有路径中包含的所有关系,分别构建关系向量r和这一关系所在的关系向量空间Mr,并学习实体和关系向量表示,求解过程通过Hinge目标函数的最大化实现,当目标函数最大时得到的最优解包括:所有的实体向量、关系向量和关系向量空间;

⑥S106步骤利用图注意力网络(GAT)完成邻居信息聚合及中心实体的表示;首先获得邻居信息的加权聚合表示,然后将邻居信息与中心实体信息聚合,得到包含邻居信息的中心实体向量,即为组织的最终向量表示;步骤包括:基于信息传播的邻居信息表示、基于注意力机制的邻居权重计算、邻居信息和中心实体信息聚合;

第一,基于信息传播的邻居信息表示;在PSD-KG中,将组织作为中心实体,将多跳路径上的邻居信息沿路径由外向内传播聚合,获得多维邻居信息的向量表示,记作计算公式如下:

其中,N(h)为中心实体多跳范围内的三元组集合,是三元组(h,r,t)中尾节点t的嵌入向量,ln为信息传播层数;由外到内依次为第1、2、…、ln层,第ln层连接中心实体与1跳邻居,则本步骤需聚合ln-1层的邻居信息;π(h,r,t)是邻居权重,用来控制邻居实体t在关系r上传播到实体h的信息量;

第二,基于注意力机制的邻居权重计算;邻居实体的权重可区分不同邻居对中心实体向量表示的贡献程度,计算公式如下:

π(h,r,t)=(Mret)Ttanh(Mreh+er) (9)

其中,tanh作为非线性激活函数,er和Mr分别表示初始嵌入中生成的关系r的向量和r上的投影矩阵,利用该投影矩阵可得到头实体h和尾实体t在关系r空间中嵌入向量,即:Mreh和Mret;π(h,r,t)的大小取决于头、尾实体在关系r上的语义距离,距离较小的实体间会传播更多的信息;使用向量内积来计算;采用softmax函数对π(h,r,t)归一化后,即可得到邻居权重;

第三,实体信息聚合;嵌入传播的过程是将路径上的邻居信息由外向内迭代地聚合到中心实体,以更新中心实体的向量表示,记作计算公式如下:

其中,f(·)代表聚合器,采用GraphSage Aggregator聚合器,通过聚合和来更新中心实体的向量表示;

⑦S107步骤完成推荐结果计算;

通过计算实体向量间的余弦相似度,并基于Top-K方法进行交易推荐;组织oi和oj的相似度计算公式如下:

其中,和分别为组织oi和oj的向量表示,和分别代表向量和的模长;将组织oi和与其他组织的相似度值进行排名,根据Top-K思想,返回前K个推荐组织,得到交易伙伴推荐结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111023408.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top