[发明专利]一种知识图谱构建方法有效
申请号: | 201910721967.1 | 申请日: | 2019-08-06 |
公开(公告)号: | CN112347263B | 公开(公告)日: | 2023-04-14 |
发明(设计)人: | 陈成才 | 申请(专利权)人: | 上海智臻智能网络科技股份有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/295 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 201803 上海市嘉*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 知识 图谱 构建 方法 | ||
1.一种知识图谱构建方法,其特征在于,包括以下步骤:
对待处理的句子进行分词,得到多个单独词;所述待处理的句子为具有一定长度的文本,包括:新闻文本、用户输入文本或由语音输入识别的转换的文本;
识别所述多个单独词中的实体,将所述实体两个一组组成实体对;所述实体是在文本中具有特定含义或者具有很强指代性的名词,包括人名、地名、机构名称、时间或专用名称;
对于每个所述实体对,获取所述句子的句向量,所述句向量包括多个所述单独词的词-位置向量,所述单独词的词-位置向量包括所述单独词的词向量,以及所述单独词与所述实体对的相对位置向量;
根据所述句向量提取所述句子多个方面的表示特征;
根据所述多个方面的表示特征得到一个融合特征,所述融合特征包括不少于一个特征向量;
对所述融合特征进行特征筛选,屏蔽其中的噪声特征;
根据所述融合特征预测所述实体对的实体关系;
根据所述实体对和对应的实体关系构建知识图谱;
所述实体对包括第一实体和第二实体,获取所述单独词与所述实体对的相对位置向量的步骤包括:分别计算所述单独词相对于所述第一实体以及所述单独词相对于第二实体的相对距离;根据预设的位置向量矩阵将所述相对距离转换为向量表示;
所述分别计算所述单独词相对于所述第一实体以及所述单独词相对于第二实体的相对距离之后,所述根据预设的位置向量矩阵将所述相对距离转换为向量表示之前,还包括步骤:判断所述相对距离是否在预设的最小距离与最大距离的范围之内,若所述相对距离小于所述最小距离,则以所述最小距离替换所述相对距离;若所述相对距离大于所述最大距离,则以所述最大距离替换所述相对距离;
所述根据所述句向量提取所述句子多个方面的表示特征包括:
根据所述句向量,按照下述公式计算预设次数的所述表示特征,
其中,hi为第i个方面的所述表示特征,i的取值范围为[1,l],l为所述预设次数,v为所述句向量,dv为构成所述句向量的所述单独词的数目,和分别表示第i次计算时的不同的参数矩阵且分别通过神经网络训练获得,所述预设次数的取值范围在5~12之间;
所述根据所述多个方面的表示特征得到一个融合特征包括:将每个方面的所述表示特征分别放入卷积神经网络的一个单独通道;对于每一所述单独通道,通过下述公式计算所述融合特征中的特征向量,
cj=f(wf·h(i:i+n-1)+bf)
其中,j的取值范围为[1,m],cj表示融合特征中的第j项特征向量,m为卷积核的个数,f为非线性函数,wf为参数矩阵,bf为偏置参数,h(i:i+n-1)由hi、hi+1、…、hi+n-1依次连接组成,n为卷积窗口的长度,hi表示第i个方面的所述表示特征;
根据计算得到的所述m个特征向量生成所述融合特征;
所述对所述融合特征进行特征筛选,屏蔽其中的噪声特征包括:对所述融合特征中包括的所述特征向量进行全局平均池化,得到所述特征向量分别对应的聚合信息;利用两个全连接网络对所述聚合信息进行筛选,得到所述特征向量对应的筛选参数;根据所述筛选参数判断所述特征向量是否为噪声特征,若是,则将所述噪声特征屏蔽,更新所述特征向量;根据所述更新后的特征向量,更新所述融合特征;
所述根据所述筛选参数判断所述特征向量是否为噪声特征,若是,则将所述噪声特征屏蔽,更新所述特征向量包括:
根据下述公式进行所述筛选参数的判断与屏蔽,
其中,所述cj表示融合特征中的第j项所述特征向量,所述xj为所述cj对应的更新后的特征向量,所述sj为所述cj对应的所述筛选参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海智臻智能网络科技股份有限公司,未经上海智臻智能网络科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910721967.1/1.html,转载请声明来源钻瓜专利网。