[发明专利]信息处理方法、装置和计算机可读存储介质有效
申请号: | 202010018141.1 | 申请日: | 2020-01-08 |
公开(公告)号: | CN111241298B | 公开(公告)日: | 2023-10-10 |
发明(设计)人: | 吴旭辉;荆宁;张红林 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/30;G06F18/22 |
代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 董慧 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息处理 方法 装置 计算机 可读 存储 介质 | ||
1.一种信息处理方法,其特征在于,包括:
获取至少两个的待融合实体对应的简介文本;所述简介文本用于描述对应的所述待融合实体的实体信息;
分别提取每个所述简介文本对应的语义特征信息,以及,提取各个所述简介文本之间的公共特征信息;
根据每个所述简介文本对应的语义特征信息和所述公共特征信息,确定所述至少两个的待融合实体之间的实体相似度;
当所述实体相似度符合预设条件时,将所述至少两个的待融合实体进行融合,得到融合后实体。
2.根据权利要求1所述的方法,其特征在于,所述分别提取每个所述简介文本对应的语义特征信息,包括:
将各个所述简介文本的文本内容向量化,确定各个所述简介文本对应的文本向量;
分别对每个所述简介文本对应的文本向量进行特征提取,确定每个所述简介文本对应的语义特征信息。
3.根据权利要求2所述的方法,其特征在于,所述将各个所述简介文本的文本内容向量化,确定各个所述简介文本对应的文本向量,包括:
对每个所述简介文本的文本内容进行分词处理,确定每个所述简介文本中的至少两个的词;
对每个所述简介文本中的至少两个的词进行向量化处理,确定每个所述简介文本对应的至少两个的词向量;
将每个所述简介文本对应的至少两个的词向量,作为每个所述简介文本对应的文本向量。
4.根据权利要求2所述的方法,其特征在于,所述分别提取每个所述简介文本对应的语义特征信息,包括:
通过预训练的解编码模型中的解码器,对每个所述简介文本对应的文本向量进行解码,得到文本解码向量;
根据所述文本解码向量,确定每个所述简介文本对应的文本编码向量;
根据所述文本解码向量和所述文本编码向量,确定所述每个所述简介文本对应的语义特征信息。
5.根据权利要求4所述的方法,其特征在于,所述根据所述文本解码向量,确定每个所述简介文本对应的文本编码向量,包括:
基于注意力机制,获取所述文本解码向量对应的匹配度权重;所述匹配度权重为根据所述文本解码向量与所述文本解码向量对应的文本向量之间的匹配程度得到的;
根据所述匹配度权重,对所述文本解码向量进行权重调整,得到加权后的文本解码向量;
通过所述解编码模型中的编码器,对所述加权后的文本解码向量进行编码,得到所述文本编码向量。
6.根据权利要求4所述的方法,其特征在于,所述根据所述文本解码向量和所述文本编码向量,确定所述每个所述简介文本对应的语义特征信息,包括:
对每个所述简介文本对应的文本解码向量和每个所述简介文本对应的文本编码向量进行最大池化,得到最大池化结果;
将所述最大池化结果,作为每个所述简介文本对应的语义特征信息。
7.根据权利要求1所述的方法,其特征在于,所述至少两个的待融合实体包括第一实体和第二实体,所述提取各个所述简介文本之间的公共特征信息,包括:
获取所述第一实体的简介文本与所述第二实体的简介文本之间的公共属性信息,获取所述第一实体的简介文本与所述第二实体的简介文本之间的公共文本信息,以及,获取所述第一实体的简介文本与所述第二实体的简介文本之间的公共领域信息;
将所述公共属性信息、所述公共文本信息和所述公共领域信息中的至少一种作为各个所述简介文本之间的公共特征信息。
8.根据权利要求7所述的方法,其特征在于,所述获取所述第一实体的简介文本与所述第二实体的简介文本之间的公共属性信息,包括:
获取所述第一实体的简介文本与所述第二实体的简介文本之间的相似三元组;所述相似三元组为属性值相似的至少两个的三元组;
确定所述相似三元组的数量,作为各个所述简介文本之间的公共属性信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010018141.1/1.html,转载请声明来源钻瓜专利网。