[发明专利]文本处理方法、装置、电子设备及存储介质在审
申请号: | 202110614403.5 | 申请日: | 2021-06-02 |
公开(公告)号: | CN113821588A | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 毛铁峥;赵子元;颜强 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F16/36;G06F40/194;G06F40/279;G06F40/30 |
代理公司: | 深圳市智圈知识产权代理事务所(普通合伙) 44351 | 代理人: | 韩绍君 |
地址: | 518064 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 电子设备 存储 介质 | ||
本申请涉及人工智能技术领域,公开了一种文本处理方法、装置、电子设备及存储介质,该方法包括:确定查询文本相对于待匹配文本的匹配权重矩阵,匹配权重矩阵包括第一权重矩阵和第二权重矩阵中的至少一项;根据匹配权重矩阵,对查询文本相对于待匹配文本的相似度矩阵进行增强,得到第一相似度矩阵,查询文本相对于待匹配文本的相似度矩阵是根据查询文本中各分词的词向量和待匹配文本中各分词的词向量进行相似度计算得到的;根据第一相似度矩阵确定查询文本与待匹配文本之间的匹配度分数;根据查询文本与待匹配文本之间的匹配度分数确定目标匹配文本。通过本方案可以有效提高文本匹配的准确度。
技术领域
本申请涉及人工智能技术领域,更具体地,涉及一种文本处理方法、装置、电子设备及存储介质。
背景技术
文本匹配广泛应用在资源查询场景中,例如新闻资讯查询、论文查询等。实践中发现文本匹配的准确度较低,资源查询的效率低,因此,如何提高文本匹配的准确度是现有技术中亟待解决的技术问题。
发明内容
本申请实施例提出了一种文本处理方法、装置、电子设备及存储介质,以解决文本匹配准确低的问题。
根据本申请实施例的一个方面,提供了一种文本处理方法,该方法包括:确定查询文本相对于待匹配文本的匹配权重矩阵,所述匹配权重矩阵包括第一权重矩阵和第二权重矩阵中的至少一项,所述第一权重矩阵是根据所述查询文本中各分词所属的分词类别和所述待匹配文本中各分词所属的分词类别确定的,所述第二权重矩阵是根据所述查询文本中各分词与所述待匹配文本中各分词之间的关联关系确定的;根据所述匹配权重矩阵,对所述查询文本相对于所述待匹配文本的相似度矩阵进行增强,得到第一相似度矩阵,所述查询文本相对于所述待匹配文本的相似度矩阵是根据所述查询文本中各分词的词向量和所述待匹配文本中各分词的词向量进行相似度计算得到的;根据所述第一相似度矩阵确定所述查询文本与所述待匹配文本之间的匹配度分数;根据所述查询文本与所述待匹配文本之间的匹配度分数确定目标匹配文本。
根据本申请实施例的一个方面,提供了一种文本处理装置,包括:匹配权重矩阵确定模块,用于确定查询文本相对于待匹配文本的匹配权重矩阵,所述匹配权重矩阵包括第一权重矩阵和第二权重矩阵中的至少一项;所述第一权重矩阵是根据所述查询文本中各分词所属的分词类别和所述待匹配文本中各分词所属的分词类别确定的;所述第二权重矩阵是根据所述查询文本中各分词与所述待匹配文本中各分词之间的关联关系确定的;增强模块,用于根据所述匹配权重矩阵对所述查询文本相对于所述待匹配文本的相似度矩阵进行增强,得到第一相似度矩阵;所述相似度矩阵是根据所述查询文本中各分词的词向量和所述待匹配文本中各分词的词向量进行相似度计算得到的;匹配度分数确定模块,用于根据所述第一相似度矩阵确定所述查询文本与所述待匹配文本之间的匹配度分数;目标匹配文本确定模块,用于根据所述查询文本与所述待匹配文本之间的匹配度分数确定目标匹配文本。
在本申请的一些实施例中,基于前述方案,所述匹配权重矩阵包括第一权重矩阵;匹配权重矩阵确定模块,包括:分词类别识别单元,用于识别所述查询文本中各分词所属的分词类别;第一权重确定单元,用于根据所述查询文本中各分词所属的分词类别、所述待匹配文本中各分词所属的分词类别和权重映射信息,确定所述查询文本中每一分词相对于所述待匹配文本中每一分词的第一权重;所述权重映射信息指示了与任意两分词类别相关联的第一权重;第一权重矩阵确定单元,用于组合所述查询文本中全部分词相对于所述待匹配文本中全部分词的第一权重,得到所述第一权重矩阵。
在本申请的一些实施例中,基于前述方案,分词类别识别单元,包括:第一实体链接信息获取单元,用于获取第一实体链接信息,所述第一实体链接信息是将所述查询文本中的各分词在知识图谱中进行实体链接得到的;分词类别确定单元,用于将在知识图谱中为所述查询文本中的分词所链接到第一实体所属的分词类别,作为所述查询文本中的分词所属的分词类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110614403.5/2.html,转载请声明来源钻瓜专利网。