[发明专利]文本相关性确定方法、模型训练方法、装置及存储介质在审
申请号: | 202110613483.2 | 申请日: | 2021-06-02 |
公开(公告)号: | CN113821587A | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 毛铁峥;赵子元;颜强 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/279;G06F40/30;G06N20/00 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 谭英强;梁嘉琦 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 相关性 确定 方法 模型 训练 装置 存储 介质 | ||
本申请公开了一种文本相关性确定方法、模型训练方法、装置及存储介质,先对信息请求文本和候选信息文本进行向量化处理,得到多个第一词向量和多个第二词向量,再对候选信息文本进行特征提取处理得到特征词向量,然后将特征词向量和多个第一词向量进行匹配处理得到匹配信息,接着对第一词向量、第二词向量、特征词向量和匹配信息进行组合处理得到相关性参数,根据相关性参数确定信息请求文本和候选信息文本的相关性。本申请在信息请求文本是不属于训练数据的长尾文本的情况下,也能够实现对信息请求文本和候选信息文本的相关性的良好预测,从而能够提高用户使用例如微信的搜一搜功能的粘度。可见,本申请可以广泛应用于自然语言处理技术中。
技术领域
本申请涉及自然语言处理技术,尤其是一种文本相关性确定方法、模型训练方法、装置及存储介质。
背景技术
文本相关性的准确识别,在文本搜索、服务搜索等业务中十分重要,例如在微信的搜一搜功能中搜索朋友圈、文章、公众号、小说、音乐或表情等,如果能够准确识别并推送与用户输入的信息请求文本(如搜索词)相关的目标信息文本,将能够大大提高用户的粘度。为了达到这个目的,传统的方法是将大量的信息请求文本及其相关的目标信息文本作为训练数据,对相关性模型进行训练。
长尾文本,是指非目标关键词文本但与目标关键词文本相关的文本。传统的训练方法中无法利用所有长尾文本对相关性模型进行训练,因此,如果用户输入的信息请求文本为没有在训练数据中出现过的长尾文本,那么相关性模型在进行相关性预测时容易出现判断错误的问题。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本申请实施例提供了一种文本相关性确定方法、模型训练方法、文本相关性确定装置、模型训练装置、电子装置及计算机可读存储介质,能够提高对信息请求文本和候选信息文本的相关性预测的准确性。
一方面,本申请实施例提供了一种文本相关性确定方法,包括以下步骤:
获取信息请求文本;
根据所述信息请求文本获取候选信息文本;
对所述信息请求文本和所述候选信息文本进行向量化处理,得到所述信息请求文本的多个第一词向量和所述候选信息文本的多个第二词向量;
对所述候选信息文本进行特征提取处理得到特征词向量;
将所述特征词向量和多个所述第一词向量进行匹配处理得到匹配信息,其中,所述匹配信息用于表征所述特征词向量是否与多个所述第一词向量中的一个相匹配;
对多个所述第一词向量、多个所述第二词向量、所述特征词向量和所述匹配信息进行组合处理得到相关性参数;
根据所述相关性参数确定所述信息请求文本和所述候选信息文本的相关性。
另一方面,本申请实施例还提供了一种模型训练方法,包括:
获取训练数据,所述训练数据包括信息请求训练样本、候选信息训练样本和相关性信息,所述信息请求训练样本与所述候选信息训练样本相关,所述相关性信息用于表征所述信息请求训练样本与所述候选信息训练样本的相关性;
将所述信息请求训练样本和所述候选信息训练样本输入至第一机器学习模型进行向量化处理,得到所述信息请求训练样本的多个第一词向量和所述候选信息训练样本的多个第二词向量;
将所述候选信息训练样本输入至第二机器学习模型进行特征提取处理得到特征词向量;
将所述特征词向量和多个所述第一词向量进行匹配处理得到匹配信息,其中,所述匹配信息用于表征所述特征词向量是否与多个所述第一词向量中的一个相匹配;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110613483.2/2.html,转载请声明来源钻瓜专利网。