[发明专利]文本匹配方法、装置、设备及计算机可读存储介质在审
申请号: | 202110163956.3 | 申请日: | 2021-02-05 |
公开(公告)号: | CN113407704A | 公开(公告)日: | 2021-09-17 |
发明(设计)人: | 叶澄灿 | 申请(专利权)人: | 腾讯科技(北京)有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/35;G06F40/205;G06F40/284;G06F40/289 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 刘晖铭;张颖玲 |
地址: | 100080 北京市海淀区海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 匹配 方法 装置 设备 计算机 可读 存储 介质 | ||
1.一种文本匹配方法,其特征在于,包括:
接收每个客户端提交的搜索词;
根据所述搜索词,使用文本匹配模型从预设文档资源库中匹配出至少一个匹配文档;所述文本匹配模型所使用的训练样本集中的训练样本为历史搜索会话信息中的历史搜索词与历史匹配文档组合得到的组合数据;所述训练样本的标注信息是通过图模型,计算出所述历史搜索词与所述历史匹配文档的向量表示,并基于所述向量表示对所述组合数据进行相关性的分类标注得到的;其中,所述图模型由多个历史搜索会话信息构建得到,所述图模型表征历史搜索词与历史匹配文档的点击关系;
根据所述至少一个匹配文档生成搜索结果页面,将所述搜索结果页面对应推送到所述每个客户端进行显示。
2.根据权利要求1所述的方法,其特征在于,所述根据所述搜索词,使用文本匹配模型从预设文档资源库中匹配出至少一个目标文档之前,所述方法还包括:
从预设历史搜索记录库中,提取出包含点击事件的多个历史搜索会话信息;所述多个历史搜索会话信息中的每个历史搜索会话信息包含历史搜索词以及与所述历史搜索词对应的至少一个历史匹配文档;
将所述每个历史搜索词和每个历史匹配文档作为点元素,根据所述每个历史搜索会话信息中历史搜索词与至少一个历史匹配文档的点击关系得到所述点元素之间的连接关系,从而构建得到所述图模型;
基于所述图模型计算出所述每个历史搜索词的搜索词向量表示,以及所述每个历史匹配文档的文档向量表示;
将所述每个历史搜索词与所述每个历史匹配文档进行组合,得到组合数据集合;
基于所述搜索词向量表示与所述文档向量表示,得到所述组合数据中每个组合数据的相似度,基于所述相似度对所述每个组合数据进行分类标注,得到训练样本集;
使用所述训练样本集对初始文本匹配模型进行训练,得到所述文本匹配模型。
3.根据权利要求2所述的方法,其特征在于,所述基于所述搜索词向量表示与所述文档向量表示,对所述组合数据中每个组合数据的相关性进行分类标注,得到训练样本集,包括:
对于所述每个组合数据,根据该组合数据中历史搜索词的搜索词向量表示与历史匹配文档的文档向量表示,计算所述每个组合数据对应的余弦距离;
当所述余弦距离大于第一预设距离阈值时,将所述每个组合数据标注为相关样本;或者,当所述余弦距离小于第二预设距离阈值时,将所述每个组合数据标注为不相关样本;其中,所述第一预设距离阈值大于所述第二预设距离阈值;
将每个标注后的组合数据作为一个训练样本,进而得到所述训练样本集。
4.根据权利要求2或3所述的方法,其特征在于,所述每个历史搜索会话信息包含所述历史搜索词与所述至少一个历史匹配文档的行为序列信息,所述行为序列信息表征所述历史搜索词与所述至少一个历史匹配文档对应的出现顺序;所述将所述多个历史搜索会话信息中每个历史搜索词和每个历史匹配文档作为点元素,根据所述每个历史搜索会话信息中历史搜索词与至少一个历史匹配文档的点击关系得到所述点元素之间的连接关系,从而构建得到所述图模型,包括:
将所述每个历史搜索词与所述每个历史匹配文档作为点元素,在所述每个历史搜索会话信息中,根据该历史搜索会话信息包含的行为序列信息,得到该历史搜索会话信息对应的点元素之间的相邻次序关系;
根据所述相邻次序关系,得到该历史搜索会话信息对应的点元素之间的有向连接路径,进而根据所述每个历史搜索会话信息构建出有向图模型作为所述图模型。
5.根据权利要求4所述的方法,其特征在于,所述基于所述图模型计算出所述每个历史搜索词的搜索词向量表示,以及所述每个历史匹配文档的文档向量表示,包括:
以所述点元素集合中的每个点元素为起点,根据所述连接路径在所述有向图模型中进行随机寻路并记录为当前寻路路径,当寻路至无其他连接路径的点元素,或所述当前寻路路径的长度达到预设长度阈值时,根据所述当前寻路路径生成所述每个点元素对应的寻路序列,进而得到寻路序列集合;
使用序列向量转换算法,在所述寻路序列集合中,计算得到每个寻路序列中每个点元素的向量表示,进而得到所述每个历史搜索词的搜索词向量表示,以及所述每个历史匹配文档的文档向量表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(北京)有限公司,未经腾讯科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110163956.3/1.html,转载请声明来源钻瓜专利网。