[发明专利]一种同义词的确定方法、装置、服务器及可读存储介质有效
申请号: | 201910699704.5 | 申请日: | 2019-07-29 |
公开(公告)号: | CN110413737B | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 康战辉 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/247 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 同义词 确定 方法 装置 服务器 可读 存储 介质 | ||
1.一种同义词的确定方法,其特征在于,包括:
获取共点击搜索文本序列集合,所述共点击搜索文本序列集合中包括多个共点击搜索文本序列,每个共点击搜索文本序列中的各搜索文本序列对应存在关联的搜索结果;
基于注意力模型确定所述各搜索文本序列中包含的各字段的注意力分配概率;
根据所述各搜索文本序列中包含的各字段的注意力分配概率对同义词判别模型进行训练,得到引入注意力机制的同义词判别模型;
将待判别的共点击搜索文本序列输入所述引入注意力机制的同义词判别模型,以确定出所述待判别的共点击搜索文本序列中的同义词对。
2.根据权利要求1所述的方法,其特征在于,所述获取共点击搜索文本序列集合,包括:
确定不同的搜索文本序列对应存在关联的搜索结果的次数;
根据所述不同的搜索文本序列对应存在关联的搜索结果的次数,确定所述共点击搜索文本序列集合。
3.根据权利要求2所述的方法,其特征在于,所述不同的搜索文本序列包括第一搜索文本序列和第二搜索文本序列;所述根据所述不同的搜索文本序列对应存在关联的搜索结果的次数,确定所述共点击搜索文本序列集合,包括:
获取所述第一搜索文本序列的搜索结果;
获取所述第二搜索文本序列的搜索结果;
确定所述第一搜索文本序列的搜索结果与所述第二搜索文本序列的搜索结果中存在关联的搜索结果的次数;
如果所述关联的搜索结果的次数大于预设次数阈值,则确定所述第一搜索文本序列和第二搜索文本序列为所述共点击搜索文本序列集合。
4.根据权利要求1所述的方法,其特征在于,所述基于注意力模型确定所述各搜索文本序列中包含的各字段的注意力分配概率,包括:
对所述各搜索文本序列进行拆分处理,得到所述各搜索文本序列对应的至少一个字段;
确定所述至少一个字段中各字段的初始注意力分配概率;
根据所述各字段在所述各搜索文本序列中出现的次数对所述初始注意力分配概率进行更新处理,以确定所述各字段的注意力分配概率。
5.根据权利要求4所述的方法,其特征在于,所述确定所述至少一个字段中各字段的初始注意力分配概率,包括:
确定所述至少一个字段中各字段的词性;
根据预设的词性与注意力分配概率的对应关系,确定与所述各字段的词性对应的初始注意力分配概率。
6.根据权利要求4所述的方法,其特征在于,所述确定所述至少一个字段中各字段的初始注意力分配概率,包括:
确定所述各搜索文本序列中字段的数量;
根据所述各搜索文本序列中字段的数量,为各字段设置相等的初始注意力分配概率,其中,所述各字段的初始注意力分配概率之和为1。
7.根据权利要求1所述的方法,其特征在于,所述将待判别的共点击搜索文本序列输入所述引入注意力机制的同义词判别模型,以确定出所述待判别的共点击搜索文本序列中的同义词对,包括:
将所述待判别的共点击搜索文本序列输入所述引入注意力机制的同义词判别模型,得到所述待判别的共点击搜索文本序列中各字段对应的注意力分配概率;
确定所述各字段对应的注意力分配概率大于预设概率阈值的字段为同义词对。
8.一种同义词的确定装置,其特征在于,所述装置包括:
获取模块,用于获取共点击搜索文本序列集合,所述共点击搜索文本序列集合中包括多个共点击搜索文本序列,每个共点击搜索文本序列中的各搜索文本序列对应存在关联的搜索结果;
分配模块,用于基于注意力模型确定所述各搜索文本序列中包含的各字段的注意力分配概率;
训练模块,用于根据所述各搜索文本序列中包含的各字段的注意力分配概率对同义词判别模型进行训练,得到引入注意力机制的同义词判别模型;
确定模块,用于将待判别的共点击搜索文本序列输入所述引入注意力机制的同义词判别模型,以确定出所述待判别的共点击搜索文本序列中的同义词对。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910699704.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:跨语言文本表示方法和装置
- 下一篇:一种信息处理方法、装置、服务器及存储介质