[发明专利]一种同义词的确定方法、装置、服务器及可读存储介质有效
申请号: | 201910699704.5 | 申请日: | 2019-07-29 |
公开(公告)号: | CN110413737B | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 康战辉 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/247 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 同义词 确定 方法 装置 服务器 可读 存储 介质 | ||
本发明实施例公开了一种同义词的确定方法、装置、服务器及可读存储介质,其中该方法可应用于人工智能领域的机器学习技术,该方法包括:获取包括多个共点击搜索文本序列的共点击搜索文本序列集合,每个共点击搜索文本序列中的各搜索文本序列存在关联的搜索结果;基于注意力模型确定各搜索文本序列中各字段的注意力分配概率;根据各字段的注意力分配概率对同义词判别模型进行训练,得到引入注意力机制的同义词判别模型;将待判别的共点击搜索文本序列输入引入注意力机制的同义词判别模型,确定出待判别的共点击搜索文本序列中的同义词对。通过这种实施方式,提高了确定同义词对的准确性,扩大了同义词对的语义范围。
技术领域
本申请涉及计算机技术领域,尤其涉及一种同义词的确定方法、装置、服务器及可读存储介质。
背景技术
目前,经典的同义词词典构建技术至少包括两种,一种是语言学家通过现代汉语词典释义来人工整理,另一种可以借助现代搜索引擎,通过共点击搜索文本序列集合做计算机自动对齐技术,进而得到潜在候选的同义词对,最后再借助各种统计语言特征人工删选形成较为海量的同义词词典。
然而,这种方式只能实现共点击搜索文本序列中切词后的字段顺序完全对齐时,确定出共点击搜索文本序列中的同义词对,导致确定同义词对的准确率角度,以及确定出的同义词对语义范围不够广的缺点。
因此,如何提高确定同义词对的准确率,扩大同义词对的语义范围,成为一个亟待解决的问题。
发明内容
本发明实施例提供了一种同义词的确定方法、装置、服务器及可读存储介质,基于引入注意力机制的同义词判别模型确定共点击搜索文本序列中的同义词对,可以确定出不同字段顺序的文本序列对应的同义词对,提高了确定同义词对的准确性,扩大了同义词对的语义范围。
第一方面,本发明实施例提供了一种同义词的确定方法,包括:
获取共点击搜索文本序列集合,所述共点击搜索文本序列集合中包括多个共点击搜索文本序列,每个共点击搜索文本序列中的各搜索文本序列对应存在关联的搜索结果;
基于注意力模型确定所述各搜索文本序列中包含的各字段的注意力分配概率;
根据所述各搜索文本序列中包含的各字段的注意力分配概率对同义词判别模型进行训练,得到引入注意力机制的同义词判别模型;
将待判别的共点击搜索文本序列输入所述引入注意力机制的同义词判别模型,以确定出所述待判别的共点击搜索文本序列中的同义词对。
第二方面,本发明实施例提供了一种同义词的确定装置,包括:
获取模块,用于获取共点击搜索文本序列集合,所述共点击搜索文本序列集合中包括多个共点击搜索文本序列,每个共点击搜索文本序列中的各搜索文本序列对应存在关联的搜索结果;
分配模块,用于基于注意力模型确定所述各搜索文本序列中包含的各字段的注意力分配概率;
训练模块,用于根据所述各搜索文本序列中包含的各字段的注意力分配概率对同义词判别模型进行训练,得到引入注意力机制的同义词判别模型;
确定模块,用于将待判别的共点击搜索文本序列输入所述引入注意力机制的同义词判别模型,以确定出所述待判别的共点击搜索文本序列中的同义词对。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910699704.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:跨语言文本表示方法和装置
- 下一篇:一种信息处理方法、装置、服务器及存储介质