[发明专利]同义句的获取方法及装置、设备及存储介质在审
申请号: | 201910122455.3 | 申请日: | 2019-02-19 |
公开(公告)号: | CN111597800A | 公开(公告)日: | 2020-08-28 |
发明(设计)人: | 刘剑;甘露;卜建辉;吴伟佳 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F40/247 | 分类号: | G06F40/247;G06F16/33;G06F16/36 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 同义 获取 方法 装置 设备 存储 介质 | ||
1.一种同义句的获取方法,其特征在于,包括:
获取待处理语句;
将所述待处理语句输入翻译模型,得到所述待处理语句的同义句,其中,所述翻译模型由用户输入的搜索内容以及所述用户选取的搜索结果的标题所组成的训练样本对训练而获得。
2.根据权利要求1所述的方法,其特征在于,所述翻译模型的训练过程包括:
获取所述训练样本对;
将所述训练样本对中的所述搜索内容作为输入,所述标题作为输出,对所述翻译模型进行训练,或
将所述训练样本对中的所述标题作为输入,所述搜索内容作为输出,对所述翻译模型进行训练。
3.根据权利要求2所述的方法,其特征在于,获取所述训练样本对,包括:
获取用户输入的搜索内容,以及所述用户选取的各搜索结果的标题;
从所述用户选取的各搜索结果的标题中,选取与所述搜索内容相匹配的标题,作为相似标题;
将所述搜索内容以及所述一个相似标题作为一个训练样本对。
4.根据权利要求3所述的方法,其特征在于,从所述用户选取的各搜索结果的标题中,选取与所述搜索内容相匹配的标题,作为相似标题,具体包括:
从所述用户选取的各搜索结果的标题中,选取与所述搜索内容的匹配字符数量大于设定数量阈值,和/或语义相似度大于设定相似度阈值的标题,作为相似标题。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述翻译模型的训练过程包括:
由所述训练样本对对原翻译模型进行训练后,再将训练得到的翻译模型中的词语翻译结果确定方式,修改为按照词语关联概率的分布,从大到小选取设定数量的关联词语作为词语翻译结果,而获得所述翻译模型。
6.根据权利要求5所述的方法,其特征在于,将训练得到的翻译模型中的词语翻译结果确定方式,修改为按照词语关联概率的分布,从大到小选取设定数量的关联词语作为词语翻译结果,具体包括:
将集束搜索算法嵌入训练得到的翻译模型的解码过程。
7.根据权利要求6所述的方法,其特征在于,所述翻译模型为Pointer Networks网络。
8.一种同义句的获取装置,其特征在于,包括:
语句获取模块,用于获取待处理语句;
同义句获取模块,用于将所述待处理语句输入翻译模型,得到所述待处理语句的同义句,其中,所述翻译模型由用户输入的搜索内容以及所述用户选取的搜索结果的标题所组成的训练样本对训练而获得。
9.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的同义句的获取方法。
10.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的同义句的获取方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910122455.3/1.html,转载请声明来源钻瓜专利网。