[发明专利]语句释义方法、装置、计算机设备在审
申请号: | 201910084444.0 | 申请日: | 2019-01-29 |
公开(公告)号: | CN109885830A | 公开(公告)日: | 2019-06-14 |
发明(设计)人: | 宁义双;陈桓;闵刚;张良杰 | 申请(专利权)人: | 金蝶软件(中国)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 方高明 |
地址: | 518000 广东省深圳市南山区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 句子 释义 目标源 候选词 计算机设备 概率分布 目标词 语句 预处理 存储介质 获取目标 句子生成 模型训练 随机采样 序列输入 样本源 预设 样本 申请 | ||
1.一种语句释义方法,所述方法包括:
获取目标源句子,对所述目标源句子进行预处理得到目标源句子序列;
将所述目标源句子序列输入到预设的释义模型,得到与所述目标源句子对应的候选词的概率分布;所述释义模型是根据样本源句子和样本释义句进行模型训练得到的;
根据所述候选词的概率分布对所述候选词进行随机采样,得到目标词;
根据所述目标词生成与所述目标源句子对应的至少一个目标释义句子。
2.根据权利要求1所述的方法,其特征在于,所述释义模型的生成方式包括:
获取中文释义对,根据所述中文释义对构建中文语料库,其中,每个中文释义对包括一个样本源句子和至少一个样本释义句;
将所述中文释义对中的样本源句子和样本释义句进行数据预处理得到样本源句子序列和样本释义句序列;
根据所述样本源句子序列和样本释义句序列进行模型训练得到释义模型。
3.根据权利要求2所述的方法,其特征在于,所述获取中文释义对,根据所述中文释义对构建中文语料库,包括:
对包含英文源句子和英文释义句的英文释义对,进行翻译处理,得到包含中文源句子和中文释义句的中文释义对,统计所述中文源句子和所述中文释义句长度,选取所述中文源句子和所述中文释义句长度均不大于预设的长度阈值的中文释义对,得到第一语料库;
对预配置的特定场景的中文源句子进行同义词和句子结构变换处理,得到所述特定场景的中文释义句,根据所述特定场景的中文源句子和所述特定场景的中文释义句构成第二语料库;
根据所述第一语料库和所述第二语料库构建中文语料库。
4.根据权利要求2所述的方法,其特征在于,所述将所述中文释义对中的样本源句子和样本释义句进行数据预处理得到样本源句子序列和样本释义句序列,包括:
获取中文释义对中的样本源句子和样本释义句;
根据所述样本源句子和样本释义句进行分词处理得到各自对应的词语序列;
根据词语与索引值的对应关系将所述词语序列转换为对应的索引值序列;
将所述样本源句子对应的索引值序列的向量表示作为样本源句子序列,以及将所述样本释义句对应的索引值序列的向量表示作为样本释义句序列。
5.根据权利要求2所述的方法,其特征在于,所述根据所述样本源句子序列和样本释义句序列进行模型训练得到释义模型,包括:
获取所述释义模型的权值矩阵的初始值;
根据输入的所述样本源句子序列和所述样本释义句序列进行模型训练,根据所述释义模型的损失函数对所述权重矩阵的初始值进行更新,直到所述损失函数的值达到预设的范围或模型训练次数达到所述预设的训练次数,得到更新后的权值矩阵的目标值。
6.根据权利要求5所述的方法,其特征在于,所述根据输入的所述样本源句子序列和所述样本释义句序列进行模型训练,根据所述释义模型的损失函数对所述权重矩阵的初始值进行更新,直到所述损失函数的值达到预设的范围或模型训练次数达到所述预设的训练次数,得到更新后的权值矩阵的目标值,包括:
通过所述释义模型的输入层获取所述样本源句子序列和所述样本释义句序列,将所述样本源句子序列输入到编码模块中,得到样本源句子的隐含状态信息和样本源句子的高层特征信息;
将所述样本源句子的隐含状态信息和所述样本源句子的高层特征信息,以及所述样本释义句序列输入到解码模块,得到样本释义句隐含状态信息和样本释义句的高层特征信息;
根据所述样本源句子的隐含状态信息和所述样本释义句的隐含状态信息,计算得到样本释义句的注意力向量;
将所述注意力向量和所述样本释义句的高层特征信息输入到分类层,得到与所述样本源句子对应的候选词的概率分布;
根据所述候选词的概率分布计算得到模型的损失函数;
根据损失函数对所述权重矩阵进行更新,直到所述损失函数的值达到预设的范围或模型训练次数达到所述预设的训练次数,得到更新后的权值矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于金蝶软件(中国)有限公司,未经金蝶软件(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910084444.0/1.html,转载请声明来源钻瓜专利网。