[发明专利]语句通顺度及句法评分模型的训练方法及装置有效
申请号: | 201910436445.7 | 申请日: | 2019-05-23 |
公开(公告)号: | CN110188351B | 公开(公告)日: | 2023-08-25 |
发明(设计)人: | 李健铨;张乐乐 | 申请(专利权)人: | 鼎富智能科技有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06F16/33;G06F16/35 |
代理公司: | 北京弘权知识产权代理有限公司 11363 | 代理人: | 逯长明;许伟群 |
地址: | 230000 安徽省合肥市*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语句 通顺 句法 评分 模型 训练 方法 装置 | ||
1.一种语句通顺度及句法评分模型的训练方法,其特征在于,所述方法包括:
获取语料集中每条语料对应的原始词序列;
采用符合预设替换规则的替换词对所述原始词序列中的目标词进行替换,得到输入词序列;
根据所述输入词序列的长度和所替换的目标词数量,确定所述输入词序列对应的标准分值;
使用所述输入词序列及对应的标准分值训练所述语句通顺度及句法评分模型,所述语句通顺度及句法评分模型包括第一特征提取模块、第二特征提取模块、合并模块、全连接模块和输出模块,所述第一特征提取模块包括内注意力层、Bi-LSTM层和第一池化层,所述第二特征提取模块包括卷积层和第二池化层。
2.根据权利要求1所述的方法,其特征在于,按照下述步骤,判断所述替换词是否符合所述预设替换规则:
在预设词表的总词频区间内随机获取第一随机值,所述总词频区间包括预设词表中每一词汇对应的词频区间;
根据所述第一随机值所属的词频区间确定替换词,并为所述替换词随机分配第二随机值,所述第二随机值属于第一预设范围或第二预设范围;
如果所述第二随机值属于第一预设范围,则判断所述替换词与所述目标词的词性是否相同;
如果所述第二随机值属于第二预设范围,或者,如果所述替换词与所述目标词的词性不相同,则计算所述替换词与所述目标词的第一相似度;
如果所述第一相似度小于第一阈值,则采用所述替换词替换所述目标词。
3.根据权利要求1所述的方法,其特征在于,按照下述步骤,判断所述替换词是否符合所述预设替换规则:
在预设词表的总词频区间内随机获取第一随机值,所述总词频区间包括预设词表中每一词汇对应的词频区间;
根据所述第一随机值所属的词频区间确定替换词,并为所述替换词随机分配第二随机值,所述第二随机值属于第一预设范围或第二预设范围;
如果所述第二随机值属于第一预设范围,则判断所述替换词与所述目标词的词性是否相同;
如果所述第二随机值属于第二预设范围,或者,如果所述替换词与所述目标词的词性不相同,则分别计算所述替换词与所述目标词的第一相似度、所述替换词与所述目标词的上文词的第二相似度、所述替换词与所述目标词的下文词的第三相似度;
如果所述第一相似度、第二相似度和第三相似度分别小于第一阈值、第二阈值以及第三阈值,则采用所述替换词替换所述目标词。
4.根据权利要求1所述的方法,其特征在于,所述使用所述输入词序列及对应的标准分值训练所述语句通顺度及句法评分模型,包括:
根据所述输入词序列分别获取第一输入矩阵和第二输入矩阵,所述第一输入矩阵包含所述输入词序列对应的词矩阵和词性矩阵,所述第二输入矩阵为所述输入词序列对应的字矩阵;
将所述第一输入矩阵和第二输入矩阵分别输入至第一特征提取模块和第二特征提取模块中,输出模块输出预测分值;
根据所述预测分值和标准分值计算如下损失函数的损失值;
根据所述损失值对所述语句通顺度及句法评分模型的参数进行优化,直到所述语句通顺度及句法评分模型满足预设条件;
其中,MSE表示损失值;表示第j个输入词序列的预测分值;Yj表示第j个输入词序列对应的标准分值;z表示在每一轮训练过程所使用的输入词序列的数量,所述输入词序列包括至少一个输入词。
5.根据权利要求1所述的方法,其特征在于,所述获取语料集中每条语料对应的原始词序列之后,所述方法还包括:
根据预设的替换比,确定每一原始词序列中的目标词数量;
以及,所述方法根据不同的替换比对同一原始词序列进行词替换,以获得分别对应于不同标准分值的多个输入词序列。
6.根据权利要求1所述的方法,其特征在于,所述根据所述输入词序列的长度和所替换的目标词数量,确定所述输入词序列对应的标准分值,包括:
根据所替换的目标词数量和所述输入词序列的长度,计算实际替换比;
根据所述实际替换比与所述原始词序列预设的原始分值,计算所述输入词序列对应的标准分值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鼎富智能科技有限公司,未经鼎富智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910436445.7/1.html,转载请声明来源钻瓜专利网。