[发明专利]针对多语种的语句困惑度获取方法、系统及相关设备有效
申请号: | 202211131283.4 | 申请日: | 2022-09-16 |
公开(公告)号: | CN115587589B | 公开(公告)日: | 2023-07-18 |
发明(设计)人: | 黄嘉鑫;谢育涛;尹曦;谢凯 | 申请(专利权)人: | 粤港澳大湾区数字经济研究院(福田) |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/242;G06F16/31;G06N3/048;G06N3/0455;G06N3/08 |
代理公司: | 深圳市君胜知识产权代理事务所(普通合伙) 44268 | 代理人: | 温宏梅 |
地址: | 518045 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 针对 语种 语句 困惑 获取 方法 系统 相关 设备 | ||
1.一种针对多语种的语句困惑度获取方法,其特征在于,所述针对多语种的语句困惑度获取方法包括:
获取待计算语句,其中,所述待计算语句所对应的语种是预设的多种语种中的至少一种;
根据已训练的分词模型和多语种词典获取所述待计算语句对应的基元序列,其中,所述基元序列中的各个元素分别与所述多语种词典中一个位置索引所指示的值相同;
在所述基元序列的首位添加目标语种令牌以获得目标序列,其中,所述目标语种令牌是所述多语种词典中与所述待计算语句的语种所对应的语种标识的位置索引;
根据所述目标序列,通过已训练的多语种困惑度计算模型获取所述待计算语句对应的语句困惑度,其中,所述已训练的多语种困惑度计算模型根据所述预设的多种语种对应的多语种语料集训练获得。
2.根据权利要求1所述的针对多语种的语句困惑度获取方法,其特征在于,所述获取待计算语句,包括:
获取待处理文本,根据预先设置的预处理操作对所述待处理文本进行预处理以获得预处理文本,其中,所述预处理操作包括全半角转换、大小写统一和多空白字符合并,所述待处理文本由所述预设的多种语种中的任意一种语种所对应的语句构成;
根据所述预处理文本中的句子分割符对所述预处理文本进行单句切分,并将单句切分后获得的各个语句依次作为所述待计算语句。
3.根据权利要求2所述的针对多语种的语句困惑度获取方法,其特征在于,所述已训练的分词模型和所述多语种词典根据如下步骤预先训练获得:
获取所述多语种语料集,其中,所述多语种语料集中包括所述预设的多种语种中各个语种对应的正常语义数据集;
根据所述预处理操作对各所述正常语义数据集进行预处理以获得各所述正常语义数据集对应的预处理训练文本;
通过预设的SentencePiece工具针对所述预处理训练文本训练获得所述已训练的分词模型和待处理词典;
在所述待处理词典的尾部增加所述预设的多种语种中各语种对应的语种标识以获得所述多语种词典,其中,所述多语种词典中包括多个词缀和多个所述语种标识,各所述词缀和各所述语种标识的位置分别由对应的位置索引指示。
4.根据权利要求3所述的针对多语种的语句困惑度获取方法,其特征在于,所述位置索引是用于表示位置的下标值。
5.根据权利要求3所述的针对多语种的语句困惑度获取方法,其特征在于,所述根据所述目标序列,通过已训练的多语种困惑度计算模型获取所述待计算语句对应的语句困惑度,包括:
将所述目标序列输入所述已训练的多语种困惑度计算模型,获取所述已训练的多语种困惑度计算模型输出的目标标量值;
将1减去所述目标标量值之后获得的数值作为所述待计算语句对应的语句困惑度。
6.根据权利要求5所述的针对多语种的语句困惑度获取方法,其特征在于,所述已训练的多语种困惑度计算模型包括多层堆叠的编码器,一个全连接层以及一个sigmoid函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于粤港澳大湾区数字经济研究院(福田),未经粤港澳大湾区数字经济研究院(福田)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211131283.4/1.html,转载请声明来源钻瓜专利网。