[发明专利]语料生成方法、装置及计算机设备在审
申请号: | 201910765700.2 | 申请日: | 2019-08-19 |
公开(公告)号: | CN112417848A | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 刘恒友;李辰;包祖贻;黄睿;徐光伟;李林琳 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/30;G06F16/33 |
代理公司: | 北京太合九思知识产权代理有限公司 11610 | 代理人: | 曹威 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语料 生成 方法 装置 计算机 设备 | ||
1.一种语料生成方法,其特征在于,包括:
获取目标领域中的正样本;
确定与所述正样本中的至少一个正确词对应的替换词;
利用对应的替换词替换所述至少一个正确词,获得与所述正样本对应的负样本;
至少基于所述正样本及所述负样本,生成所述目标领域的第一纠错平行语料。
2.根据权利要求1所述的方法,其特征在于,所述至少基于所述正样本及所述负样本,生成所述目标领域的第一纠错平行语料包括:
至少基于所述正样本及所述负样本,训练所述目标领域的预测模型;
利用所述预测模型预测获得所述目标领域的待预测正文本对应的至少一个负文本;
基于所述待预测正文本及其对应的所述至少一个负文本生成所述目标领域的第一纠错平行语料。
3.根据权利要求1所述的方法,其特征在于,所述获取目标领域中的正样本包括:
获取所述目标领域中搜索频次满足搜索阈值的搜索文本;
将所述搜索文本作为所述正样本。
4.根据权利要求1所述的方法,其特征在于,所述确定与所述正样本中的至少一个正确词对应的替换词包括:
按照预设替换规则,选取所述正样本中待替换的至少一个正确词;
确定与所述至少一个正确词对应的替换词。
5.根据权利要求4所述的方法,其特征在于,所述按照预设替换规则,选取所述正样本中待替换的至少一个正确词包括:
随机选取所述正样本中的第一预设值个待替换的正确词。
6.根据权利要求4所述的方法,其特征在于,所述确定与所述至少一个正确词对应的替换词包括:
获取词对齐数据集;其中,所述词对齐数据集中建立了从多领域获取的正确词与替换词集合的对应关系;其中,所述替换词集合中包含至少一个替换词;
基于所述词对齐数据集,确定与所述至少一个正确词对应的替换词。
7.根据权利要求6所述的方法,其特征在于,所述获取词对齐数据集包括:
获取所述多领域中包含替换词与正确词的词对齐语料;其中,所述词对齐语料至少包括多领域中的第二纠错平行语料数据集;
对所述词对齐语料进行词对齐处理获得纠错词数据集;
至少基于所述纠错词数据集、形近字数据集及常见错误词数据集获得建立正确词与替换词集合对齐关系的词对齐数据集。
8.根据权利要求6所述的方法,其特征在于,所述基于所述词对齐数据集,确定与所述至少一个正确词对应的替换词包括:
确定所述词对齐数据集中与所述至少一个正确词对应的替换词集合;
从所述替换词集合中确定与所述至少一个正确词对应的替换词。
9.根据权利要求8所述的方法,其特征在于,所述从所述替换词集合中确定与所述至少一个正确词对应的替换词包括:
计算所述替换词集合中的替换词对应的替换概率;
基于所述替换概率,从所述替换词集合中确定与所述至少一个正确词对应的替换词。
10.根据权利要求9所述的方法,其特征在于,所述计算所述替换词集合中的替换词对应的替换概率包括:
统计所述替换词集合中的替换词被纠错为对应的正确词的概率分布;
基于所述概率分布确定所述替换词集合中的替换词对应的替换概率。
11.根据权利要求9所述的方法,其特征在于,所述基于所述替换概率,从所述替换词集合中确定与所述至少一个正确词对应的替换词包括:
将所述替换概率作为对应的所述替换词集合中的替换词的替换权重;
基于所述替换权重,通过加权随机采样选取所述替换词集合中与所述至少一个正确词对应的替换词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910765700.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种起尘装置
- 下一篇:可穿戴设备、信号处理方法和计算可读存储介质