[发明专利]中文带标记错误语料生成方法、计算装置和存储介质有效
申请号: | 202010299661.4 | 申请日: | 2020-04-16 |
公开(公告)号: | CN111488466B | 公开(公告)日: | 2023-06-06 |
发明(设计)人: | 史元春;喻纯;潘星宇;王运涛 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F40/289 |
代理公司: | 北京睿邦知识产权代理事务所(普通合伙) 11481 | 代理人: | 徐丁峰 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文 标记 错误 语料 生成 方法 计算 装置 存储 介质 | ||
1.一种计算机执行的针对中文语句的中文带标记错误语料生成方法,包括:
获得参考文本;
基于参考文本,针对如下错误分类分别生成错误样本,所生成的错误样本体现了该错误分类下的错误:
针对同音错误和谐音错误,生成第一类错误样本;
针对形近字、键盘误触错误,生成第二类错误样本;
针对句法错误,生成第三类错误样本,
获得包括参考文本、第一类错误样本、第二类错误样本、第三类错误样本的中文带标记语料,
所述针对谐音错误,生成第一类错误样本包括:
分词、选词、获取词拼音的过程;之后根据词拼音挑选可行的混淆规则,并生成新的词拼音;将拼音传给云输入法,获取候选词列表;之后按特定的概率选择列表中候选词替换原词,生成错误文本,
所述针对句法错误,生成第三类错误样本包括:
针对重复字词错误、遗漏字词错误、词序颠倒错误、字词插入错误四类句法错误,分别生成错误样本,其中针对词序颠倒错误生成错误样本包括:挑选句中待调整的词,然后前后随机选择一个相邻词,将这两词做位置上的调换;针对字词插入错误生成错误样本包括:挑选句中待调整的词,然后前后随机选择一个相邻词;将待调整词插入相邻词之中,若相邻词为单字则重新选择;
所述中文带标记错误语料生成方法还包括:
借助搜索引擎对错误句子进行初筛,包括:
将参考文本与生成文本分别放在搜索引擎上搜索;
结合搜索的条目数量、各网页匹配到的关键文本信息内容来判断参考文本与生成文本的正误性。
2.根据权利要求1的中文带标记错误语料生成方法,其中:
所述针对同音错误,生成第一类错误样本包括:
分别生成针对如下两种类型的同音错误样本:用户在录入完拼音准备选词时目标词并不在候选框的第一位的第一类型和用户在准备选词时误选择到了目标词周围的其他词而导致的第二类型;包括对参考文本进行分词,之后在上述两种类型中随机选择一种类型;之后,随机在句中挑出一词,随后针对所选择的类型模拟用户结合拼音输入法录入该词的过程进行错误生成。
3.根据权利要求2所述的中文带标记错误语料生成方法,其中所述模拟用户结合拼音输入法录入该词的过程包括:
将该词称为原词,首先获取原词的拼音,之后借助谷歌拼音云输入法,获取用户在录入该拼音后所看到的候选词列表;当选择第一类型时,如果原词在候选词列表的首位,则重新选词并重新进行上述获取词拼音的过程,之后借助谷歌拼音云输入法,获取用户在录入该拼音后所看到的候选词列表的操作,如果原词不在候选词列表的首位,则选择首位候选词替换原词;当选择第二类型时,随机选择原词左右两边相邻的词替换原词,替换后的文本即为所需的错误文本。
4.根据权利要求1所述的中文带标记错误语料生成方法,其中候选词选择概率的设定为:设选择首位候选词的概率为4a,则选择前二至五个候选的概率为2a,其余候选为a,所有候选词的挑选概率之和为1,其中a为0至0.25之间的实数。
5.根据权利要求1所述的中文带标记错误语料生成方法,所述针对形近字、键盘误触错误,生成第二类错误样本包括:
获得形近字表格;
从参考文本中随机选择待替换的字,结合形近字表随机选择相应的形近字代替原字,得到针对形近字错误的错误样本。
6.根据权利要求1所述的中文带标记错误语料生成方法,所述针对形近字、键盘误触错误,生成第二类错误样本包括如下针对键盘误触,生成错误样本:
建立各键位的临近键位表;
根据用户使用的输入法种类优化误触规则;
在获得参考文本后,依次经过分词、选择待替换词语的流程,之后随机在拼音误触型与五笔误触型之间选择误触错误类型;
对于拼音误触型,接下来获取词拼音,随机选择其中单字拼音,并结合拼音的误触规则构建合理的混淆拼音;
对于五笔误触型,获取词的五笔编码,结合误触规则构建混淆五笔编码,之后通过云输入法获取候选词列表,按照特定概率选择候选词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010299661.4/1.html,转载请声明来源钻瓜专利网。