[发明专利]中文带标记错误语料生成方法、计算装置和存储介质有效
申请号: | 202010299661.4 | 申请日: | 2020-04-16 |
公开(公告)号: | CN111488466B | 公开(公告)日: | 2023-06-06 |
发明(设计)人: | 史元春;喻纯;潘星宇;王运涛 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F40/289 |
代理公司: | 北京睿邦知识产权代理事务所(普通合伙) 11481 | 代理人: | 徐丁峰 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文 标记 错误 语料 生成 方法 计算 装置 存储 介质 | ||
提供计算机执行的中文带标记错误语料生成方法,包括:获得参考文本;基于参考文本,针对如下错误分类分别生成错误样本,所生成的错误样本体现了该错误分类下的错误:针对同音错误和谐音错误,生成第一类错误样本;针对形近字、键盘误触错误,生成第二类错误样本;针对句法错误,生成第三类错误样本,获得包括参考文本、第一类错误样本、第二类错误样本、第三类错误样本的中文带标记语料。利用本发明的技术,能够利用自然文本生成大量准确的标注语料,支持查错模型的训练检验。
技术领域
本发明计算机涉及人工智能技术,更具体地涉及中文带标记错误语料生成方法、计算装置和存储介质。
背景技术
中文文本错误现如今广泛出现于社会的各行各业之中,其看似无足轻重但所产生的负面影响不容小觑。诸如法律、学术论文、政府公文、媒体的各行各业也都设立了严格的差错率标准。从上世纪九十年代起,学术界和工业界就在致力于研究中文查错的可行的算法技术。而直至今日都未有行之有效的研究、产品推出。其确有诸多研究难点,其中最关键的难点仍是在于真实、全面的带标记语料的缺失。
如今人工智能流行于各行各业,而其中任何成熟的算法模型都无法缺少大量带标记数据的支持。诸如计算机视觉诸多算法、谷歌翻译算法等都是依赖于带标记数据的长期积累。而对于中文查错而言,难以收集自然全面的标记数据是制约其发展的最重要的因素。
带标记数据通常可用于模型算法的训练和验证两个环节,任一环节都是至关重要的。现如今中文查错最权威的公开标记语料是由SIGHAN收集整理发布。学术界绝大多数研究正是依赖相关语料进行训练评测。而这些语料规模很小,准确性不到80%,且全面性也有待提高。难以用于训练模型或是验证模型的标准。
发明内容
鉴于现有技术的上述情况,提出了本发明。
根据本发明的一个方面,提供了一种计算机执行的中文带标记错误语料生成方法,包括:获得参考文本;基于参考文本,针对如下错误分类分别生成错误样本,所生成的错误样本体现了该错误分类下的错误:针对同音错误和谐音错误,生成第一类错误样本;针对形近字、键盘误触错误,生成第二类错误样本;针对句法错误,生成第三类错误样本,获得包括参考文本、第一类错误样本、第二类错误样本、第三类错误样本的中文带标记语料。
可选地,其中所述针对同音错误,生成第一类错误样本包括:分别生成针对如下两种类型的同音错误样本:用户在录入完拼音准备选词时目标词并不在候选框的第一位的第一类型和用户在准备选词时误选择到了目标词周围的其他词而导致的第二类型;包括对参考文本进行分词,之后在上述两种类型中随机选择一种类型;之后,随机在句中挑出一词,随后针对所选择的类型模拟用户结合拼音输入法录入该词的过程进行错误生成。
可选地,所述模拟用户结合拼音输入法录入该词的过程包括:将该词称为原词,首先获取原词的拼音,之后借助谷歌拼音云输入法,获取用户在录入该拼音后所看到的候选词列表;当选择第一类型时,如果原词在候选词列表的首位,则重新选词并重新进行上述获取词拼音的过程,之后借助谷歌拼音云输入法,获取用户在录入该拼音后所看到的候选词列表的操作,如果原词不在候选词列表的首位,则选择首位候选词替换原词;当选择第二类型时,随机选择原词左右两边相邻的词替换原词,替换后的文本即为所需的错误文本。
可选地,所述针对谐音错误,生成第一类错误样本包括:分词、选词、获取词拼音的过程;之后根据词拼音挑选可行的混淆规则,并生成新的词拼音;将拼音传给云输入法,获取候选词列表;之后按特定的概率选择列表中候选词替换原词,生成错误文本。
可选地,候选词选择概率的设定为:设选择首位候选词的概率为4a,则选择前二至五个候选的概率为2a,其余候选为a,所有候选词的挑选概率之和为1,其中a为0至0.25之间的实数。
可选地,所述针对形近字、键盘误触错误,生成第二类错误样本包括:获得形近字表格;从参考文本中随机选择待替换的字,结合形近字表随机选择相应的形近字代替原字,得到针对形近字错误的错误样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010299661.4/2.html,转载请声明来源钻瓜专利网。