[发明专利]中文带标记错误语料生成方法、计算装置和存储介质有效
申请号: | 202010299661.4 | 申请日: | 2020-04-16 |
公开(公告)号: | CN111488466B | 公开(公告)日: | 2023-06-06 |
发明(设计)人: | 史元春;喻纯;潘星宇;王运涛 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F40/289 |
代理公司: | 北京睿邦知识产权代理事务所(普通合伙) 11481 | 代理人: | 徐丁峰 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 提供计算机执行的中文带标记错误语料生成方法,包括:获得参考文本;基于参考文本,针对如下错误分类分别生成错误样本,所生成的错误样本体现了该错误分类下的错误:针对同音错误和谐音错误,生成第一类错误样本;针对形近字、键盘误触错误,生成第二类错误样本;针对句法错误,生成第三类错误样本,获得包括参考文本、第一类错误样本、第二类错误样本、第三类错误样本的中文带标记语料。利用本发明的技术,能够利用自然文本生成大量准确的标注语料,支持查错模型的训练检验。 | ||
搜索关键词: | 中文 标记 错误 语料 生成 方法 计算 装置 存储 介质 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202010299661.4/,转载请声明来源钻瓜专利网。