[发明专利]一种用于训练英语语法改错模型的文本数据生成方法在审
申请号: | 201910719334.7 | 申请日: | 2019-08-06 |
公开(公告)号: | CN110399936A | 公开(公告)日: | 2019-11-01 |
发明(设计)人: | 徐书尧;秦龙;陈进 | 申请(专利权)人: | 北京先声智能科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F17/27;G06F17/28 |
代理公司: | 北京中企讯知识产权代理有限公司 11677 | 代理人: | 熊亮 |
地址: | 100000 北京市海淀区上庄*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 改错 错误类型 文本数据 英语语法 语言数据 语法 数据生成 训练数据 句子 替换 引入 | ||
本发明涉及数据生成技术领域,尤其是一种用于训练英语语法改错模型的文本数据生成方法,其步骤为:(1)句子错误数量的引入;(2)确定错误类型;(3)根据错误类型进行相应的Word Tree替换;(4)利用WMT11单语言数据与One‑Billion‑Word单语言数据生成作为语法改错模型预训练数据,本发明有效提高语法改错模型的效果。
技术领域
本发明涉及数据生成技术领域,具体领域为一种用于训练英语语法改错模型的文本数据生成方法。
背景技术
自动语法改错(Grammatical Error Correction)可以看成一个翻译问题:把需要进行纠正的语言作为源语言,把改错后的语言作为目标语言的翻译过程。经典的统计翻译模型与神经翻译模型均在这个问题里都体现出了巨大的潜力。尤其随着近年来神经翻译的技术的发展,新模型、新算法的不断提出,基于神经翻译模型的自动语法改错模型性能得到了很大的提高。
然而与翻译问题相比,自动语法改错的标注数据远远少于翻译的数据。而训练神经翻译模型,尤其是如Transformer需要较大的数据量才能充分发挥模型的表达能力。利用单语言数据被证明是个能够提高语法改错模型性能的有效方法。对于单语言数据的利用主要有几种策略:a.利用单语言数据预训练语法该错模型中的解码器;b.利用单语言数据人工构造错误数据。Junczys-Dowmunt等提出了利用大量单语言数据预训练改错模型的解码器的方法,该方法被证明可以有效提高语法改错模型的效果[1]。Lichtarge等提出利用Wikipedia Revisions数据,人工构造错误数据,可以取得更好的效果,利用该方法构建的模型是CoNLL2014与JFLEG两个标准测试集上效果最好的。
发明内容
本发明的目的在于提供一种用于训练英语语法改错模型的文本数据生成方法,以解决现有技术中自动语法改错的标注数据远远少于翻译的数据的问题。
为实现上述目的,本发明提供如下技术方案:一种用于训练英语语法改错模型的文本数据生成方法,其步骤为:
(1)句子错误数量的引入;
(2)确定错误类型;
(3)根据错误类型进行相应的Word Tree替换;
(4)利用WMT11单语言数据与One-Billion-Word单语言数据生成作为语法改错模型预训练数据。
优选的,根据步骤(1),以句子为单位引入错误,对每一句句子,根据一个与长度相关的随机变量决定该句引入多少个错误;当某一句子需要引入的错误数量确定之后,随机地从该句句子中挑选相应数量的词作为错误。
优选的,根据步骤(2),针对挑选的每个词,引入另外一个随机变量确定该词所要引入的错误类型。
优选的,错误类型包括拼接错误、拼写错误、替换错误、删除错误、移位错误。
优选的,若该错误是一个拼写错误,则需要另外一个随机变量根据单词长度来确认该单词中引入字符错误的数量。
优选的,根据单词长度确定需要在单词中插入的字符数量之后,随机抽取单词中相应数量的字符作为字符错误,针对一个单词中的每个字符错误,引入一个随机变量确认每个字符错误类型;
字符错误的类型包括删除当前字符、随机插入一个英文字符、与后一个字符交换位置、随机替换为任意一个英语字母。
优选的,替换错误的替换方式包括介词间替换、冠词间替换、单数人称代词间替换、复数人称代词间替、Wh词替换、情态动词间替、Word Tree中的替换。
优选的,根据步骤(3),Word Tree是一组拥有相同词根、不同后缀的单词。
优选的,根据EPOS制定规则或确定概率分布决定哪些替换容易发生。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京先声智能科技有限公司,未经北京先声智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910719334.7/2.html,转载请声明来源钻瓜专利网。