[发明专利]一种英文粘连词错误的还原方法有效

专利信息
申请号: 202010883348.5 申请日: 2020-08-28
公开(公告)号: CN112016322B 公开(公告)日: 2023-06-27
发明(设计)人: 刘兴宇;杜权 申请(专利权)人: 沈阳雅译网络技术有限公司
主分类号: G06F40/289 分类号: G06F40/289;G06F18/214;G06F40/216;G06F40/163;G06F16/31
代理公司: 沈阳新科知识产权代理事务所(特殊普通合伙) 21117 代理人: 李晓光
地址: 110004 辽宁省沈阳市*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 英文 粘连 错误 还原 方法
【权利要求书】:

1.一种英文粘连词错误的还原方法,其特征在于包括以下步骤:

1)在现有的已清洗过的高质量英文数据集中随机抽取数据,得到文件1,为任务训练所需的高质量数据做准备;

2)观察获取到的待清洗的英文数据集中含有粘连词的数据,对采集到的问题数据进行抽样统计,得到粘连词数及粘连位置的分布概率;

3)利用步骤1)中抽取的数据进行数据构造,根据粘连词的分布情况构造伪粘连词数据,根据对待清洗数据的抽样统计出含有粘连词的句子占比,结合粘连词数及粘连位置的分布构造伪粘连词数据;

4)在将构造的伪粘连词数据送入模型训练之前,对其做预处理操作,使数据更利于模型训练;

5)使用fairSeq下的Transformer模型对预处理后的数据进行训练,对模型参数进行调整,模型训练完成后,根据困惑度ppl和loss损失选取最优模型,利用最优模型对获取到的待清洗的英文数据中的粘连词进行修正,得到还原后的正确数据;

步骤3)中利用步骤1)中抽取的数据进行数据构造,具体为:

301)根据粘连词数及粘连位置的概率分布构造粘连数据模块;

302)判定粘连句子,随机选取句子作为含有粘连词的句子,利用random()函数在遍历步骤1)中得到的文件时,每读取一句话得到一个0-1之间的随机数x,按照70%占比构造伪粘连词数据,即若x=0.7则将该句子作为含有粘连词的句子,进入构造粘连词模块进行处理;若x0.7则不做处理,直接输出伪粘连词数据到文件1;

步骤301)中构造粘连数据模块为:

30101)确定粘连词数,根据粘连词数的分布,利用random()函数得到一个0-1随机数m,m的不同取值对应着构造该句话粘连词的粘连词数gram,gram的取值结果如下:

30102)确定可选取的位置n,n的取值具体如下,其中words为该语句的单词数目;

n=words-gram+1

30103)确定粘连的位置,根据粘连位置分布得知,第一个位置和最后一个位置的概率相等均为其余位置的1/3,按比例构造随机数的范围[1,x],其中x=3*n-4,根据随机范围映射粘连位置的周期为:T=x/(n-1),得到的随机数ran映射的位置信息为:(ran-1)/T;

30104)按照得到的位置信息构造粘连词,将构造好的数据进行输出,将经上述步骤处理后的数据作为源语,原始数据作为目标语输出到文件1。

2.根据权利要求1所述的英文粘连词错误的还原方法,其特征在于:2)中粘连词数及粘连位置的分布概率为:

粘连词数为2词粘连的概率为0.6,3词粘连的概率为0.25,4词粘连的概率为0.14,5词粘连的概率为0.01,统计粘连位置为句首句尾位置粘连占其他位置的1/3。

3.根据权利要求1所述的英文粘连词错误的还原方法,其特征在于:步骤4)中数据预处理包括:

401)将步骤3)中得到的源语和目标语作为句对进行分词,分词按空格标点进行切分;

402)对粘连词进行变化,利用一个判定粘连词函数寻找数据中可能的粘连词,将粘连词按字符用指定符号切分,以区别于真正单词间的空格;

403)将步骤402)中的源语和步骤401)中分词后的目标语进行BPE,以减少词表的大小;

所述步骤402)中判定粘连词函数设计方法如下:

40201)从现有的已清洗过的高质量英文数据集抽取高质量英文数据作为该函数的语料库,该语料库与步骤1)中抽取的数据呈互斥的关系;

40202)利用n-gram模型统计出Tri-Gram的词对,并保留词对信息;

40203)读取源语数据,遍历源语数据句子,根据当前词w的后面3个词利用步骤40202)中得到的词对信息进行查询,若可查询到词w,则判断词w不是粘连词;

40204)继续遍历,若未查询到词w,则判定词w是粘连词,将词w按字符用指定符号切分。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳雅译网络技术有限公司,未经沈阳雅译网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010883348.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top