[发明专利]一种多维度的中英双语数据清洗方法有效
申请号: | 201911323592.X | 申请日: | 2019-12-20 |
公开(公告)号: | CN111178091B | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | 杜权;毕东 | 申请(专利权)人: | 沈阳雅译网络技术有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/289;G06F40/295;G06F16/215 |
代理公司: | 沈阳新科知识产权代理事务所(特殊普通合伙) 21117 | 代理人: | 李晓光 |
地址: | 110004 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多维 双语 数据 清洗 方法 | ||
1.一种多维度的中英双语数据的清洗方法,其特征在于包括以下步骤:
1)数据预处理,将涵盖政治、军事、经济、新闻多个领域的中英双语高质量的数据和输入文件中的中英双语句对进行包括分词、实体识别以及英文单词词干化预处理;
2)生成词典,使用预处理后的中英双语高质量数据采用词对齐算法得到词对齐结果,经过统计处理生成中英词典和英中词典;
3)语言模型训练,训练中文和英语以词为单位的3-Gram语言模型;
4)使用中英词典、英中词典以及3-Gram语言模型对输入文件中的中英双语句对进行多维度评估,得到多个维度的评估分值;
5)将各个维度评估分值线性组合后得到每个双语句对的最终得分,最后滤除掉低于阈值的双语句对;
6)将剩余的双语句对作为高质量的中英双语句对存储在输出文件中,得到高质量语料库;
步骤4)中,使用中英词典、英中词典以及3-Gram语言模型对输入文件中的中英双语数据进行多维度评估,得到多个维度的评估分值,分别计算待清洗数据的翻译覆盖度、流畅度、特征匹配率和长度比,并对流畅度和长度比分值进行正规化,最后得到各个维度的评估分值,具体为:
401)翻译覆盖度,通过以下公式计算得到:
其中,L(zh)和L(en)分别代表中文句子词长和英文句子词长,C(zh)和C(en)分别代表中文词语翻译正确个数和英文词语翻译正确的个数,Sdict代表平均翻译覆盖度分值;
402)流畅度,通过以下公式计算得到:
其中,Szh-gram和Sen-gram分别代表中文流畅度分值和英文流畅度分值,Sgram代表平均流畅度,P(wi|wi-N+1,...,wi-1)代表下一词的转移概率;
403)特征匹配率,通过以下公式计算得到:
其中,Ctemp(en)和Ctemp(zh)分别代表英文、中文的特征个数,Stemp代表特征匹配率分值;
404)长度比,通过以下公式计算得到:
其中,len(en|zh)代表英文词长和中文词长比值,Avglen(en|zh)代表平均长度比,平均长度比是在千万级高质量句对统计后结果,Slen-rate代表长度比分值;
405)分值正规化
在各个维度的评估中,翻译覆盖度和特征匹配率的得分属于区间[0,1],流畅度和长度比的得分属于区间[-∞,0],在计算句对最终得分前,对流畅度和长度比的得分进行正规化,统一分布在[0,1]之间,分值正规化通过以下公式计算得到:
其中,S为正规化前的分值,S'为正规化后的分值。
2.按权利要求1所述的多维度的中英双语数据的清洗方法,其特征在于步骤2)中,使用预处理后的数据采用词对齐算法得到词对齐结果,经过统计处理生成中英词典和英中词典,采用机器翻译中词对齐算法对分词后的中英双语数据进行词对齐处理,得到两个词对齐文件,经过词对齐对称化后合并这两个文件,具体为:
201)将词对齐对称化后的文件进行词还原处理,生成初始化中英词典及英中词典并过滤两个词典中的低频词;
202)将初始化的中英词典中的词和译文互换后作为英中字典的补充,同理,对英中词典进行同样的补充。
3.按权利要求1所述的多维度的中英双语数据的清洗方法,其特征在于步骤5)中,将各个维度评估分值线性组合后得到每个双语句对的最终得分,通过以下公式计算得到:
Sdict、Sgram和Stemp衡量了中英句对互译的质量,Slen_rate衡量中英句对增译漏译程度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳雅译网络技术有限公司,未经沈阳雅译网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911323592.X/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置