[发明专利]语料文件的处理方法及装置在审
申请号: | 201911324610.6 | 申请日: | 2019-12-20 |
公开(公告)号: | CN111222346A | 公开(公告)日: | 2020-06-02 |
发明(设计)人: | 陈海龙 | 申请(专利权)人: | 北京海兰信数据科技股份有限公司 |
主分类号: | G06F40/45 | 分类号: | G06F40/45;G06F40/211 |
代理公司: | 北京润捷智诚知识产权代理事务所(普通合伙) 11831 | 代理人: | 孙巍 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语料 文件 处理 方法 装置 | ||
本发明的实施例提供一种语料文件的处理方法及装置。其中方法包括:获取语料文件;将所述语料文件进行划分,得到至少一个分段,每一个分段包括至少一个分句;对所述语料文件进行语种识别,得到至少两个语种集,所述至少两个语种集包括:第一语种语料文件集以及除第一语种外的其它语种语料文件集;对所述第一语种语料文件集进行机器翻译,得到目标语种语料文件;获取所述目标语种语料文件与所述其它语种语料文件集的相似度;根据所述相似度,将所述目标语种语料文件与所述第一语种语料文件集进行对齐。本发明的方案可以实现从双语或多语的语料文件中自动识别文档中的双语或者多语并且自动对齐。
技术领域
本发明涉及语料的处理技术领域,特别是指一种语料文件的处理方法及装置。
背景技术
对于海量的多语单文稿或者多语多文稿,有海量的多语语料对,基于此语料对,可以一方面可以补充自己的多语语料库,另一方面可以作为机器翻译的训练集。
但是现有翻译稿件并未严格按照句句对应或者段段对照的方式进行翻译,或者有些工程图纸翻译根本就是混乱格式,这种情况下自动提取稿件中双语语料的难度非常大,甚至需要大量的人工去处理对齐语料,需要耗费大量的人力物力。存在成本高、效率底和耗时间等问题。
发明内容
本发明提供了一种语料文件的处理方法及装置。可以实现从双语或多语的语料文件中自动识别文档中的双语或者多语并且自动对齐。
为解决上述技术问题,本发明的实施例提供如下方案:
一种语料文件的处理方法,包括:
获取语料文件;
将所述语料文件进行划分,得到至少一个分段,每一个分段包括至少一个分句;
对所述语料文件进行语种识别,得到至少两个语种集,所述至少两个语种集包括:第一语种语料文件集以及除第一语种外的其它语种语料文件集;
对所述第一语种语料文件集进行机器翻译,得到目标语种语料文件;
获取所述目标语种语料文件与所述其它语种语料文件集的相似度;
根据所述相似度,将所述目标语种语料文件与所述第一语种语料文件集进行对齐。
可选的,获取语料文件包括:获取多语混合文件,所述多语混合文件的语种为至少两种不同的语种;或者,获取多个单语种文件,所述多个单语种文件中至少一个的语种与其它文件的语种不同。
可选的,对所述语料文件进行语种识别,得到至少两个语种集,包括:
对所述语料文件的句子进行语种识别,得到识别结果;
将所述识别结果中的将第一语种的句子存储在一个集合中,得到第一语种语料文件集;
将所述识别结果中的非第一语种的句子存储在另一集合中,得到其它语种语料文件集。
可选的,对所述第一语种语料文件集进行机器翻译,得到目标语种语料文件,包括:对所述第一语种语料文件集中的句子进行机器翻译,得到目标语种语料文件的句子,所述目标语种语料文件的句子形成所述目标语种语料文件。
可选的,获取所述目标语种语料文件与所述其它语种语料文件集的相似度,包括:获取所述目标语种语料文件的句子,与所述其它语种语料文件集中的句子的相似度。
可选的,根据所述相似度,将所述目标语种语料文件与所述第一语种语料文件集进行对齐,包括:若所述相似度大于一预设阈值,则将所述目标语种语料文件的句子与所述第一语种语料文件集的句子进行对齐,否则,丢弃所述目标语种语料文件的句子和所述其它语种语料文件集中的句子。
可选的语料文件的处理方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京海兰信数据科技股份有限公司,未经北京海兰信数据科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911324610.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种圆盘电机
- 下一篇:智慧治安信息系统及管理方法