[发明专利]语料文件的处理方法及装置在审

申请号：	201911324610.6	申请日：	2019-12-20
公开（公告）号：	CN111222346A	公开（公告）日：	2020-06-02
发明（设计）人：	陈海龙	申请（专利权）人：	北京海兰信数据科技股份有限公司
主分类号：	G06F40/45	分类号：	G06F40/45;G06F40/211
代理公司：	北京润捷智诚知识产权代理事务所(普通合伙) 11831	代理人：	孙巍
地址：	100084 北京市海淀区中关***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语料文件处理方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明的实施例提供一种语料文件的处理方法及装置。其中方法包括：获取语料文件；将所述语料文件进行划分，得到至少一个分段，每一个分段包括至少一个分句；对所述语料文件进行语种识别，得到至少两个语种集，所述至少两个语种集包括：第一语种语料文件集以及除第一语种外的其它语种语料文件集；对所述第一语种语料文件集进行机器翻译，得到目标语种语料文件；获取所述目标语种语料文件与所述其它语种语料文件集的相似度；根据所述相似度，将所述目标语种语料文件与所述第一语种语料文件集进行对齐。本发明的方案可以实现从双语或多语的语料文件中自动识别文档中的双语或者多语并且自动对齐。

技术领域

本发明涉及语料的处理技术领域，特别是指一种语料文件的处理方法及装置。

背景技术

对于海量的多语单文稿或者多语多文稿，有海量的多语语料对，基于此语料对，可以一方面可以补充自己的多语语料库，另一方面可以作为机器翻译的训练集。

但是现有翻译稿件并未严格按照句句对应或者段段对照的方式进行翻译,或者有些工程图纸翻译根本就是混乱格式，这种情况下自动提取稿件中双语语料的难度非常大，甚至需要大量的人工去处理对齐语料，需要耗费大量的人力物力。存在成本高、效率底和耗时间等问题。

发明内容

本发明提供了一种语料文件的处理方法及装置。可以实现从双语或多语的语料文件中自动识别文档中的双语或者多语并且自动对齐。

为解决上述技术问题，本发明的实施例提供如下方案：

一种语料文件的处理方法，包括：

获取语料文件；

将所述语料文件进行划分，得到至少一个分段，每一个分段包括至少一个分句；

对所述语料文件进行语种识别，得到至少两个语种集，所述至少两个语种集包括：第一语种语料文件集以及除第一语种外的其它语种语料文件集；