[发明专利]大规模语料清洗对齐方法及装置有效
申请号: | 201911303493.5 | 申请日: | 2019-12-17 |
公开(公告)号: | CN111191469B | 公开(公告)日: | 2023-09-19 |
发明(设计)人: | 袁建 | 申请(专利权)人: | 语联网(武汉)信息技术有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/45;G06F40/205;G06F18/22 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 杨明月 |
地址: | 430206 湖北省武汉市东湖新技术开*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 大规模 语料 清洗 对齐 方法 装置 | ||
1.一种大规模语料清洗对齐方法,其特征在于,包括:
对历史稿件进行解析和分句,获得句子集合;
取出所述句子集合中的任意一个句子进行语种识别,并调用与语种识别结果相对应的机器翻译引擎对所述句子进行翻译,获得所述句子对应的译文;
对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算;
若匹配到某个句子与所述句子对应的译文之间的相似度达到预设阈值,则确定匹配到的句子与所述句子为一组双语对齐语料;
其中,对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算,具体为:
基于余弦相似度对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算。
2.根据权利要求1所述的大规模语料清洗对齐方法,其特征在于,对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算之后,还包括:
若确定取出了所述句子的句子集合中的每个句子与所述句子对应的译文之间的相似度均未达到预设阈值,则删除所述句子。
3.根据权利要求1所述的大规模语料清洗对齐方法,其特征在于,所述确定匹配到的句子与所述句子为一组双语对齐语料之后,还包括:
构建双语对齐语料库,将匹配到的句子与所述句子加入至所述双语对齐语料库中。
4.一种大规模语料清洗对齐装置,其特征在于,包括:
解析模块,用于对历史稿件进行解析和分句,获得句子集合;
翻译模块,用于取出所述句子集合中的任意一个句子进行语种识别,并调用与语种识别结果相对应的机器翻译引擎对所述句子进行翻译,获得所述句子对应的译文;
相似度匹配模块,用于对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算;
判断模块,用于若匹配到某个句子与所述句子对应的译文之间的相似度达到预设阈值,则确定匹配到的句子与所述句子为一组双语对齐语料;
其中,所述相似度匹配模块具体用于:
基于余弦相似度对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算。
5.根据权利要求4所述的大规模语料清洗对齐装置,其特征在于,还包括:
删除模块,用于若确定取出了所述句子的句子集合中的每个句子与所述句子对应的译文之间的相似度均未达到预设阈值,则删除所述句子。
6.根据权利要求4所述的大规模语料清洗对齐装置,其特征在于,还包括:
对齐语料库生成模块,用于构建双语对齐语料库,将匹配到的句子与所述句子加入至所述双语对齐语料库中。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至3任一项所述大规模语料清洗对齐方法的步骤。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述大规模语料清洗对齐方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于语联网(武汉)信息技术有限公司,未经语联网(武汉)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911303493.5/1.html,转载请声明来源钻瓜专利网。