[发明专利]平行语料获取方法、装置、电子设备、及存储介质在审
申请号: | 202010130436.8 | 申请日: | 2020-02-28 |
公开(公告)号: | CN111368561A | 公开(公告)日: | 2020-07-03 |
发明(设计)人: | 曹军;李磊;王明轩;朱培豪 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/216;G06F40/279;G06F40/263;G06F40/253;G06F40/242 |
代理公司: | 北京远智汇知识产权代理有限公司 11659 | 代理人: | 范坤坤 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 平行 语料 获取 方法 装置 电子设备 存储 介质 | ||
1.一种平行语料获取方法,其特征在于,包括:
获取目标文档内的文本数据;
对所述文本数据进行语种检测;
若所述文本数据包括至少两个语种,则保留所述文本数据;
检测保留的文本数据中,各语种的词汇分布比例;
若词汇分布比例最高的第一语种和第二语种的词汇分布比例均大于预定比例阈值,则保留所检测的文本数据;
从保留的所检测的文本数据中抽取所述第一语种的语句作为第一语句集,以及抽取所述第二语种的语句作为第二语句集;
将所述第一语句集和所述第二语句集进行语句对齐;以及
确定对齐度大于预定对齐度阈值的语句对作为平行语料。
2.根据权利要求1所述的方法,其特征在于,将所述第一语句集和所述第二语句集进行语句对齐包括:
确定用于对齐所述第一语种语句和所述第二语种语句的对齐双向词典;
对所述第一语句集中的任一源语句,从所述第二语句集中取出一个比对语句,执行如下操作;
对所述源语句进行分词和词性过滤得到第一词集,确定所述第一词集中属于所述对齐双向词典中的第一对齐词集;以及对所述比对语句进行分词和词性过滤得到第二词集,确定所述第二词集中属于所述对齐双向词典中的第二对齐词集;
根据所述第一词集的词数、第一对齐词集的词数、所述第二词集的词数、以及所述第二对齐词集的词数确定所述源词句和所述比对语句之间的对齐度。
3.根据权利要求2所述的方法,其特征在于,对所述第一语句集中的任一源语句,从所述第二语句集中取出一个比对语句包括:
顺次获取所述第一语句集中的一个语句作为所述源语句,若所述源语句的前一语句与所述第二语句集中的第I语句之间的对齐度大于所述预定对齐度阈值,且所述I小于所述第二语句集的语句数,则从所述第二语句集中取出所述第I语句的下一语句作为所述对比语句,其中所述I为自然数。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括,在确定对齐度大于预定对齐度阈值的语句对作为平行语料之后:
筛选出对齐度大于预定第二对齐度阈值的平行语料,其中所述预定第二对齐度阈值大于所述预定对齐度阈值;
将所筛选的平行语料传送给用于生成对齐双向词典的训练模型进行训练以优化所述训练模型;
采用优化后的所述训练模型生成新的对齐双向词典以更新所述对齐双向词典。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括,在确定对齐度大于预定对齐度阈值的语句对作为平行语料之后:
计算所述文本数据中作为平行语料的文本数据所占的比例;
若所述比例大于预定第二比例阈值,则根据所述目标文档确定新的目标文档。
6.根据权利要求5所述的方法,其特征在于,根据所述目标文档确定新的目标文档包括:
获取所述目标文档的URL地址;
获取所述URL地址关联的URL地址对应的文档作为新的目标文档。
7.根据权利要求5所述的方法,其特征在于,根据所述目标文档确定新的目标文档包括:
获取所述目标文档内的子链接的URL地址;
获取所述子链接的URL地址对应的文档作为新的目标文档。
8.根据权利要求1所述的方法,其特征在于,所述目标文档包括网络中的HTML页面、帮助文件页面、pfg文件、word文件的至少一种。
9.根据权利要求8所述的方法,其特征在于,所述HTML页面包括词典类网页和双语小说。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010130436.8/1.html,转载请声明来源钻瓜专利网。