[发明专利]平行语料获取方法、装置、电子设备、及存储介质有效
申请号: | 202010099153.1 | 申请日: | 2020-02-18 |
公开(公告)号: | CN111310465B | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 曹军;李磊;王明轩;朱培豪 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/33;G06F16/951 |
代理公司: | 北京远智汇知识产权代理有限公司 11659 | 代理人: | 范坤坤 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 平行 语料 获取 方法 装置 电子设备 存储 介质 | ||
1.一种平行语料获取方法,其特征在于,包括:
根据网页的网址中是否包含代表语种的语种信息片段识别存在平行语料的网页;
对所述网页进行分组;
对分组内的网页基于网页文本的主要语种的比例确定是否保留与主要语种有关的文本数据;
将分组内保留的文本数据根据不同语种两两组合,对各组合所包含的文本数据对进行文本对齐获取平行语料;
其中,对各组合所包含的文本数据对进行文本对齐获取平行语料包括:
确定该文本数据对的两个语种对应的对齐双向词典;
对该文本数据对的第一文本数据中的各源语句,从该文本数据对的第二文本数据中取出一个比对语句,执行如下操作:
对所述源语句进行分词和词性过滤得到第一词集,确定所述第一词集中属于所述对齐双向词典中的第一对齐词集;以及对所述比对语句进行分词和词性过滤得到第二词集,确定所述第二词集中属于所述对齐双向词典中的第二对齐词集;
根据所述第一词集的词数、第一对齐词集的词数、所述第二词集的词数、以及所述第二对齐词集的词数确定所述源语句和所述比对语句之间的对齐度;
若所述对齐度大于预定对齐度阈值,则将所述源语句和所述比对语句组成的语句对作为平行语料。
2.根据权利要求1所述的方法,其特征在于,识别存在平行语料的网页包括:
从预定网页集中确定网址中包含代表语种的语种信息片段的网页作为所述存在平行语料的网页。
3.根据权利要求2所述的方法,其特征在于,在从预定网页集中确定网址中包含代表语种的语种信息片段的网页作为所述存在平行语料的网页之前还包括:
从周期性抓取的网页中,将当天新增的网页和前N天抓取的网页进行汇聚后作为所述预定网页集,其中所述N为自然数。
4.根据权利要求2所述的方法,其特征在于,对所述网页进行分组包括:
对所述网页的网址去除所述语种信息片段后进行正则匹配,根据正则匹配结果对所述网页进行分组。
5.根据权利要求4所述的方法,其特征在于,在对所述网页进行分组之前还包括,获取语种信息片段样本集,根据所述样本集生成正则表达式;
对所述网页的网址去除所述语种信息片段后进行正则匹配包括:对所述网页的网址去除所述语种信息片段后,基于所述正则表达式进行正则匹配。
6.根据权利要求1所述的方法,其特征在于,对分组内的网页基于网页文本的主要语种的比例确定是否保留与主要语种有关的文本数据包括:
对分组内的网页,获取该网页内的网页文本,对所述网页文本进行语种比例成分检测,若比例最高语种的比例小于预定比例阈值,则过滤掉该网页,否则保留该网页文本中该比例最高语种的文本数据。
7.根据权利要求1所述的方法,其特征在于,对各组合所包含的文本数据对进行文本对齐获取平行语料之前还包括:对各组合所包含的两个文本数据基于长度比例确定是否保留该组合。
8.根据权利要求1所述的方法,其特征在于,对该文本数据对的第一文本数据中的各源语句,从该文本数据对的第二文本数据中取出一个比对语句包括:
顺次获取所述第一文本数据中的一个语句作为所述源语句,若所述源语句的前一语句与所述第二文本数据中的第I语句之间的对齐度大于所述预定对齐度阈值,且所述I小于所述第二文本数据中语句数,则从所述第二文本数据中取出所述第I语句的下一语句作为所述对比语句,其中所述I为自然数。
9.根据权利要求1所述的方法,其特征在于,在对各组合所包含的文本数据对进行文本对齐获取平行语料之后还包括:
筛选出对齐度大于预定第二对齐度阈值的平行语料,其中所述预定第二对齐度阈值大于所述预定对齐度阈值;
将所筛选的平行语料传送给用于生成对齐双向词典的训练模型进行训练以优化所述训练模型;
采用优化后的所述训练模型生成新的对齐双向词典更新所述对齐双向词典。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010099153.1/1.html,转载请声明来源钻瓜专利网。