[发明专利]平行语料获取方法、装置、电子设备、及存储介质有效
申请号: | 202010099153.1 | 申请日: | 2020-02-18 |
公开(公告)号: | CN111310465B | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 曹军;李磊;王明轩;朱培豪 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/33;G06F16/951 |
代理公司: | 北京远智汇知识产权代理有限公司 11659 | 代理人: | 范坤坤 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 平行 语料 获取 方法 装置 电子设备 存储 介质 | ||
本公开实施例公开了一种平行语料获取方法、装置、电子设备、及存储介质,方法包括:识别存在平行语料的网页;对所述网页进行分组;对分组内的网页基于网页文本的主要语种的比例确定是否保留与主要语种有关的文本数据;将分组内保留的文本数据根据不同语种两两组合,对各组合所包含的文本数据对进行文本对齐获取平行语料。本公开实施例能够提高获取平行语料的效率,应用该方法能够从海量网页中自动获取大量平行语料数据。
技术领域
本公开实施例涉及计算机应用技术领域,具体涉及一种平行语料获取方法、装置、电子设备、及存储介质。
背景技术
语料库的建设是统计学习方法的重要基础,对自然语言处理研究具有巨大价值,特别是双语语料库,已经成为机器翻译、机器辅助翻译以及翻译知识获取研究不可或缺的重要资源。现有的机器翻译模型,为了进行有效训练以得到准确的翻译效果,一般都需要大量的平行语料作为训练样本。
但是大量平行语料并不容易获得。目前一般采用开发专门定制的抓取与解析抽取器从公开数据集和词典网站中抓取平行例句来生成平行语料。
一方面,针对特定网站的专用抓取工具和解析抽取器不具有通用性和扩展性;另一方面,上述站点数量有限,因此获取的平行语料数量有限,内容涵盖的范围也存在局限性。
发明内容
有鉴于此,本公开实施例提供一种平行语料获取方法、装置、电子设备、及存储介质,以实现自动从海量网页中获取大量平行语料数据。
本公开实施例的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开实施例的实践而习得。
第一方面,本公开实施例提供了一种平行语料获取方法,包括:
识别存在平行语料的网页;
对所述网页进行分组;
对分组内的网页基于网页文本的主要语种的比例确定是否保留与主要语种有关的文本数据;
将分组内保留的文本数据根据不同语种两两组合,对各组合所包含的文本数据对进行文本对齐获取平行语料。
第二方面,本公开实施例还提供了一种平行语料获取装置,包括:
网页识别单元,用于识别存在平行语料的网页;
网页分组单元,用于对所述网页进行分组;
网页过滤单元,用于对分组内的网页基于网页文本的主要语种的比例确定是否保留与主要语种有关的文本数据;
对齐计算单元,用于将分组内保留的文本数据根据不同语种两两组合,对各组合所包含的文本数据对进行文本对齐获取平行语料。
第三方面,本公开实施例还提供了一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面中各项所述方法的指令。
第四方面,本公开实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中各项所述方法的步骤。
本公开实施例通过识别存在平行语料的网页,对所述网页进行分组后,对分组内的网页基于网页文本的主要语种的比例确定是否保留与主要语种有关的文本数据;将分组内保留的文本数据根据不同语种两两组合,对各组合所包含的文本数据对进行文本对齐获取平行语料,能够提高获取平行语料的效率,应用该方法能够从海量网页中自动获取大量平行语料数据。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010099153.1/2.html,转载请声明来源钻瓜专利网。