[发明专利]语句切分方法及装置、存储介质、处理器及终端设备在审

专利信息
申请号: 201910376312.5 申请日: 2019-05-07
公开(公告)号: CN111914571A 公开(公告)日: 2020-11-10
发明(设计)人: 陆军;施杨斌;赵宇;骆卫华 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: G06F40/58 分类号: G06F40/58;G06F40/30;G06F40/289;G06F16/35
代理公司: 北京博浩百睿知识产权代理有限责任公司 11134 代理人: 谢湘宁;张文华
地址: 英属开曼群岛大开*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 语句 切分 方法 装置 存储 介质 处理器 终端设备
【说明书】:

发明公开了一种语句切分方法及装置、存储介质、处理器及终端设备。其中,该方法包括:获取训练数据,其中,训练数据是至少基于词对齐关系,通过对初始双语句对进行切分后,形成的待使用双语句对;通过训练数据训练得到语句切分模型;采用语句切分模型对待切分的语句进行切分。本发明解决了相关技术中在进行文字翻译时,无法有效对语句和/或句对进行切分,导致翻译偏差很大的技术问题。

技术领域

本发明涉及自然语言处理技术领域,具体而言,涉及一种语句切分方法及装置、存储介质、处理器及终端设备。

背景技术

在相关技术中,机器翻译是指借由计算机程序将文字从一种自然语言翻译成另一种自然语言,当前在进行机器翻译时,往往包括两个步骤:1)先将双语句对的原文和译文根据标点进行切分,各自形成子句;2)将子句进行句对齐,获得互译的双语子句对。但是该种翻译方式存在明显的缺陷,即,1)根据标点切分后,可能会找不到完全互译的子句对;2)无法处理不存在标点,但仍然很长的句子。

尤其是对于翻译训练、解码过程中遇到语料句对长度过大的情况,往往无法有效切分处理,因此,当前需要实现翻译过程中长短句的合理切分,尤其是对于过长的训练语料做合适的句对同步切分,使得能被NMT模型利用。

针对上述的问题,目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种语句切分方法及装置、存储介质、处理器及终端设备,以至少解决相关技术中在进行文字翻译时,无法有效对语句和/或句对进行切分,导致翻译偏差很大的技术问题。

根据本发明实施例的一个方面,提供了一种语句切分方法,包括:获取训练数据,其中,所述训练数据是至少基于词对齐关系,通过对初始双语句对进行切分后,形成的待使用双语句对;通过所述训练数据训练得到语句切分模型;采用所述语句切分模型对待切分的语句进行切分。

根据本发明实施例的另一方面,还提供了一种语句切分装置,包括:获取单元,用于获取训练数据,其中,所述训练数据是至少基于词对齐关系,通过对初始双语句对进行切分后,形成的待使用双语句对;训练单元,用于通过所述训练数据训练得到语句切分模型;切分单元,用于采用所述语句切分模型对待切分的语句进行切分。

根据本发明实施例的另一方面,还提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述任意一项所述的语句切分方法。

根据本发明实施例的另一方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述任意一项所述的语句切分方法。

根据本发明实施例的另一方面,还提供了一种终端设备,包括:处理器;以及存储器,与所述处理器连接,用于为所述处理器提供处理以下处理步骤的指令:步骤1,获取训练数据,其中,所述训练数据是至少基于词对齐关系,通过对初始双语句对进行切分后,形成的待使用双语句对;步骤2,通过所述训练数据训练得到语句切分模型;步骤3,采用所述语句切分模型对待切分的语句进行切分。

本发明下述实施例,提出了一种语句切分方法,可以基于词对齐关系,准确、高效、适用范围广实现句对齐语句切分方法。在该方案中,通过切分得到训练数据,构建用于单语句子(例如长语句)或句对切分的语句切分模型,从而完成对各种语句和/或句对的准确切分,为后续准确翻译提供有效保障。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910376312.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top