[发明专利]句段的断句方法、装置和电子设备在审
申请号: | 202011598556.7 | 申请日: | 2020-12-29 |
公开(公告)号: | CN112632988A | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 陈海燕;钱开源;林怀谦;金喆 | 申请(专利权)人: | 文思海辉智科科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/58 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 安卫静 |
地址: | 102200 北京市昌平区未来科*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 断句 方法 装置 电子设备 | ||
本发明提供了一种句段的断句方法、装置和电子设备,包括:获取包含句段标签的待断句句段和与待断句句段对应的待断句文本内容的文本断句结果;参照文本断句结果对待断句句段进行断句,得到待断句句段的句段断句结果;根据预设调整策略调整句段断句结果中的句段标签和/或断句位置,得到待断句句段的目标断句结果,以根据目标断句结果对待断句句段进行正确翻译。本发明的句段的断句方法能够对含有句段标签的待断句句段进行合理的断句,最后能够根据待断句句段的目标断句结果对待断句句段进行正确翻译,缓解了现有技术无法对含有句段标签的句段进行合理断句的技术问题。
技术领域
本发明涉及信息处理的技术领域,尤其是涉及一种句段的断句方法、装置和电子设备。
背景技术
现有技术在对文本句子进行断句时,常常通过特定语言的特点预设断句规则(如:正则表达式,Regular Expression,RE),再根据预设断句规则确定文本句子的断句位置。例如:对于英语,可以设置“.号后面为断句位置,且此位置后跟白字符。”如此,可以将文本句子“The red costs$2.50.The blue costs$2.50.”断成两句。The red costs$2.50.和Theblue costs$2.50.。
而在实际过程中,句段往往存在句段标签,例如:“The red costsb$2.50.bThe blue costsb$2.50b.”在此种情况下,因为句段标签的存在,句号后面不是空格,不再满足上述预设断句规则,从而导致无法断句。此外,句段标签的不当处理,也会对翻译作业产生不利影响。
综上,现有技术还无法对含有句段标签的句段进行合理的断句。
发明内容
有鉴于此,本发明的目的在于提供一种句段的断句方法、装置和电子设备,以缓解现有技术无法对含有句段标签的句段进行合理断句的技术问题。
第一方面,本发明实施例提供了一种句段的断句方法,包括:
获取包含句段标签的待断句句段和与所述待断句句段对应的待断句文本内容的文本断句结果;
参照所述文本断句结果对所述待断句句段进行断句,得到所述待断句句段的句段断句结果;
根据预设调整策略调整所述句段断句结果中的句段标签和/或断句位置,得到所述待断句句段的目标断句结果,以根据所述目标断句结果对所述待断句句段进行正确翻译。
进一步的,获取与所述待断句句段对应的待断句文本内容的文本断句结果包括:
删除所述待断句句段中的句段标签,得到与所述待断句句段对应的待断句文本内容;
根据预设断句规则对所述待断句文本内容进行断句,得到所述文本断句结果。
进一步的,所述文本断句结果中至少包含一个子句,参照所述文本断句结果对所述待断句句段进行断句包括:
按照文本内容将所述待断句句段与所述文本断句结果进行字符对齐;
基于所述字符对齐的结果对所述待断句句段执行断句操作。
进一步的,基于所述字符对齐的结果对所述待断句句段执行断句操作包括:
扫描所述待断句句段,直至扫描到与目标子句的首字符对应的第一目标字符,并将所述第一目标字符之前的内容作为与所述目标子句对应的断句单元的句前内容,其中,所述目标子句为所述文本断句结果中,从第一个子句开始依次遍历的子句;
继续扫描所述待断句句段,直至扫描到与所述目标子句的末字符对应的第二目标字符,并将所述第一目标字符与所述第二目标字符之间的内容作为与所述目标子句对应的断句单元的子句段内容;
将所述目标子句对应的断句单元的句后内容设置为空;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于文思海辉智科科技有限公司,未经文思海辉智科科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011598556.7/2.html,转载请声明来源钻瓜专利网。