[发明专利]一种英文长句自动切分方法及系统有效
申请号: | 201811549280.6 | 申请日: | 2018-12-18 |
公开(公告)号: | CN109657244B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 张睦 | 申请(专利权)人: | 语联网(武汉)信息技术有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/58 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;吴欢燕 |
地址: | 430000 湖北省武汉市东湖开发区光谷软件*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 英文 长句 自动 切分 方法 系统 | ||
1.一种英文长句自动切分方法,其特征在于,包括:
获取待切分的英文长句;
将所述待切分的英文长句输入到训练后的序列到序列框架的神经网络模型中,输出两条英文短句;
在所述将所述待切分的英文长句输入到训练后的序列到序列框架的神经网络中,输出两条英文短句之前,所述方法还包括:
获取语料数据集,所述语料数据集包括原文、译员译文以及审校译文;
将所述语料数据集作为训练样本集对预设的序列到序列框架的神经网络模型进行训练,得到所述训练后的序列到序列框架的神经网络模型;
所述序列到序列框架的神经网络模型包括:
原文编码器、译文编码器、第一短句解码器以及第二短句解码器;
所述将所述语料数据集作为训练样本集对预设的序列到序列框架的神经网络模型进行训练,包括:
基于所述原文编码器和所述译文编码器,将所述训练样本集中的原文向量和译文向量结合为第一向量;
基于所述第一短句解码器和所述第一向量,生成第一短句以及第二向量;
基于所述第二短句解码器和所述第二向量,生成第二短句。
2.根据权利要求1所述的方法,其特征在于,在所述将所述语料数据集作为训练样本集对预设的序列到序列框架的神经网络模型进行训练之前,所述方法还包括:
对所述语料数据集中的文本进行分词和断句的数据预处理。
3.一种英文长句自动切分系统,其特征在于,包括:
获取模块,用于获取待切分的英文长句;
自动切分模块,用于将所述待切分的英文长句输入到训练后的序列到序列框架的神经网络模型中,输出两条英文短句;
在所述将所述待切分的英文长句输入到训练后的序列到序列框架的神经网络中,输出两条英文短句之前,还包括:
获取语料数据集,所述语料数据集包括原文、译员译文以及审校译文;
将所述语料数据集作为训练样本集对预设的序列到序列框架的神经网络模型进行训练,得到所述训练后的序列到序列框架的神经网络模型;
所述序列到序列框架的神经网络模型包括:
原文编码器、译文编码器、第一短句解码器以及第二短句解码器;
所述将所述语料数据集作为训练样本集对预设的序列到序列框架的神经网络模型进行训练,包括:
基于所述原文编码器和所述译文编码器,将所述训练样本集中的原文向量和译文向量结合为第一向量;
基于所述第一短句解码器和所述第一向量,生成第一短句以及第二向量;
基于所述第二短句解码器和所述第二向量,生成第二短句。
4.一种电子设备,其特征在于,包括存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1或2所述的方法。
5.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1或2所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于语联网(武汉)信息技术有限公司,未经语联网(武汉)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811549280.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:敏感信息识别方法、系统、设备及存储介质
- 下一篇:一种电子病历的语意识别方法