[发明专利]文本处理方法、装置、电子设备及可读存储介质有效
申请号: | 202010198468.1 | 申请日: | 2020-03-19 |
公开(公告)号: | CN111368566B | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 徐晨灿;袁宁;宫晨;石建勋 | 申请(专利权)人: | 中国工商银行股份有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/211;G06F40/289;G06F40/30 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 吕朝蕙 |
地址: | 100140 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 电子设备 可读 存储 介质 | ||
1.一种文本处理方法,包括:
获得混合平行语料和目标平行语料;所述混合平行语料为从多个领域中获取得到的平行语料;
以所述混合平行语料和所述目标平行语料作为训练样本,训练预定模型得到第一翻译模型;以及
以待处理文本作为所述第一翻译模型的输入,获得针对所述待处理文本的翻译文本,
其中,所述目标平行语料为针对目标领域的平行语料,所述目标平行语料包括通过第二翻译模型筛选得到的平行语料;所述第二翻译模型以所述混合平行语料作为训练样本训练得到;
其中,获得目标平行语料包括:
获得针对所述目标领域的多个平行语料;
采用所述第二翻译模型,确定所述多个平行语料中满足第一条件的平行语料;以及
根据所述满足第一条件的平行语料,获得所述目标平行语料;
其中,所述确定所述多个平行语料中满足第一条件的平行语料包括:针对所述多个平行语料中的第一平行语料执行以下操作:
以所述第一平行语料包括的源语句作为所述第二翻译模型的输入,输出得到所述第一平行语料对应的预测翻译语句;以及
根据所述第一平行语料包括的源语句、所述第一平行语料包括的翻译语句以及所述第一平行语料对应的预测翻译语句,确定所述第一平行语料是否满足第一条件,
其中,所述第一平行语料为所述多个平行语料中的任意一个平行语料。
2.根据权利要求1所述的方法,其中,确定所述第一平行语料是否满足第一条件包括:
确定所述第一平行语料对应的预测翻译语句中的多个目标词串,所述多个目标词串中的每个目标词串由所述预测翻译语句中位置连续的多个第一词组成,所述多个第一词中目标词的占比不小于预定占比;
确定所述多个目标词串中长度最大的目标词串为最大目标词串;
确定所述最大目标词串包括的目标词属于所述第一平行语料包括的翻译语句的第一比例;以及
在所述第一比例不小于第一预定比例的情况下,确定所述第一平行语料满足第一条件,
其中,所述目标词包括预定词汇表中的词及所述多个平行语料包括的翻译语句中的词。
3.根据权利要求2所述的方法,其中,根据所述满足第一条件的平行语料,获得所述目标平行语料包括:针对所述满足第一条件的平行语料中的第二平行语料执行以下操作:
根据所述第二平行语料对应的预测翻译语句的最大目标词串,确定所述第二平行语料包括的翻译语句中满足第二条件的至少一个分句;
确定所述第二平行语料包括的源语句中与所述第二平行语料对应的最大目标词串匹配的至少一个第二词;以及
拼接所述至少一个第二词得到目标源语句,拼接所述至少一个分句得到目标翻译语句,
其中,根据所述第二平行语料得到的目标平行语料包括所述目标源语句及所述目标翻译语句,所述第二平行语料为所述满足第一条件的平行语料中的任意一个平行语料。
4.根据权利要求3所述的方法,其中,确定所述第二平行语料包括的翻译语句中满足第二条件的至少一个分句包括:
将所述第二平行语料包括的翻译语句进行分句处理,得到多个分句;
确定所述多个分句各自包括的目标词在所述第二平行语料对应的最大目标词串中出现的第二比例,得到多个第二比例;
确定所述多个第二比例中不小于第二预定比例的第二比例为目标比例;
确定所述目标比例所对应的分句为所述满足第二条件的至少一个分句;
在所述第二比例均小于所述第二预定比例的情况下,确定所述多个第二比例中最大第二比例对应的分句为所述满足第二条件的至少一个分句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010198468.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种带有隔挡部的柔性截流装置
- 下一篇:针对于致密砂岩含油饱和度的取值方法