[发明专利]语言处理方法及设备有效
申请号: | 201711411206.3 | 申请日: | 2017-12-23 |
公开(公告)号: | CN109960812B | 公开(公告)日: | 2021-05-04 |
发明(设计)人: | 邢超;陈晓;蔡振林 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F40/55 | 分类号: | G06F40/55;G06F16/33 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 肖庆武 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语言 处理 方法 设备 | ||
1.一种语言处理方法,其特征在于,所述方法包括:
获取源语言和目标语言的n组互译句对,所述n组互译句对中的每一组互译句对包括互为译文的一个源语言句子和一个目标语言句子,所述n为大于1的整数;
采用所述源语言的提取规则,从所述n组互译句对的每个源语言句子中提取源语言片段;
从所述n组互译句对的每个目标语言句子中,分别提取与所述源语言片段互为译文的目标语言片段;
根据从n个目标语言句子中提取的至少n个目标语言片段,生成所述目标语言的提取规则。
2.根据权利要求1所述的方法,其特征在于,所述从所述n组互译句对的每个目标语言句子中,分别提取与所述源语言片段互为译文的目标语言片段,包括:
对于每一组互译句对,根据所述互译句对间的词对齐关系,获取从所述互译句对的源语言句子中提取的源语言片段包含的各个词语,在所述互译句对的目标语言句子中对应的译文词语;
将所述译文词语组合,得到所述互译句对的目标语言句子的目标语言片段。
3.根据权利要求1或2所述的方法,其特征在于,每个目标语言片段包括k个域的词语,k为正整数;
所述根据从n个目标语言句子中提取的至少n个目标语言片段,生成所述目标语言的提取规则,包括:
将所述至少n个目标语言片段中属于同一个域的词语进行合并,得到每个域的合并后的词语,所述属于同一个域的词语是指具有相同语义的词语;
对所述每个域的合并后的词语进行泛化,得到所述目标语言的提取规则。
4.根据权利要求1或2所述的方法,其特征在于,所述根据从n个目标语言句子中提取的至少n个目标语言片段,生成所述目标语言的提取规则之后,还包括:
将所述源语言的提取规则施用于源语言语料库,得到a个源语言片段;以及,将所述目标语言的提取规则施用于目标语言语料库,得到b个目标语言片段;其中,所述源语言语料库中包含的源语言句子和所述目标语言语料库中包含的目标语言句子的数量一致,且互为译文,所述a和所述b均为整数;
检测所述a个源语言片段和所述b个目标语言片段是否符合预设条件;
若符合所述预设条件,则对所述目标语言的提取规则进行更新。
5.根据权利要求3所述的方法,其特征在于,所述根据从n个目标语言句子中提取的至少n个目标语言片段,生成所述目标语言的提取规则之后,还包括:
将所述源语言的提取规则施用于源语言语料库,得到a个源语言片段;以及,将所述目标语言的提取规则施用于目标语言语料库,得到b个目标语言片段;其中,所述源语言语料库中包含的源语言句子和所述目标语言语料库中包含的目标语言句子的数量一致,且互为译文,所述a和所述b均为整数;
检测所述a个源语言片段和所述b个目标语言片段是否符合预设条件;
若符合所述预设条件,则对所述目标语言的提取规则进行更新。
6.根据权利要求4所述的方法,其特征在于,所述预设条件包括:所述a和所述b不相等;和/或,存在至少一组从互译句对中提取的源语言片段和目标语言片段的语义不匹配。
7.根据权利要求5所述的方法,其特征在于,所述预设条件包括:所述a和所述b不相等;和/或,存在至少一组从互译句对中提取的源语言片段和目标语言片段的语义不匹配。
8.根据权利要求4所述的方法,其特征在于,所述目标语言的提取规则包括至少一个域对应的提取规则,每个域对应的提取规则用于提取所述目标语言的一种语义的词语;
所述对所述目标语言的提取规则进行更新,包括:
减小所述目标语言的提取规则中第一域对应的提取规则的泛化程度;
和/或,
扩大所述目标语言的提取规则中第二域对应的提取规则的泛化程度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711411206.3/1.html,转载请声明来源钻瓜专利网。