[发明专利]一种基于相似度匹配的枢轴语言翻译方法和装置有效
申请号: | 201310636884.5 | 申请日: | 2013-12-02 |
公开(公告)号: | CN103605644B | 公开(公告)日: | 2017-02-01 |
发明(设计)人: | 朱聪慧;朱晓宁;赵铁军;郑德权;杨沐昀;曹海龙;徐冰 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 哈尔滨市松花江专利商标事务所23109 | 代理人: | 杨立超 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 相似 匹配 枢轴 语言 翻译 方法 装置 | ||
1.一种基于相似度匹配的枢轴语言翻译方法,其特征在于具体是按照以下步骤进行:
步骤一、建立源语言-目标语翻译规则库,具体包括以下步骤:
步骤一一、建立源语言-枢轴语翻译规则库,在源语言-枢轴语翻译规则库中,将其中的枢轴语短语表示为向量形式;
步骤一二、建立枢轴语-目标语翻译规则库,在枢轴语-目标语翻译规则库中,将其中的枢轴语短语表示为向量形式;
步骤一三、在源语言-枢轴语翻译规则库中查找与源语言短语语义匹配的至少一个第一枢轴语短语的向量表示;
步骤一四、在枢轴语-目标语翻译规则库中查找与第一枢轴语短语具有向量相似性的至少一个第二枢轴语短语的向量表示,并关联第一枢轴语短语与第二枢轴语短语;所述的具有向量相似性的判断依据是指两个向量之间的夹角的余弦值大于0.8;所述的向量夹角余弦的计算公式为:
其中,A和B分别代表第一枢轴语短语的向量表示和第二枢轴语短语的向量表示,n为向量维度;
步骤一五、在枢轴语-目标语翻译规则库中查找与第二枢轴语短语的向量表示匹配的目标语短语;
步骤一六、将各所述源语言短语与目标语短语组成源语言-目标语翻译规则库;
步骤二、根据步骤一所建立的源语言-目标语翻译规则库对源语言进行翻译。
2.根据权利要求1中所述一种基于相似度匹配的枢轴语言翻译方法,其特征在于步骤一中所使用的向量表示形式为基于深度学习的词向量表示形式。
3.一种基于相似度匹配的枢轴语言翻译装置,其特征在于包括以下功能模块:
枢轴语言短语向量表示模块(410),用于在源语言-枢轴语翻译规则库中将枢轴语短语表示为向量形式以及在枢轴语-目标语翻译规则库中将枢轴语短语表示为向量形式;
枢轴语言短语查找模块(420),用于在源语言-枢轴语言翻译规则库中查找与第一源语言短语语义匹配的至少一个第一枢轴语言短语的向量表示;
向量相似度计算模块(430),用于计算枢轴语-目标语翻译规则库中的枢轴语短语与第一枢轴语短语的语义相似度;
目标语短语查找模块(440),用于在枢轴语-目标语翻译规则库中查找与第一枢轴语短语具有语义相似度的目标语短语;
短语对组合模块(450),用于将所述源语言短语与目标语短语组合,形成至少一个源语言短语与目标语短语之间的短语对;
短语对存储模块(460),用于将形成的至少一个源语言短语与目标语言短语之间的短语对存储至源语言-目标语翻译规则库;
目标语短语输出模块(470),用于根据源语言-目标语翻译规则库将与源语言对应的目标语输出,完成翻译处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310636884.5/1.html,转载请声明来源钻瓜专利网。