[发明专利]一种不同语言间词汇相似度的获取方法及系统有效
申请号: | 201110348222.9 | 申请日: | 2011-11-07 |
公开(公告)号: | CN102567306A | 公开(公告)日: | 2012-07-11 |
发明(设计)人: | 钱龙华;孔芳;周国栋 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/28 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 常亮;李辰 |
地址: | 215123 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 不同 语言 词汇 相似 获取 方法 系统 | ||
技术领域
本发明涉及机器翻译技术领域,特别是涉及一种不同语言间词汇相似度的获取方法及系统。
背景技术
进入21世纪以后,不同国家和地区的人们需要进行更为频繁的交流。语言的不同为交流过程带来了极大障碍,借助于翻译工具进行机器翻译可以有效解决这种问题。
机器翻译的基础是对词汇的翻译,即找到源语言词汇在目标语言中相对应的词汇,使用词汇相似度进行查找是一种常用的技术手段。我们知道的是,自然语言中,不同语言中的某些词汇的含义是十分相似的,甚至相同的,如中文的“漂亮”和英文的“Pretty”和“Beautiful”。
现有技术中,仅仅使用词汇的含义来评价不同语言中词汇的相似度,可靠性较低。在使用这种相似度进行后期的翻译工作时,会使翻译的准确性大大降低。
发明内容
为解决上述技术问题,本发明实施例提供一种不同语言间词汇相似度的获取方法及系统,以实现不同语言间词汇相似度计算的可靠性,技术方案如下:
一种不同语言间词汇相似度的获取方法,包括:
获得源语言中第一词汇的上下文词汇及所述上下文词汇与所述第一词汇的源语言依存关系,获得目标语言中第二词汇的上下文词汇及所述上下文词汇与所述第二词汇的目标语言依存关系;
获得所述第一词汇的上下文词汇与所述第二词汇的上下文词汇之间的上下文相似度,获得所述源语言依存关系与所述目标语言依存关系的依存相似度;
根据所述上下文相似度及所述依存相似度获得所述第一词汇与所述第二词汇的相似度。
优选的,所述获得源语言中第一词汇的上下文词汇及所述上下文词汇与所述第一词汇的源语言依存关系,包括:
根据可比较语料库中的语料构建所述第一词汇的依存关系树;
获得所述依存关系树中所述第一词汇的邻近节点并作为所述第一词汇的上下文词汇;
获得所述上下文词汇与所述第一词汇的源语言依存关系。
优选的,所述邻近节点包括:所述第一词汇的祖父节点、父节点、子节点和孙子节点。
优选的,所述依存关系树为采用确定性模型构造的。
优选的,所述获得所述源语言依存关系与所述目标语言依存关系的依存相似度,包括:
根据预先设置的依存关系映射表判断源语言依存关系和目标语言依存关系是否匹配;
根据匹配结果使用余弦相似度计算方法计算依存相似度。
本发明还提供了一种不同语言间词汇相似度的获取系统,包括:第一获得模块、第二获得模块和第三获得模块,
所述第一获得模块,用于获得源语言中第一词汇的上下文词汇及所述上下文词汇与所述第一词汇的源语言依存关系,获得目标语言中第二词汇的上下文词汇及所述上下文词汇与所述第二词汇的目标语言依存关系;
所述第二获得模块,用于获得所述第一词汇的上下文词汇与所述第二词汇的上下文词汇之间的上下文相似度,获得所述源语言依次关系与所述目标语言依存关系的依存相似度;
所述第三获得模块,用于根据所述上下文相似度及所述依存相似度获得所述第一词汇与所述第二词汇的相似度。
优选的,所述第一获得模块包括:关系树构建模块、上下文词汇选取模块和依存关系获得模块,
所述关系树构建模块,用于根据可比较语料库中的语料构建所述第一词汇的依存关系树;
所述上下文词汇选取模块,用于获得所述依存关系树中所述第一词汇的邻近节点并作为所述第一词汇的上下文词汇;
所述依存关系获得模块,用于获得所述上下文词汇与所述第一词汇的源语言依存关系。
优选的,所述邻近节点包括:所述第一词汇的祖父节点、父节点、子节点和孙子节点。
优选的,所述依存关系树为采用确定性模型构造的。
优选的,所述第二获得模块,包括:依存关系匹配模块和依存相似度计算模块,
所述依存关系匹配模块,用于根据预先设置的依存关系映射表判断源语言依存关系和目标语言依存关系是否匹配;
所述依存相似度计算模块,用于根据匹配结果使用余弦相似度计算方法计算依存相似度。
通过应用以上技术方案,本发明提供的一种不同语言间词汇相似度的获取方法及系统,可以根据源语言与目标语言中词汇的上下文词汇相似度和依存相似度为特征获得不同语言间词汇的相似度。由于本发明同时使用了上下文相似度和依存相似度对不同语言的词汇相似度进行评价,因此可以有效提高相似度的可靠性,提高翻译准确性。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110348222.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:双位自动绕弦机
- 下一篇:一种快速检测米非司酮的方法