[发明专利]一种不同语言间词汇相似度的获取方法及系统有效
申请号: | 201110348222.9 | 申请日: | 2011-11-07 |
公开(公告)号: | CN102567306A | 公开(公告)日: | 2012-07-11 |
发明(设计)人: | 钱龙华;孔芳;周国栋 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/28 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 常亮;李辰 |
地址: | 215123 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 不同 语言 词汇 相似 获取 方法 系统 | ||
1.一种不同语言间词汇相似度的获取方法,其特征在于,包括:
获得源语言中第一词汇的上下文词汇及所述上下文词汇与所述第一词汇的源语言依存关系,获得目标语言中第二词汇的上下文词汇及所述上下文词汇与所述第二词汇的目标语言依存关系;
获得所述第一词汇的上下文词汇与所述第二词汇的上下文词汇之间的上下文相似度,获得所述源语言依存关系与所述目标语言依存关系的依存相似度;
根据所述上下文相似度及所述依存相似度获得所述第一词汇与所述第二词汇的相似度。
2.根据权利要求1所述的方法,其特征在于,所述获得源语言中第一词汇的上下文词汇及所述上下文词汇与所述第一词汇的源语言依存关系,包括:
根据可比较语料库中的语料构建所述第一词汇的依存关系树;
获得所述依存关系树中所述第一词汇的邻近节点并作为所述第一词汇的上下文词汇;
获得所述上下文词汇与所述第一词汇的源语言依存关系。
3.根据权利要求2所述的方法,其特征在于,所述邻近节点包括:所述第一词汇的祖父节点、父节点、子节点和孙子节点。
4.根据权利要求2所述的方法,其特征在于,所述依存关系树为采用确定性模型构造的。
5.根据权利要求1所述的方法,其特征在于,所述获得所述源语言依存关系与所述目标语言依存关系的依存相似度,包括:
根据预先设置的依存关系映射表判断源语言依存关系和目标语言依存关系是否匹配;
根据匹配结果使用余弦相似度计算方法计算依存相似度。
6.一种不同语言间词汇相似度的获取系统,其特征在于,包括:第一获得模块、第二获得模块和第三获得模块,
所述第一获得模块,用于获得源语言中第一词汇的上下文词汇及所述上下文词汇与所述第一词汇的源语言依存关系,获得目标语言中第二词汇的上下文词汇及所述上下文词汇与所述第二词汇的目标语言依存关系;
所述第二获得模块,用于获得所述第一词汇的上下文词汇与所述第二词汇的上下文词汇之间的上下文相似度,获得所述源语言依次关系与所述目标语言依存关系的依存相似度;
所述第三获得模块,用于根据所述上下文相似度及所述依存相似度获得所述第一词汇与所述第二词汇的相似度。
7.根据权利要求6所述的系统,其特征在于,所述第一获得模块包括:关系树构建模块、上下文词汇选取模块和依存关系获得模块,
所述关系树构建模块,用于根据可比较语料库中的语料构建所述第一词汇的依存关系树;
所述上下文词汇选取模块,用于获得所述依存关系树中所述第一词汇的邻近节点并作为所述第一词汇的上下文词汇;
所述依存关系获得模块,用于获得所述上下文词汇与所述第一词汇的源语言依存关系。
8.根据权利要求7所述的系统,其特征在于,所述邻近节点包括:所述第一词汇的祖父节点、父节点、子节点和孙子节点。
9.根据权利要求7所述的系统,其特征在于,所述依存关系树为采用确定性模型构造的。
10.根据权利要求6所述的系统,其特征在于,所述第二获得模块,包括:依存关系匹配模块和依存相似度计算模块,
所述依存关系匹配模块,用于根据预先设置的依存关系映射表判断源语言依存关系和目标语言依存关系是否匹配;
所述依存相似度计算模块,用于根据匹配结果使用余弦相似度计算方法计算依存相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110348222.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:双位自动绕弦机
- 下一篇:一种快速检测米非司酮的方法