[发明专利]一种关键词翻译统一的方法有效
申请号: | 201310633857.2 | 申请日: | 2013-11-30 |
公开(公告)号: | CN103678287A | 公开(公告)日: | 2014-03-26 |
发明(设计)人: | 江潮 | 申请(专利权)人: | 武汉传神信息技术有限公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 430073 湖北省武汉市东湖开发区光谷软件*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 关键词 翻译 统一 方法 | ||
1.一种关键词翻译统一的方法,其特征在于,包括:
从待译文档中确定关键词,找到该关键词对应的所有翻译项;
在所述待译文档中截取包含有所述关键词的部分文本,作为第一子文档;
根据每个所述翻译项,截取包含该翻译项的部分文本的原文,分别作为第二子文档;
将所有所述翻译项按照语义聚类处理,得到若干语义相似类;
分别对每个所述语义相似类中的所述翻译项所对应的所述第二子文档与所述第一子文档进行文档相似度计算;
计算得到的所述文档相似度最大的所述语义相似类所对应的翻译项作为所述关键词的候选翻译项。
2.根据权利要求1所述的方法,其特征在于,所述将所有所述翻译项按照语义分类的过程,包括:
提取所有所述翻译项中的第一翻译项,将所述第一翻译项作为第一语义相似类,计算所述第一语义相似类与所述所有翻译项中的下一个未归入到任一语义相似类中的翻译项的语义相似度,若结果大于预定阈值将该翻译项加入到第一语义相似类,重复该过程,直到未归入到任一语义相似类中的翻译项都与第一语义相似类进行了语义相似度比较,过程结束,得到最终的第一语义相似类;
提取除所述第一语义相似类之外的所有所述翻译项中的任一项,将该所述翻译项作为第二语义相似类,重复上步的翻译项聚类过程,得到最终第二语义相似类;
重复该过程,直至每个所述翻译项聚类完成。
3.根据权利要求1所述的方法,其特征在于,所述从待译文档中确定关键词的过程包括:
提取并扫描所述待译文档,按照词性对所述待译文档进行分词处理,并剔除其中的停用词,得到若干各不相同的候选词;
对所述候选词进行去噪处理,得到若干所述关键词。
4.根据权利要求3所述的方法,其特征在于,在所述剔除其中的停用词的同时,至少保留以下之一词性的词语作为所述候选词:形容词、副词、动词、名词、成语、简称略语和习用语。
5.根据权利要求1所述的方法,其特征在于,在所述找到该关键词对应的若干翻译项之前,还包括:
确定所述待译文档的源语言和目标语言;
在翻译参考库中提取与所述待译文档的源语言和目标语言均一致的已翻译文档的原文和译文。
6.根据权利要求5所述的方法,其特征在于,所述找到该关键词对应的若干翻译项的过程包括:
以所述关键词为检索词,在所述提取的所述已翻译文档的所述原文中进行检索匹配,在所述已翻译文档中的译文中找到所述关键词映射的若干所述翻译项。
7.根据权利要求6所述的方法,其特征在于,截取获得所述子文档,以单句、多句、段落或固定字数为获取单位。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉传神信息技术有限公司,未经武汉传神信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310633857.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种人机识别的方法和系统
- 下一篇:基于线性方程组的可验证随机数生成的方法