[发明专利]组织机构名汉英翻译方法在审
申请号: | 201710779839.3 | 申请日: | 2017-09-01 |
公开(公告)号: | CN108733658A | 公开(公告)日: | 2018-11-02 |
发明(设计)人: | 李斌;杨建华;汤诗华;钱丰收;马宁 | 申请(专利权)人: | 安徽广播电视大学 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/27 |
代理公司: | 苏州中合知识产权代理事务所(普通合伙) 32266 | 代理人: | 赵晓芳 |
地址: | 230041 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 组织机构 翻译 扩展查询 语块 准确度 翻译结果 概率计算 汉英翻译 抽取 集合 上下文无关 时间复杂度 翻译候选 翻译解码 构造查询 检索网络 贪心算法 语块翻译 资源抽取 对齐 检索词 可信度 构建 算法 译文 排序 | ||
1.一种组织机构名汉英翻译方法,其特征在于,方法步骤如下:
步骤1:获取组织机构名实体相应的扩展查询集合;
步骤2:采用包含扩展集合的新的检索词检索网络资源,获取混合双语摘要资源;
步骤3:从混合双语摘要资源抽取组织机构名实体翻译候选并按照可信度进行排序;
步骤4:得到翻译结果。
2.根据权利要求1所述的组织机构名汉英翻译方法,其特征在于,步骤1所述的扩展查询集合包含有:组织机构名实体翻译结果构造查询和共现主题词译文扩展查询,
所述组织机构名实体翻译结果构造查询的具体步骤如下:构建组织机构名翻译对;对所述组织机构名翻译对进行内部对齐;根据计算的翻译可信度进行语句块的抽取;生成基于所述语句块的组织机构名翻译模型;提取有效的信息结果,
所述共现主题词译文扩展查询方法步骤为:将源查询词提交搜索引擎,获取包含源查询的源语言摘要信息,然后利用TF-IDF从获得的源语言摘要信息抽取和源查询共现的主题词汇,获得主题词汇后,从双语词典中查找这些主题词汇的译文作为该方法最后的扩展集合。
3.根据权利要求2所述的组织机构名汉英翻译方法,其特征在于,所述内部对齐的步骤为:利用机器翻译中普遍采用的GIZA++词对齐工具对机构名的汉英翻译对进行了词对位处理,包括汉-英和英-汉两个方向,根据两个方向的对齐结果的交集获取对齐锚点;抽取候选字串;根据获取每一个对齐锚点分别向左右方向扩展直至下一个对齐锚点,当前对齐锚点加上扩展的字词作为候选的字串;计算双语单语串的翻译可信度;针对每一个命名实体翻译对,采用贪心算法获取最优对齐结果。
4.根据权利要求2所述的组织机构名汉英翻译方法,其特征在于,所述翻译可信度的计算方法是使用类似于TF-IDF方法对获得的翻译片段打分,对于给定的中文串o和英文串e翻译可信度按如下公式计算:
5.根据权利要求2所述的组织机构名汉英翻译方法,其特征在于,所述语句块抽取采用上下文无关的翻译解码算法,把组织机构名分为三个部分表示关键词部分、地域或范围修饰词部分和其他修饰词部分,首先将对齐后的组织机构名实体对拆分为三个部分,并对前两类部分保留其在整个命名实体中的推导位置信息,这样形成一系列的推导规则及相应的可信度,对于给定的命名实体的翻译过程包括:语块拆分,即将给定的组织机构名拆分为三个部分;实体推导翻译,翻译的顺序为地域或范围修饰词部分,关键字部分,其他修饰词部分,如果某类部分在训练语料中不存在,则采用传统机器翻译结合音译翻译方法翻译。
6.根据权利要求3所述的组织机构名汉英翻译方法,其特征在于,所述贪心算法获取最优对齐结果具体步骤如下:对于某一特定的命名实体对,提取该实体对包含的所有{c,e};按照{c,e}的score的降序排序,并保存在集合scoreArray中;从scoreArray中删除第一个元素{cc,ee},把该命名实体对按照{cc,ee}对位更新;删除scoreArray中所有的{cc,*}与{*,ee};重复score的降序排序直到scoreArray为空;得到最佳的命名实体对对位。
7.根据权利要求1所述的组织机构名汉英翻译方法,其特征在于,步骤3所述抽取组织机构名实体结合了频度变化度量和邻接信息来抽取候选翻译串,分别计算候选翻译串和待翻译实体之间的翻译相似度、共现信息、长度信息和音译信息,综合考虑多个特征得分,按照综合得分排序,输出翻译序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽广播电视大学,未经安徽广播电视大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710779839.3/1.html,转载请声明来源钻瓜专利网。