[发明专利]一种双语最大名词组块分离-融合的翻译方法有效
申请号: | 201310593728.5 | 申请日: | 2013-11-21 |
公开(公告)号: | CN103942192A | 公开(公告)日: | 2014-07-23 |
发明(设计)人: | 黄河燕;史树敏;李业刚 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种双语最大名词组块分离-融合的翻译方法,属于计算机科学中的自然语言处理技术领域。在基于树的统计机器翻译模型的中引入了BMNCs分离-融合翻译的思想,把句子翻译转化为句子中所有双语最大名词组块的翻译和句子骨架的翻译。本方法降低了翻译难度和翻译时间,提升了翻译准确率,尤其适合在即时翻译中针对较长句子的翻译。 | ||
搜索关键词: | 一种 双语 最大 词组 分离 融合 翻译 方法 | ||
【主权项】:
一种双语最大名词组块分离‑融合的翻译方法,其特征在于包括以下步骤: 步骤一、对待翻译的句子进行BMNC识别,并将所有BMNC抽取出来组成BMNC集合;同时,在原来的句子中用BMNC的中心词的词性来代替BMNC整体,形成句子骨架;具体过程如下: 首先,定义一个面向机器翻译的实际需要的双语最大名词组块BMNC概念,它不仅是一个完整的句法单元和语义单元,在句子中有稳定的外部修饰结构,还具备双语可互译性和双语识别的一致性;在单语中,它可能被其它名词短语包含,但是它不能被可互译的其它名词短语包含; 从句法树库中随机抽取2000句,提取BMNC并标注其中心词,作为训练语料;通过机器学习的方法,训练BMNC及其中心词的识别模型; 然后,利用识别模型,对待翻译的句子进行BMNC及其中心词识别标注,提取句子中所有BMNC并组成BMNC集合——BMNCs,同时,将句子中的BMNC用其中心词词性代替形成句子骨架; 步骤二、建立BMNC和句子骨架的翻译模型,翻译经步骤一得到的BMNCs和句子骨架; 为翻译步骤一中得到的BMNCs和句子骨架,首先训练BMNC和句子骨架的翻译模型,其流程具体如下: 在句子级别对齐的语料中抽取对齐的BMNC,建立BMNC平行语料库;首先,分别对汉英句子进行BMNC粗识别,然后对BMNC进行识别对齐修正,最后通过一个贪心搜索,得到句对最优的BMNC对集合; 平行语料中提取到的所有BMNC对构成了BMNC平行语料;把每个句子中的BMNC用对应的中心词的词性代替,组成句子骨架平行语料,由此将句子级对齐的平行语料分解为BMNC平行语料和句子骨架平行语料,并在这两个语料上分别训练BMNC翻译模型和句子骨架翻译模型; 利用上述BMNC翻译模型,对步骤一得到的BMNCs进行翻译,得到英语BMNCs的n‑best输出;利用句子骨架翻译模型翻译待翻译句子的句子骨架,得到句子骨架的英语n‑best输出;所述n‑best是指最优的前n个结果; 步骤三、融合英语的BMNCs和句子骨架,形成翻译结果; 把经步骤二得到的英语端BMNCs的n‑best输出和英语端句子骨架的n‑best输出进行交叉组合,产生待翻译句子的一系列翻译候选;利用线性加权模型, 融合n‑gram特征和句子长度惩罚特征为每个翻译候选打分,把翻译任务转换为一个排序任务,选取得分最高的翻译假设作为最优句子翻译结果;所述n‑gram是指n元语法模型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310593728.5/,转载请声明来源钻瓜专利网。
- 上一篇:一种信息处理方法及主题信息库制作系统
- 下一篇:一种纸制包装箱