[发明专利]基于句法分析和层次模型的机器翻译系统和方法有效
申请号: | 201010144623.8 | 申请日: | 2010-04-06 |
公开(公告)号: | CN102214166A | 公开(公告)日: | 2011-10-12 |
发明(设计)人: | 熊张亮;何亮;万磊 | 申请(专利权)人: | 三星电子(中国)研发中心;三星电子株式会社 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 王青芝;郭鸿禧 |
地址: | 210008 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 句法 分析 层次 模型 机器翻译 系统 方法 | ||
1.一种基于句法分析和层次模型的机器翻译系统,包括:
词对齐模块,从外部接收双语句对齐文本,并从接收的双语对齐文本中获得词对齐信息;
短语提取模块,从词对齐模块接收词对齐信息,利用接收的词对齐信息进行短语提取,以获得短语对齐表;
词性句法标注模块,从外部接收已标注语料库和双语句对齐文本,从已标注语料库中提取有用的语言知识及其概率分布信息,并利用提取出的语言知识及其概率分布信息对双语句对齐文本中的双语或者单语进行词性及句法标注,产生句法标注语料库;
基于句法的非连续短语提取模块,从词性句法标注模块接收句法标注语料库,并基于句法标注语料库根据词对齐模块产生的对齐信息或短语提取模块产生的短语对齐表进行基于句法的非连续短语提取,以产生基于句法的非连续短语规则库;
基于非连续短语的翻译模块,从非连续短语提取模块接收基于句法的非连续短语规则库,并对待翻译句子在所述基于句法的非连续短语规则库中检索所有可能的短语、翻译及其概率,并输出翻译结果;
评分输出模块,从外部接收评估模型,基于评估模型对翻译结果进行评分,并输出得分最高的翻译结果。
2.如权利要求1所述的基于句法分析和层次模型的机器翻译系统,其特征在于所述机器翻译系统还包括:基于连续短语的翻译模块,从短语提取模块接收短语对齐表,对待翻译句子在短语对齐表中检索所有可能的短语、翻译及其概率,并将翻译结果输出到评分输出模块。
3.如权利要求1或2所述的基于句法分析和层次模型的机器翻译系统,其特征在于基于句法的非连续短语提取模块包括:非连续短语提取模块,根据词对齐模块产生的词对齐信息或短语提取模块产生的短语对齐表,将双语句对齐文本的每句中双语对齐的连续短语采用非终结符代替,获得非连续短语规则库;句法过滤模块,基于句法标注语料库对非连续短语提取模块产生的非连续短语规则库进行过滤,以产生基于句法的非连续短语规则库。
4.如权利要求1所述的基于句法分析和层次模型的机器翻译系统,其特征在于所述概率分布信息包括特定词语属于特定词类的概率、特定短语属于特定类短语的概率以及上下文概率。
5.如权利要求1所述的基于句法分析和层次模型的机器翻译系统,其特征在于所述短语对齐表包括源语言短语、目标语言短语和概率值。
6.一种基于句法分析和层次模型的机器翻译方法,包括以下步骤:
接收双语句对齐文本,并从接收的双语对齐文本中获得词对齐信息;
利用词对齐信息进行短语提取,以获得短语对齐表;
接收已标注语料库和双语句对齐文本,从已标注语料库中提取有用的语言知识及其概率分布信息,并利用提取出的语言知识及其概率分布信息对双语句对齐文本中的双语或者单语进行词性及句法标注,产生句法标注语料库;
基于句法标注语料库根据对齐信息或短语对齐表进行基于句法的非连续短语提取,以产生基于句法的非连续短语规则库;
对待翻译句子在所述基于句法的非连续短语规则库中检索所有可能的短语、翻译及其概率;
接收评估模型,基于评估模型对所述翻译进行评分,并输出得分最高的翻译结果。
7.如权利要求6所述的基于句法分析和层次模型的机器翻译方法,其特征在于所述机器翻译方法还包括以下步骤:对待翻译句子在短语对齐表中检索所有可能的短语、翻译及其概率。
8.如权利要求6或7所述的基于句法分析和层次模型的机器翻译方法,其特征在于产生基于句法的非连续短语规则库的步骤包括以下步骤:
根据词对齐信息或短语对齐表将双语句对齐文本的每句中双语对齐的连续短语采用非终结符代替,获得非连续短语规则库;
基于句法标注语料库对非连续短语规则库进行过滤,以产生基于句法的非连续短语规则库。
9.如权利要求6所述的基于句法分析和层次模型的机器翻译方法,其特征在于所述概率分布信息包括特定词语属于特定词类的概率、特定短语属于特定类短语的概率以及上下文概率。
10.如权利要求6所述的基于句法分析和层次模型的机器翻译方法,其特征在于所述短语对齐表包括源语言短语、目标语言短语和概率值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三星电子(中国)研发中心;三星电子株式会社,未经三星电子(中国)研发中心;三星电子株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010144623.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:镁球拍
- 下一篇:NEDD8活化酶抑制剂及化学治疗剂的投与