[发明专利]一种对双语语料库进行句子对齐的方法及装置无效
申请号: | 201110192171.5 | 申请日: | 2011-06-30 |
公开(公告)号: | CN102855263A | 公开(公告)日: | 2013-01-02 |
发明(设计)人: | 郑仲光;孟遥;于浩 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/28 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 朱胜;李春晖 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 双语 语料库 进行 句子 对齐 方法 装置 | ||
1.一种对双语语料库进行句子对齐的方法,其中所述双语语料库中的源语言语料和目标语言语料是块对齐的,所述方法包括:
针对源语言和目标语言的每个对齐块,利用从源块和目标块中提取出的源关键词列表和目标关键词列表生成候选翻译对列表,所述候选翻译对列表中的每个条目为包括源和目标关键词对的翻译对;
根据所述候选翻译对列表中的每个翻译对的翻译概率生成双语词典,所述双语词典中的每个条目包括源和目标关键词对及其翻译概率;
以所述双语词典中的每个条目中的源和目标关键词对为种子翻译对,并参考所述种子翻译对的上下文内容对所述双语词典进行扩展;
基于扩展后的双语词典,将源块中的源句子翻译成目标语言,并计算翻译结果与目标块中的目标句子之间的相似度;以及
依据所述相似度对源句子和目标句子进行对齐。
2.根据权利要求1所述的方法,还包括:
对所述候选翻译对列表中的翻译对进行过滤,具体为:对于源关键字sw的候选翻译集合{tw1,tw2,…,twn}中的每个候选翻译twi,只有sw也出现在所述twi的候选翻译集合中,且twi不在停用词列表中,才保留twi;或者,对于目标关键字tw的候选翻译集合{sw1,sw2,…,swn}中的每个候选翻译swi,只有tw也出现在所述swi的候选翻译集合中,且swi都不在停用词列表中,才保留swi。
3.根据权利要求1所述的方法,其中所述根据所述候选翻译对列表中的每个翻译对的翻译概率生成双语词典的步骤,包括:
通过以下公式计算所述候选翻译对列表中的每个翻译对的翻译概率:
Pt(swi,twj)=log(P(swi|twj)×P(twj|swi)),其中,所述translation_num(a)为a在b的候选翻译集合中的出现次数;word_frequency(b)是b的词频;swi为第i个源关键词,twi为第j个目标关键词;以及
选取所述翻译概率大于预设阈值的翻译对生成所述双语词典。
4.根据权利要求1所述的方法,其中,所述将源块中的源句子翻译成目标语言的步骤,具体包括:
通过查询所述双语词典得到源句子中各个源关键词对应的候选翻译集;
以及,所述计算翻译结果与目标块中的目标句子之间的相似度的处理步骤,具体包括:
按照所述源关键词与所述候选翻译之间的翻译概率,计算源句子与目标句子的句翻译分值;
计算锚点词分值;
根据源句子和目标句子的长度,计算句子长度惩罚值;以及
依据所述句翻译分值、所述锚点词分值和所述句子长度惩罚值,计算源句子与目标句子的相似度。
5.根据权利要求1所述的方法,其中计算源句子与目标句子的句翻译分值进一步包括:利用源关键词在源句子中的出现次数、目标关键词在目标句子中的出现次数以及源关键词和目标关键词的翻译概率计算所述句翻译分值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110192171.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:数据中心系统及数据处理方法
- 下一篇:上位机与电子阅读设备通信的方法和系统