[发明专利]一种对双语语料库进行句子对齐的方法及装置无效

申请号：	201110192171.5	申请日：	2011-06-30
公开（公告）号：	CN102855263A	公开（公告）日：	2013-01-02
发明（设计）人：	郑仲光;孟遥;于浩	申请（专利权）人：	富士通株式会社
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/28
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	朱胜;李春晖
地址：	日本神***	国省代码：	日本;JP
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种双语语料库进行句子对齐方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种对双语语料库进行句子对齐的方法，其中所述双语语料库中的源语言语料和目标语言语料是块对齐的，所述方法包括：

针对源语言和目标语言的每个对齐块，利用从源块和目标块中提取出的源关键词列表和目标关键词列表生成候选翻译对列表，所述候选翻译对列表中的每个条目为包括源和目标关键词对的翻译对；

根据所述候选翻译对列表中的每个翻译对的翻译概率生成双语词典，所述双语词典中的每个条目包括源和目标关键词对及其翻译概率；

以所述双语词典中的每个条目中的源和目标关键词对为种子翻译对，并参考所述种子翻译对的上下文内容对所述双语词典进行扩展；

基于扩展后的双语词典，将源块中的源句子翻译成目标语言，并计算翻译结果与目标块中的目标句子之间的相似度；以及

依据所述相似度对源句子和目标句子进行对齐。

2.根据权利要求1所述的方法，还包括：

对所述候选翻译对列表中的翻译对进行过滤，具体为：对于源关键字sw的候选翻译集合{tw₁，tw₂，…，tw_n}中的每个候选翻译tw_i，只有sw也出现在所述tw_i的候选翻译集合中，且tw_i不在停用词列表中，才保留tw_i；或者，对于目标关键字tw的候选翻译集合{sw₁，sw₂，…，sw_n}中的每个候选翻译sw_i，只有tw也出现在所述sw_i的候选翻译集合中，且sw_i都不在停用词列表中，才保留sw_i。