[发明专利]平行语料的构建方法及装置有效
申请号: | 201510415139.7 | 申请日: | 2015-07-15 |
公开(公告)号: | CN105068997B | 公开(公告)日: | 2017-12-19 |
发明(设计)人: | 刘洋;董梅平;孙茂松 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/27 |
代理公司: | 北京德琦知识产权代理有限公司11018 | 代理人: | 周华霞,王丽琴 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了平行语料的构建方法及装置,其中,该方法包括确定平行语料库中各翻译词对的翻译概率,所述翻译词对包含源语言词及相应的目标语言词;将翻译词对及相应的翻译概率添加到翻译概率表中;根据翻译概率表对非平行语料库中的短语进行匹配,确定出匹配的短语对,作为新的平行短语对;将新的平行短语对添加到平行语料库中。本发明方案能够基于非平行语料训练出平行短语对,扩大平行语料的规模。 | ||
搜索关键词: | 平行 语料 构建 方法 装置 | ||
【主权项】:
一种平行语料的构建方法,其特征在于,该方法包括:确定平行语料库中各翻译词对的翻译概率,所述翻译词对包含源语言词及相应的目标语言词;将翻译词对及相应的翻译概率添加到翻译概率表中;根据翻译概率表对非平行语料库中的短语进行匹配,确定出匹配的短语对,作为新的平行短语对;将新的平行短语对添加到平行语料库中;非平行语料库中包含源语言短语集合和目标语言短语集合;所述根据翻译概率表对非平行语料库中的短语进行匹配包括:针对目标语言短语集合中的指定目标语言短语,根据翻译概率表确定出源语言短语集合中与指定目标短语具有最大匹配概率的源语言短语,判断最大匹配概率是否满足预设条件,如果是,则将确定的源语言短语与指定目标语言短语作为新的平行短语对;I(s)表示源语言短语集合的第s个源语言短语,J(t)表示目标语言短语集合的第t个目标语言短语;将各源语言短语与第t个目标语言短语进行匹配,最大匹配概率表示为采用如下公式计算得到:m~t=argmaxs∈{1,...,S}{p(J(t)|I(s))(I(s)+1)J(t)Πj=1J(t)Σi=0I(s)p(fj(t)|ei(s))}]]>其中,p(J(t)|I(s))表示I(s)与J(t)之间的短语长度概率,表示的是J(t)中第j个词与I(s)中第i个词的翻译概率。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510415139.7/,转载请声明来源钻瓜专利网。
- 上一篇:计算机辅助翻译方法
- 下一篇:多维度和多粒度情感分析方法