[发明专利]一种基于关键词的中英双语平行语料库构建方法有效
申请号: | 201410618941.1 | 申请日: | 2014-11-07 |
公开(公告)号: | CN104408078B | 公开(公告)日: | 2019-02-12 |
发明(设计)人: | 程维 | 申请(专利权)人: | 北京第二外国语学院 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9535;G06F17/27;G06F17/28 |
代理公司: | 北京知本村知识产权代理事务所 11039 | 代理人: | 周自清 |
地址: | 100020 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于关键词的中英双语平行语料库构建方法,该方法包括如下步骤:1)建设双语平行语料库;2)自动对齐;3)抽取关键词;4)建成基于关键词的双语平行语料库。本发明从网络上获取传统的平行语料库,然后采用自动对齐的方法从传统平行语料库中自动的获取对齐的词组对,同时采用各种相似度的计算方法,把提取出来的关键词对进行过滤,最终得到质量较好的基于关键词的平行语料库。实验证明,基于关键词的平行语料库要比传统的平行语料库能提高机器翻译的质量,从实验的BLEU值来看,在英到中的翻译中,能提高大约6.2%,而在中英翻译中能提高2.52%。 | ||
搜索关键词: | 一种 基于 关键词 双语 平行 语料库 构建 方法 | ||
【主权项】:
1.一种基于关键词的中英双语平行语料库构建方法,其特征在于,该方法包括如下步骤:1)建设双语平行语料库:本步骤中包括如下分步骤:(1)源网站搜集、(2)通过网络爬虫获取网站HTML、(3)对网站HTML进行解析、(4)对齐、(5)去除噪音、(6)得到平行语料库;2)自动对齐:利用开源工具GIZA++进行词语对齐,得到对齐文本,借助对齐文本的信息,抽取所有的词和词组作为关键词的一部分;3)抽取关键词:对词和词组进行过滤,过滤的方法为概率去除法或相似度去除法,所述概率去除法为将低概率的短语对齐对去除,所述相似度去除法为从书籍的双语词典中去和抽取出来的词组进行相似度去除,经过过滤后的词组加入到平行语料库中;4)构成基于关键词的双语平行语料库;在分步骤(4)中,对齐包括篇章对齐、断句和句子对齐;抽取关键词时去除概率低于0.0001的短语。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京第二外国语学院,未经北京第二外国语学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410618941.1/,转载请声明来源钻瓜专利网。
- 上一篇:能够检测多项指标的人体健康检测仪
- 下一篇:一种肌电针表面处理工艺