[发明专利]一种确定双语语句对互译关系方法及系统有效
申请号: | 201611207663.6 | 申请日: | 2016-12-23 |
公开(公告)号: | CN106598959B | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 武英波 | 申请(专利权)人: | 北京金山办公软件股份有限公司;珠海金山办公软件有限公司 |
主分类号: | G06F40/42 | 分类号: | G06F40/42;G06F40/58 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100085 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 确定 双语 语句 关系 方法 系统 | ||
本发明公开一种确定双语语句对互译关系方法及系统,包括确定双语语句对的匹配特征值的步骤,再根据预先建立的训练分类模型,利用匹配特征值在互译关系中的权重对双语语句进行过滤分类,确定出该双语语句对是否为符合互译关系要求的双语语句对。这样本发明实施例所述确定双语语句对互译关系方法能够快速方便的处理数据量庞大的双语语料库。本发明利用训练分类模型的分类的思想将确定双语语句对互译关系问题转换为二元分类问题,使得双语语料库匹配特征的权值能够更加科学合理的确定,比现有经验的方法更具普适性,准确率和召回率也得到相应的提高。
技术领域
本发明涉及一种确定双语语句对互译关系方法,尤指一种确定双语语句对互译关系方法及系统。
背景技术
语料库资源对于自然语言处理研究的巨大价值已经得到越来越多的认可。特别是平行双语语料库,它是一种包含有两种语言互译信息的特殊的语料库。平行双语语料库能够提供两种语言之间丰富的匹配信息,在翻译知识的获取、双语词典的建立、基于统计或实例的机器翻译、词义消歧等领域有着重要的应用价值,尤其是高质量的语料库作用更为凸显。
语料库的建立主要有两种方法,一种是传统的手工收集的方法;另一种是通过对篇章级对齐的语料库通过计算机用自动句对齐方法获得。但这两种方法都不能保证获得高质量的语料库,总是存在着一些例如句对不匹配、包含乱码等错误。
消除错误句对最常用的方法是使用人工校对的方式对语料库进行检查。这种方法准确率虽然很高,但费时费力,尤其是当语料库非常巨大的时候,这种方法就不太实用。
借助计算机用自动的方法对语料库进行处理消除错误句对,其基本思路是设定一些判定句对匹配质量的特征,然后对每个特征进行打分,再依照经验,人工设定一个特征阈值进行判定。当双语语句对大于这个特征阈值时确定为好句对,当双语语句对小于或等于这个特征阈值时确定为坏句对。这种方法虽然从一定程度上实现了自动化,但缺乏一般性且准确率并不高。特征阈值是凭经验设定的,特征阈值往往可能是设定者根据仅有的几份语料库资源来确定的,不能涵盖大多数语料库的分布情况。而且当经验设定的特征阈值过低会导致准确率下降,过高时又导致召回率下降。
发明内容
本发明的目的是提供一种确定双语语句对互译关系方法及系统,用于提高语料库通用性、准确率和召回率。
为解决上述问题,本发明提供一种确定双语语句对互译关系方法,包括以下步骤:
获取所述双语语料库中的目标双语语句对,其中,所述目标双语语句对为第一语言的第一句子与第二语言的第二句子所组成的语句对,所述第一句子和第二句子之间具有待确定的互译关系;
对所述目标双语语句对中的第一语句和第二语句进行分析,并利用分析结果对所述第一语句和第二语句的匹配关系进行计算,得到所述目标双语语句对的匹配特征值;
利用分类模型,根据所述目标双语语句对的匹配特征值,对所述目标双语语句对进行过滤分类,确定所述目标双语语句对是否为符合互译关系要求的双语语句对;其中,所述分类模型是以训练双语语句对为训练对象训练得到的,所述训练以所述训练双语语句对的所述匹配特征值、所述训练双语语句对之间是否具有符合要求的互译关系为依据来进行,所述训练的训练结果包括所述匹配特征值在互译关系中的权重。
可选的,所述匹配特征值为句长比例特征值、互翻译性特征值以及机器翻译引擎的翻译特征值中的至少一个。
可选的,所述匹配特征值为句长比例特征值;
所述对目标双语语句对中的第一语句和第二语句进行分析,并利用分析结果对所述第一语句和第二语句的匹配关系进行计算,得到所述目标双语语句对的匹配特征值,具体包括:
分别分析得到所述第一语句和所述第二语句的单词或字符个数,计算所述第一语句的单词或字符个数与第二语句的单词或字符个数的比例关系,得到所述目标双语语句对的句长比例特征值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山办公软件股份有限公司;珠海金山办公软件有限公司,未经北京金山办公软件股份有限公司;珠海金山办公软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611207663.6/2.html,转载请声明来源钻瓜专利网。