[发明专利]一种双语语料库过滤方法及系统无效
申请号: | 200710178309.X | 申请日: | 2007-11-28 |
公开(公告)号: | CN101201820A | 公开(公告)日: | 2008-06-18 |
发明(设计)人: | 王刚;高立琦;刘挺;王海洲 | 申请(专利权)人: | 北京金山软件有限公司;北京金山数字娱乐科技有限公司;哈尔滨工业大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 逯长明 |
地址: | 100083北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 双语 语料库 过滤 方法 系统 | ||
技术领域
本发明涉及一种语料库过滤方法,尤指一种双语语料库过滤方法及系统。
背景技术
语料库资源对于自然语言处理研究的巨大价值已经得到越来越多的认可。特别是平行双语语料库,它是一种包含有两种语言互译信息的特殊的语料库。平行双语语料库能够提供两种语言之间丰富的匹配信息,在翻译知识的获取、双语词典的建立、基于统计或实例的机器翻译、词义消歧等领域有着重要的应用价值,尤其是高质量的语料库作用更为凸显。
语料库的建立主要有两种方法,一种是传统的手工收集的方法;另一种是通过对篇章级对齐的语料库通过计算机用自动句对齐方法获得。但这两种方法都不能保证获得高质量的语料库,总是存在着一些例如句对不匹配、包含乱码等错误。
消除错误句对最常用的方法是使用人工校对的方式对语料库进行检查。这种方法准确率虽然很高,但费时费力,尤其是当语料库非常巨大的时候,这种方法就不太实用。
借助计算机用自动的方法对语料库进行处理消除错误句对,其基本思路是设定一些判定句对匹配质量的特征,然后对每个特征进行打分,再依照经验,人工设定一个特征阈值进行判定。当双语句对大于这个特征阈值时确定为好句对,当双语句对小于或等于这个特征阈值时确定为坏句对。这种方法虽然从一定程度上实现了自动化,但缺乏一般性且准确率并不高。特征阈值是凭经验设定的,特征阈值往往可能是设定者根据仅有的几份语料库资源来确定的,不能涵盖大多数语料库的分布情况。而且当经验设定的特征阈值过低会导致准确率下降,过高时又导致召回率下降。
发明内容
本发明的目的是提供一种英汉双语语料库的过滤方法及系统,用于提高语料库通用性、准确率和召回率。
为解决上述问题,本发明提供一种双语语料库过滤方法,包括以下步骤:
A、确定双语句对的句长比例特征值;
B、分别统计双语句对中不同词性的数量,分别计算所述词性的词与所述双语的互译词典中对应的词匹配的数量,根据不同词性的数量和所述匹配的数量确定互翻译性特征值;
C、根据预先利用训练集建立的分类模型,利用所述句长比例特征值和所述互翻译性特征值进行过滤分类。
优选地,所述预先利用训练集建立的分类模型具体包括:
C1、构建训练集;
C2、按照步骤A、B分别计算句长比例特征值和互翻译性特征值,利用分类器进行训练;
C3、确定分类模型。
优选地,所述训练集是按照双语语料库中一定比例的好坏句对组成的,同时标注每个句对的类别值,设定好句对为1,坏句对为-1。
优选地,所述步骤A之前进一步包括:确定数词匹配特征值;
所述确定数词匹配特征值具体为:将双语句对中的数词分别统一进行数字的转化,当双语句对中的数词转化后的数字匹配,确定数词匹配特征值为1,当所述数词不匹配,确定数词匹配特征值为0。
优选地,所述步骤A之前进一步包括:统一所述双语句对中的编码类型的预处理。
优选地,所述双语句具体为英汉双语句;统一所述双语句对中的编码类型的预处理具体包括:
11)将所述英汉双语句对进行全角转半角处理;
12)将繁体编码转换为简体国标编码;
13)排除乱码的处理。
优选地,所述双语句具体为英汉双语句;所述步骤A具体为:确定英汉双语句对中采用单词数或字符个数,用所述汉语句中的单词数或字符个数比上所述英双语句中采用单词数或字符个数,得出句长比例特征值。
优选地,所述双语句具体为英汉双语句;所述统计英汉双语句对中不同词性的数量,具体为统计英汉双语句对中名词、动词、形容词及介词的数量。
本发明还提供一种英汉双语语料库过滤系统,包括句长比例计算单元、互翻译性计算单元、训练分类模型单元以及分类单元;
所述句长比例计算单元,用于确定双语句对的句长比例特征值;
所述互翻译性计算单元,用于分别统计双语句对中不同词性的数量,分别计算所述词性的词与所述双语的互译词典中对应的词匹配的数量,根据不同词性的数量和所述匹配的数量确定互翻译性特征值;
所述训练分类模型单元,用于建立的训练分类模型;
所述分类单元,与所述句长比例计算单元、互翻译性计算单元和训练分类模型单元相连,用于根据预先利用训练集建立的分类模型,利用所述句长比例特征值和所述互翻译性特征值进行过滤分类。
优选地,所述训练分类模型单元按照双语语料库中一定比例的好坏句对组成的训练集,同时标注每个句对的类别值,设定好句对为1,坏句对为-1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山软件有限公司;北京金山数字娱乐科技有限公司;哈尔滨工业大学,未经北京金山软件有限公司;北京金山数字娱乐科技有限公司;哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710178309.X/2.html,转载请声明来源钻瓜专利网。