[发明专利]一种汉英短语翻译对自动抽取与过滤方法有效
申请号: | 200810055782.3 | 申请日: | 2008-01-09 |
公开(公告)号: | CN101482860A | 公开(公告)日: | 2009-07-15 |
发明(设计)人: | 宗成庆;周玉 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/28 |
代理公司: | 中科专利商标代理有限责任公司 | 代理人: | 梁爱荣 |
地址: | 100080北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明汉英短语翻译对自动抽取与过滤方法,是对原始汉、英双语句对提取划分语块和对候选短语进行过滤的特征信息;根据不同的特征信息确定划分语块锚点,将原始汉、英句对划分为多个单语语块;利用原始汉、英双语句对的词对齐信息在语块内进行候选短语的抽取;利用候选短语的出现频率的特征信息来对生成的候选短语过滤,生成需要的短语对。本发明采用遍历语块内的短语抽取来取代现有遍历整句进行抽取的方法,对于空词的无限制扩展尤其有用,从而有效的解决了目前短语抽取量过大对于存储空间的要求,并且有效的过滤掉了很多噪音短语。本发明能够直接根据当前句对的固定词对齐生成多组短语,从而在满足精度的前提下提高了短语对的召回率。 | ||
搜索关键词: | 一种 汉英 短语 翻译 自动 抽取 过滤 方法 | ||
【主权项】:
1、一种汉英短语翻译对自动抽取与过滤方法,其特征在于,自动抽取与过滤的步骤包括:步骤1:对原始汉、英双语句对提取划分语块和对候选短语进行过滤的特征信息;步骤2:根据不同的特征信息确定划分语块锚点,将原始汉、英句对划分为多个单语语块;步骤3:利用原始汉、英双语句对的词对齐信息在语块内进行候选短语的抽取;步骤4:利用候选短语的出现频率的特征信息来对生成的候选短语进一步过滤,生成需要的短语对。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200810055782.3/,转载请声明来源钻瓜专利网。