[发明专利]构建词典的方法和系统无效

专利信息
申请号: 200810222426.6 申请日: 2008-09-16
公开(公告)号: CN101425087A 公开(公告)日: 2009-05-06
发明(设计)人: 李志恒;李新娟;包塔;邓毅;周枫;周杨 申请(专利权)人: 网易有道信息技术(北京)有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京集佳知识产权代理有限公司 代理人: 逯长明
地址: 100084北京市海淀区中关村*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 构建 词典 方法 系统
【权利要求书】:

1、一种构建词典的方法,其特征在于,包括:

从海量网页中抽取符合预定模式的外文词汇及该外文词汇之前和/或之后的中文文字;

将抽取的所述外文词汇前后的中文文字中出现次数达到或超过预定次数的相同中文文字确定为所述外文词汇的中文释义;

为所述中文与对应释义的外文建立索引。

2、如权利要求1所述的方法,其特征在于,所述符合预定模式的外文词汇,包括:

置于括号内的外文词汇;或,

符合预定格式的中文表达。

3、如权利要求1所述的方法,其特征在于,所述建立索引之后,还包括:

在接收到查询请求时,根据建立的索引查找查询词对应的译文。4、如权利要求1所述的方法,其特征在于,所述为所述中文与对应释义的外文建立索引之前,该方法还包括:

从海量网页中抽取中文和外文的双语词句列表。

5、如权利要求1或4所述的方法,其特征在于,所述抽取过程中,还包括:

根据互联网页上有关词或词组的常见的错误情况滤除或修正候选翻译中错误的翻译,将同一个中文词对应的不同外文翻译归并到一起,并将同一中外文词、词组所对应的雷同的翻译合并。

6、如权利要求4所述的方法,其特征在于,所述抽取中文和外文的双语词句列表过程中,还包括:

对于抽取的双语词句列表中的句子,根据互联网页上有关句子的常见的错误情况滤除或修正候选翻译中错误的翻译,将同一个中文句子对应的不同外文翻译归并到一起,并将同一中外文句子的雷同的翻译合并。

7、如权利要求1、4、5、6中任一项所述的方法,其特征在于,所述为所述中文与对应释义的外文建立索引之前,该方法还包括:

从海量网页中抽取出中外文交替出现的段落,并从这些中外文交替的段落中判断出互为翻译关系,从互为翻译关系的段落中解析出相互对应的句子。

8、如权利要求7所述的方法,其特征在于,所述抽取出中外文交替出现的段落过程中,该方法还包括:

对于抽取的双语词句列表中的句子,根据互联网页上有关句子的常见的错误情况滤除或修正候选翻译中错误的翻译,将同一个中文句子对应的不同外文翻译归并到一起,并将同一中外文句子的雷同的翻译合并。

9、一种构建词典的系统,其特征在于,包括:

双语片段抽取单元,用于从海量网页中抽取符合预定模式的外文词汇及该外文词汇之前和/或之后的中文文字;

释义确定单元,用于将抽取的所述外文词汇前后的中文文字中出现次数达到或超过预定次数的中文文字确定为所述外文词汇的中文释义;

索引建立单元,用于为所述中文与对应释义的外文建立索引。

10、如权利要求9所述的系统,其特征在于,所述符合预定模式的外文词汇,包括:

置于括号内的外文词汇;或,

符合预定格式的中文表达。

11、如权利要求9所述的系统,其特征在于,所述系统还包括:

查询单元,用于在接收到查询请求时,根据建立的索引查找查询词对应的译文。

12、如权利要求9所述的系统,其特征在于,所述系统还包括:

双语词句列表收取单元,用于从海量网页中抽取中文和外文的双语词句列表;

相应地,所述索引建立单元,用于为所述中文与对应释义的外文建立索引。

13、如权利要求9或12所述的系统,其特征在于,所述系统还包括:

词汇优化单元,用于根据互联网页上有关词或词组的常见的错误情况滤除或修正候选翻译中错误的翻译,并把同一个中文词对应的不同外文翻译归并到一起,再把同一中外文词、词组所对应的雷同的翻译合并。

14、如权利要求12所述的系统,其特征在于,所述系统还包括:

句对优化单元,对于抽取的双语词句列表中的句子,根据互联网页上有关句子的常见的错误情况滤除或修正候选翻译中错误的翻译,将同一个中文句子对应的不同外文翻译归并到一起,并将同一中外文句子的雷同的翻译合并。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易有道信息技术(北京)有限公司,未经网易有道信息技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200810222426.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top