[发明专利]一种基于网页的互译翻译对抽取方法及装置有效
申请号: | 200810126468.X | 申请日: | 2008-07-03 |
公开(公告)号: | CN101308512A | 公开(公告)日: | 2008-11-19 |
发明(设计)人: | 高立琦;王海洲;曹浩 | 申请(专利权)人: | 北京金山软件有限公司;北京金山数字娱乐科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/28 |
代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 逯长明 |
地址: | 100083北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 网页 翻译 抽取 方法 装置 | ||
技术领域
本发明涉及词典软件技术领域,尤其涉及一种基于网页的互译翻译对抽取方法及装置。
背景技术
在计算机广泛使用的今天,为了满足人们学习外语的迫切需要,一种用于计算机的词典软件应运而生。词典软件收录了传统纸质双语词典的一般内容,为使用计算机的用户学习外语提供了便捷的条件。
在互联网飞速发展的今天,大量的外语新词以及新词组层出不穷,这些新词与新词组往往出现的时间较短,变化较快,生存周期不确定。而人们常常需要了解或者查询这些新词或者新词组,所以,词典软件还需要能够查询到用户希望得知的新词或者新词组的译文,并且及时收录这些新词或者新词组的互译翻译对。
通过现有词典软件技术,查询新词或者新词组包括以下步骤:当用户输入需要查询的新词或者新词组时,词典软件根据输入的新词或者新词组所使用的语言,获取包含输入的新词或者新词组的此种语言的文本(简便起见,称为第一种文本),以及与第一种文本互为译文的、用户想要得知的文本(称为第二种文本)。再从第一种文本中,获取包含需要查询的新词或者新词组的句子,从第二种文本中,获取包含与需要查询的新词或者新词组构成互译的词或者词组的句子。在获取的两种语言的句子中,对于新词或者新词组,计算可能构成互译的翻译对的概率。由于在计算概率的过程中,可能会出现如下情况:将互译翻译对判断错误,将不是需要查询的新词或者新词组的译文当作正确的,计算这样错误的一对互译翻译对出现的概率。但是,这种错误的情况概率较低,而判断正确的互译翻译对计算出的概率较高,将出现概率比较高的情况称为对齐,根据输入的新词或者新词组的对齐结果,抽取出两种不同语言的词或者词组作为互译翻译对。
现有技术的缺点是,在网页上,同时具有第一种文本与第二种文本的情况较为少见,因此,获取较为困难。除此之外,在计算概率的过程中,由于存在上述错误情况,导致得到的互译翻译对不准确,为了保证准确率,需要多次计算概率,造成计算数据量大,耗时的结果。
发明内容
有鉴于此,本发明实施例提供了一种基于网页的互译翻译对抽取方法及装置,以解决现有技术不便于查询与收录用户所需的新词或者新词组的互译翻译对。
一种基于网页的互译翻译对抽取方法,所述方法包括:
针对查询的词或者词组,从网页上提取包含所述词或者词组的文本;
从所述文本中提取至少一个包含两种语言的括号型文本对;
所述括号型文本对生成至少一个双语二元组,所述双语二元组为两种语言组成的二元组;
将所述至少一个双语二元组中所有相同的双语二元组进行合并,并求合并时各双语二元组的频度;
根据所述双语二元组的频度计算所述双语二元组的分值,计算公式为:S=f(C,E)=C(C,E)log(|C|+1),其中,所述C(C,E)表示某个双语二元组的频度,所述C(C,E)中的C表示文本C自动分词后的词序列中的词,E表示英文文本;所述|C|表示该双语二元组文本C的文本字数;
从根据分值进行排列的双语二元组中,抽取出所述互译翻译对。
优选地,所述括号型文本对具体为:中英文括号型文本对。
优选地,从所述文本中提取至少一个具有特殊标识的、包含两种语言的文本对的具体实现为:
A1、判断与连续中文字符相邻的后面的字符是否为左括号,且所述左括号后的字符为连续英文字符,如果是,则执行步骤A2,否则,返回步骤A1;
A2、判断与所述连续英文字符相邻的后面的字符是否是右括号,如果是,执行步骤A3,否则,返回步骤A1;
A3、提取所述连续中文字符以及所述连续英文字符构成的文本对。
优选地,所述从根据分值进行排列的双语二元组中,抽取出所述互译翻译对的具体实现为:
将所述双语二元组按照分值的降序进行排列;
从按照分值降序排列的双语二元组中,抽取分值大于预设门限值的双语二元组作为互译翻译对。
可选地,在所述文本对生成至少一个双语二元组之前,还包括:
将所述具有特殊标识的、包含两种语言的文本对进行规范。
可选地,在所述从根据分值进行排列的双语二元组中,抽取出所述互译翻译对之后,还包括:
将抽取出的所述互译翻译对还原至原网页格式。
可选地,在所述将抽取出的所述互译翻译对还原至原网页格式之后,还包括:
建立查询所述互译翻译对的索引。
可选地,在从所述文本中提取至少一个具有特殊标识的、包含两种语言的文本对之前,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山软件有限公司;北京金山数字娱乐科技有限公司,未经北京金山软件有限公司;北京金山数字娱乐科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810126468.X/2.html,转载请声明来源钻瓜专利网。