[发明专利]获取内容彼此相对应的多种语言文本的装置和方法有效

专利信息
申请号: 201010253505.0 申请日: 2010-08-12
公开(公告)号: CN102375824A 公开(公告)日: 2012-03-14
发明(设计)人: 孟遥;刘汝杰;于浩 申请(专利权)人: 富士通株式会社
主分类号: G06F17/30 分类号: G06F17/30;G06F17/28
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 王萍;李春晖
地址: 日本神*** 国省代码: 日本;JP
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 获取 内容 彼此 相对 多种 语言 文本 装置 方法
【说明书】:

技术领域

发明总体上涉及信息处理的技术领域,更具体地说,涉及一种获取内容彼此相对应的多种语言文本的装置和方法。

背景技术

伴随着信息技术的持续迅猛发展,信息的种类和内容等也极大地丰富起来。内容相同或者类似的信息往往会以多种不同语言的形式出现在不同的信息源(例如网站,数据库等)中。有些情况下需要汇集内容相同或者类似的多种语言的文本信息,以便进行后续的一些分析和处理,例如进行统计机器翻译,构建特定的数据库等等。在下面的描述中,为了简便起见,将内容相同或类似的多种语言的文本称为“内容彼此相对应的多种语言文本”或者简称为“多种语言对齐文本”,其中,“对齐”指这些文本的内容是相同的或类似的,即,内容彼此相对应。

现有的方法在获取多种语言对齐文本时通常使用关键词作为检索信息,这种方法存在一些缺陷。例如,如何选择关键词存在困难,哪些关键词可以代表文本的内容难以确定,这使得最终获得的多种语言对齐文本精确度不高,例如,可能由于关键词选择得不适当而导致获得的多种语言文本的内容彼此自检相似程度不高。此外,在获取不同语言的文本时,需要把关键词翻译为需获取的语言后才可能进行检索,如果没有需获取语言的翻译知识则不能获得与该语言对应的文本。这大大限制了获取多种语言对齐文本的能力,降低了文本处理的效率。

发明内容

鉴于现有技术中存在的上述问题,需要提供一种能够提高多种语言对齐文本获取的效率的技术方案。

为了解决上述现有技术中提及的至少一个问题,根据本发明的各实施例的装置和方法通过利用与待获取的多种语言对齐文本相关的关键图像来获取多种语言对齐文本。由于图像信息的选择和获得不需要多种语言的翻译知识,且多种语言对齐文本在内容方面往往与相同的图像具有相关性,因此这种解决方案可以改善最终获取的多种语言对齐文本的精确度,即,确保所获得的多种语言文本在内容上是高度相关的。此外,由于不必将关键字翻译为所需语言而进行检索,因此这种解决方案还能够提高获取多种语言对齐文本的效率。

本发明的一个实施例提供一种用于获取内容彼此相对应的多种语言文本的装置,包括:

关键图像生成单元,其被配置为生成与待获取的多种语言文本的内容相关的关键图像;和

文本获取单元,其被配置为确定预定的信息源中与关键图像相匹配的关键图像匹配信息,并根据预定规则从该关键图像匹配信息提取得到内容彼此相对应的多种语言文本。

本发明的另一个实施例还提供一种用于获取内容彼此相对应的多种语言文本的方法,包括步骤:

生成与待获取的多种语言文本的内容相关的关键图像;

确定预定的信息源中与所生成的关键图像相匹配的关键图像匹配信息;和

根据预定规则从该关键图像匹配信息中提取得到内容彼此相对应的多种语言文本。

本发明的又一个实施例提供一种翻译设备,其配备有如上所述的用于获取内容彼此相对应的多种语言文本的装置,以便获得将由所述翻译设备进行翻译的、内容彼此相对应的多种语言文本。

本发明的又一个实施例提供一种存储有机器可读取的指令代码的程序产品,该指令代码由机器读取并执行时,可执行如上所述的获取内容彼此相对应的多种语言文本的方法。

本发明的又一个实施例提供一种承载有如上所述的程序产品的存储介质。

附图说明

参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件不是成比例绘制的,而只是为了示出本发明的原理。为了便于示出和描述本发明的一些部分,附图中对应部分可能被放大,即,使其相对于在依据本发明实际制造的示例性装置中的其它部件变得更大。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。

图1是示出了根据本发明的一个实施例的获取内容彼此相对应的多种语言文本的装置的简化框图;

图2是示出了根据本发明的另一个实施例的获取内容彼此相对应的多种语言文本的装置的简化框图;

图3是示出了根据本发明的又一个实施例的获取内容彼此相对应的多种语言文本的装置的简化框图;

图4是示出了根据本发明的再一个实施例的获取内容彼此相对应的多种语言文本的装置的简化框图;

图5是示出了根据本发明的实施例的获取内容彼此相对应的多种语言文本的装置所执行的处理的一个具体示例的流程简图;

图6是示出了根据本发明的一个实施例的获取内容彼此相对应的多种语言文本的方法的流程简图;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201010253505.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top