[发明专利]获取内容彼此相对应的多种语言文本的装置和方法有效
申请号: | 201010253505.0 | 申请日: | 2010-08-12 |
公开(公告)号: | CN102375824A | 公开(公告)日: | 2012-03-14 |
发明(设计)人: | 孟遥;刘汝杰;于浩 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/28 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王萍;李春晖 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 获取 内容 彼此 相对 多种 语言 文本 装置 方法 | ||
技术领域
本发明总体上涉及信息处理的技术领域,更具体地说,涉及一种获取内容彼此相对应的多种语言文本的装置和方法。
背景技术
伴随着信息技术的持续迅猛发展,信息的种类和内容等也极大地丰富起来。内容相同或者类似的信息往往会以多种不同语言的形式出现在不同的信息源(例如网站,数据库等)中。有些情况下需要汇集内容相同或者类似的多种语言的文本信息,以便进行后续的一些分析和处理,例如进行统计机器翻译,构建特定的数据库等等。在下面的描述中,为了简便起见,将内容相同或类似的多种语言的文本称为“内容彼此相对应的多种语言文本”或者简称为“多种语言对齐文本”,其中,“对齐”指这些文本的内容是相同的或类似的,即,内容彼此相对应。
现有的方法在获取多种语言对齐文本时通常使用关键词作为检索信息,这种方法存在一些缺陷。例如,如何选择关键词存在困难,哪些关键词可以代表文本的内容难以确定,这使得最终获得的多种语言对齐文本精确度不高,例如,可能由于关键词选择得不适当而导致获得的多种语言文本的内容彼此自检相似程度不高。此外,在获取不同语言的文本时,需要把关键词翻译为需获取的语言后才可能进行检索,如果没有需获取语言的翻译知识则不能获得与该语言对应的文本。这大大限制了获取多种语言对齐文本的能力,降低了文本处理的效率。
发明内容
鉴于现有技术中存在的上述问题,需要提供一种能够提高多种语言对齐文本获取的效率的技术方案。
为了解决上述现有技术中提及的至少一个问题,根据本发明的各实施例的装置和方法通过利用与待获取的多种语言对齐文本相关的关键图像来获取多种语言对齐文本。由于图像信息的选择和获得不需要多种语言的翻译知识,且多种语言对齐文本在内容方面往往与相同的图像具有相关性,因此这种解决方案可以改善最终获取的多种语言对齐文本的精确度,即,确保所获得的多种语言文本在内容上是高度相关的。此外,由于不必将关键字翻译为所需语言而进行检索,因此这种解决方案还能够提高获取多种语言对齐文本的效率。
本发明的一个实施例提供一种用于获取内容彼此相对应的多种语言文本的装置,包括:
关键图像生成单元,其被配置为生成与待获取的多种语言文本的内容相关的关键图像;和
文本获取单元,其被配置为确定预定的信息源中与关键图像相匹配的关键图像匹配信息,并根据预定规则从该关键图像匹配信息提取得到内容彼此相对应的多种语言文本。
本发明的另一个实施例还提供一种用于获取内容彼此相对应的多种语言文本的方法,包括步骤:
生成与待获取的多种语言文本的内容相关的关键图像;
确定预定的信息源中与所生成的关键图像相匹配的关键图像匹配信息;和
根据预定规则从该关键图像匹配信息中提取得到内容彼此相对应的多种语言文本。
本发明的又一个实施例提供一种翻译设备,其配备有如上所述的用于获取内容彼此相对应的多种语言文本的装置,以便获得将由所述翻译设备进行翻译的、内容彼此相对应的多种语言文本。
本发明的又一个实施例提供一种存储有机器可读取的指令代码的程序产品,该指令代码由机器读取并执行时,可执行如上所述的获取内容彼此相对应的多种语言文本的方法。
本发明的又一个实施例提供一种承载有如上所述的程序产品的存储介质。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件不是成比例绘制的,而只是为了示出本发明的原理。为了便于示出和描述本发明的一些部分,附图中对应部分可能被放大,即,使其相对于在依据本发明实际制造的示例性装置中的其它部件变得更大。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。
图1是示出了根据本发明的一个实施例的获取内容彼此相对应的多种语言文本的装置的简化框图;
图2是示出了根据本发明的另一个实施例的获取内容彼此相对应的多种语言文本的装置的简化框图;
图3是示出了根据本发明的又一个实施例的获取内容彼此相对应的多种语言文本的装置的简化框图;
图4是示出了根据本发明的再一个实施例的获取内容彼此相对应的多种语言文本的装置的简化框图;
图5是示出了根据本发明的实施例的获取内容彼此相对应的多种语言文本的装置所执行的处理的一个具体示例的流程简图;
图6是示出了根据本发明的一个实施例的获取内容彼此相对应的多种语言文本的方法的流程简图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010253505.0/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法