[发明专利]从多语言网站构建多语言的对象层次结构的方法和系统有效
申请号: | 200910119016.3 | 申请日: | 2009-03-18 |
公开(公告)号: | CN101840402A | 公开(公告)日: | 2010-09-22 |
发明(设计)人: | 赵彧;李建强 | 申请(专利权)人: | 日电(中国)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 李晓冬;南霆 |
地址: | 100007 北京市东城区东四十*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语言 网站 构建 对象 层次 结构 方法 系统 | ||
技术领域
本发明一般地涉及信息抽取,更具体而言,涉及Web挖掘以及从多语言网站构建多语言的对象层次结构的方法和系统。
背景技术
当前,计算机已经成为现代生活必不可少的工具,它可以帮助用户找到感兴趣的信息,这在当今大量信息在Web上不断积累的因特网时代尤其明显。虽然计算机在进行诸如计算、存储或搜索之类的信息处理时速度很快,但其无法理解信息,这成为智能信息处理的主要障碍。为了解决这个问题,最近用于智能信息处理的语义相关研究变得非常流行。例如,在T.Berners-Lee等题为“The Semantic Web”(Scientific American,2001年5月,第28-37页)、Nigel Shabolt等题为“The Semantic Web Revisited”(IEEE Intelligent Systems 21(3),第96-101页,2006年5月、6月)以及E.Hyvonen(编者)的题为“Semantic Web Kick-Off in Finland-Vision,Technologies,Research,and Applications”(HIIT Publications,2002-001,Helsinki Institute for Information Technology(HIIT),Helsinki,Finland,第304页)的论文中都描述了的相关技术。它们的主要用途是帮助计算机理解信息的内容和含义。基于某些算术逻辑,例如描述逻辑和框架逻辑,根据人工智能(AI)传统规律的知识表示以及现在流行的Web信息处理技术,诸如万维网联盟(W3C)之类的标准制订组织正在积极制订XML(可扩展标记语言)、RDF(资源描述框架)和OWL(Web本体语言)等标准并且正在推广语义技术采用的规则语言,例如Web规则语言和规则标记语言。而且,很多研发商、企业和相关从业者也已经开始建立和采用相关工具集、产品,甚至实际应用来使得基于语义的智能信息利用成为可能。但是,为了使用计算机的强大计算能力和语义相关标准向Web用户提供不同的智能信息利用服务,领域知识在其中扮演非常关键的角色。因此,领域知识的建立成为一个急需解决的重要问题。同时,由于Web的普及,全世界被联系的更加紧密,怎样在使用各种不同语言的人们之间建立无缝的、顺畅的交流通道,因此建立的领域知识同样也需要包含各种语言的版本,并且在这些多语言版本之间建立有准确的对应关系。而如何建立存在对应关系的多语言的领域知识,则又是领域知识建立问题中的一个难题。
本体(Ontology)是一种用于形式化表示领域知识的文档。本体中定义了一个领域中的概念/对象以及概念/对象之间的关系。本体中定义的概念/对象之间的关系包含各种各样的关系,比如“属于”,“位于”等等。而在实际应用中最普遍的概念关系是“属于”或者“是....的子概念”这类包含关系,比如概念“个人计算机”是概念“计算机”的一个子概念。只定义有这种包含关系的轻量级本体称为层次结构(Hierarchy),层次结构在实际应用中常常体现为分类体系或者目录结构等等。
在已有的论文及专利中,有一些涉及到层次结构的抽取方法,但是绝大多数都只是从单语言的数据源中抽取单语言的层次结构。而对于多语言的层次结构抽取问题,已有工作不是很多。所谓多语言的层次结构指层次结构中的概念/对象拥有多语言的描述或者定义。下面介绍几篇现有的多语言层次结构相关的论文及专利。
H.-C.Yang、D.-W.Chen、C.-H.Lee在论文“A multilingual hierarchy mapping method based on GHSOM”(发表于ICICIC’08会议论文集)(下称“参考文献1”)中介绍了一种建立多语言层次结构的方法:收集一组多语言的平行文档(parallel documents,即同一个文档有不同的语言版本),并且手工将这些文档的平行关系(即哪些文档实际上是同一个文档的不同语言版本)标记出来。然后对这个文档集的每一个单语言子集进行层次结构抽取,抽取出来的即为多个单语言的层次结构。最后根据之前标注的文档的平行关系,为这些单语言的层次结构之间建立对应关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于日电(中国)有限公司,未经日电(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910119016.3/2.html,转载请声明来源钻瓜专利网。