[发明专利]利用单词相关度的本体自动生成有效

专利信息
申请号: 200810165999.X 申请日: 2008-10-06
公开(公告)号: CN101430695A 公开(公告)日: 2009-05-13
发明(设计)人: 大卫·马尔维特;贾瓦哈拉·贾殷;斯特吉奥斯·斯特吉奥;雅尼斯·拉布罗 申请(专利权)人: 富士通株式会社
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京三友知识产权代理有限公司 代理人: 李 辉;吕俊刚
地址: 日本神奈*** 国省代码: 日本;JP
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 利用 单词 相关 本体 自动 生成
【说明书】:

技术领域

发明总体上涉及词法(lexigraphical)分析,更具体地说,涉及利用单词相关度(affinity)的本体(ontology)自动生成。 

背景技术

一组(corpus)数据可以包含大量信息,然而查找到相关信息却可能比较困难。关键词搜索是查找信息的主要技术。然而,在特定情况下关键词搜索在定位信息时并不有效。 

附图说明

图1例示了根据语言的单词之间的相关度来生成语言本体的系统的一个实施方式; 

图2例示了二元判决图的示例; 

图3例示了记录基本相关度的相关度矩阵的示例; 

图4例示了记录有向相关度的相关度矩阵的示例; 

图5例示了记录平均相关度的相关度矩阵的示例; 

图6例示了相关度图的示例;以及 

图7例示了可由图1所示的系统执行的生成语言本体的方法的一个实施方式。 

具体实施方式

概述 

在一个实施方式中,生成本体包括访问反向索引,该反向索引包含语言的多个单词的反向索引列表。与单词对应的反向索引列表指示包含所述单词的页面。单词对包括第一单词和第二单词。搜索第一反向索引列表和第二反向索引列表,其中,第一反向索引列表与第一单词对应,而第二反向索引列表与第二单词对应。根据第一反向索引列表和第二反向索引列表来计算第一单词与第二单词之间的相关度。相关度描述了第一单词与第二单词之间的定量关系。相关度记录在相关度矩阵中,并且报告所述相关度矩阵。 

示例实施方式 

在具体实施方式中,领域本体的创建及查询包括以下步骤: 

1、收集领域中的文档。在具体实施方式中,文档是词语的集合。文档包括可读文本,例如,一本《新约》。文档不需要以描述形式来包括文本,例如,文档可以包括用户输入的一组标注(tag),其单独并集中地描述了图像的内容。文档的集合可称为“领域集(domain corpus)”。 

2、识别该领域中感兴趣的词语(“词典词语”)。词语的示例包括单词(诸如“树”)、短语(诸如“图形算法”)、命名实体(诸如“纽约”)等。词语(或概念)可具有不同的形式。在特定情况下,不同的单词用于同一概念,例如,“kidney stones(肾结石)”和“kidney calculi(肾结石)”是指同一概念,即“kidney stones(肾结石)”。在其它情况下,词干可具有多种词形变化(inflected variant),例如,词干“tree”具有词形变化“tree”和“trees”。在具体实施方式中,同一词语的各种形式可处理为映射到同一词语。词典词语的任意适当形式可出现在文档中,但是具体词典词语不一定出现在任意文档中。 

识别词典词语的方法的示例包括利用用于特定领域的人为生成的词典,例如,医学词典。在具体实施方式中,可从文档集中的一组文本串自动地生成词典词语的列表。可以按照频度对这些串进行索引及分类,并且可选择其频度大于阈值的串。可使用其它合适的统计方法来确定词语。在具体实施方式中,“单词”可与“词语”及“词典词语”互换。 

3、计算给定的共现上下文(co-occurrence context)中的词典词语的共现数量。如果两个词语中的每一个在同一共现上下文中至少出现一次,  则这两个词语共现。共现上下文的示例包括文档和段落。 

4、创建包括该领域本体的有向加权图(directed weighted graph)。该有向加权图包括作为节点的词典词语以及作为边的权重的相关度。“有向加权图”可以用作可由任意合适的数据结构(例如,矩阵、二元判决图、或二元判决图的集合等)表示的同一信息的实际表示。 

5、应用查询该有向加权图的过程。给定一个或更多个词典词语作为输入,该过程输出与输入的词典词语有关的一个或更多个词典词语。例如,该过程可针对一个或更多个输入词语输出一个或更多个词语的具有最高的差有向相关度(如下所述)的分类列表。在这种情况下,就该本体涉及的领域而言,该输出包括与输入词语更密切相关的词语。 

可使用任意适当的相关度定义。在具体实施方式中,可使用以下定义: 

1、基本相关度 

a.词语A与B之间的基本相关度(A)可定义为包括词语A和B这两者的共现上下文的数量与包括词语A或B的共现上下文的数量的比值: 

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200810165999.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top