[发明专利]自动构建用于相关信息浏览的信息组织结构的方法和系统无效

专利信息
申请号: 200810177048.4 申请日: 2008-11-19
公开(公告)号: CN101739407A 公开(公告)日: 2010-06-16
发明(设计)人: 胡长建;赵凯;赵岷;邱立坤 申请(专利权)人: 日电(中国)有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京东方亿思知识产权代理有限责任公司 11258 代理人: 宋鹤;南霆
地址: 100007 北京市东城区东四十*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 自动 构建 用于 相关 信息 浏览 组织 结构 方法 系统
【说明书】:

技术领域

本发明一般地涉及信息组织,更具体而言,涉及用于自动构建用于相关信息浏览的信息组织结构的方法和系统。

背景技术

随着网络信息技术的飞速发展,市场上与数据挖掘相关的技术和工具越来越多,从而用户可能收集到大量其感兴趣的信息,而这些收集到的信息可能与某些特殊实体(例如查询项目)相关。

面对收集到的信息集合,用户可能存在两种基本需求。一是定位到他/她正在寻找的信息,二是浏览整个信息集合所覆盖的所有内容并执行更深入的分析。前者被称为“信息检索需求”,而后者被称为“信息组织需求”。

某些搜索引擎可以被应用到信息集合,并且可以作为一种合适的工具以用于满足信息检索需求。然而,对于信息组织需求,由搜索引擎所提供的搜索结果列表通常无法有效地满足,这是因为阅读整个列表和生成组织方法都需要人为参与,因此需要花费用户大量的时间和人力。为了帮助用户浏览收集到的信息集合,首先应该针对信息集合建立有效的组织结构。具有良好可读性的信息组织结构能够帮助用户更容易地理解信息对象并且更快速地导航到其感兴趣的信息,因此如何针对收集到的信息集合构建优质的组织结构已经成为本领域内的一个普遍问题。

通常,建立信息组织结构的传统做法是自动提取出信息集合中的信息元素,并根据信息集合中信息元素之间的关系来建立适当的结构。例如,2004年7月30日递交的题为“System and Method for CategoryOrganization”的美国专利申请US 2006/0026190A1提出了一种从收集到的文档集合中自动发现组织结构的方法。该美国申请的全部内容通过引用被结合于此,以用于所有目的。根据该方法,用户首先生成在文档集合中最频繁出现的前N(例如N=50)个词项的列表。然后,针对该列表生成一位矢量矩阵(大小为N×M)。矩阵中的每一行代表列表中的一个词项,其构成一长度为M的位矢量,其中M为文档集合中文档的数目。该位矢量中的每一位可以基于该词项在文档中的状态生成,如果该词项存在于文档中则为1,如果不存在则为0。在生成位矢量矩阵之后,将基于该矩阵生成所有位矢量之间的所有预测关系,并将得到的预测关系存储在词项预测矩阵中。所述词项预测矩阵是一个大小为N×N的矩阵。然后,基于该预测矩阵来确定肯定对列表和否定对列表,并通过预定过程最终构建出组织结构。例如,图1示出利用该方法所生成的信息组织结构示例。

参考图1所示示例,可以发现,根据现有技术所提供的方法生成的信息组织结构不具有良好的可读性。具体而言,在生成的信息组织结构上的各个信息对象类别难以被用户所理解。例如,图1所示结构上的各个类别“not-battery-will-charge”、“screen”、“screen-dim”等含义模糊,使得用户难以理解。另外,在某些情况下,所生成的类别树缺乏合理性。例如,在图1所示示例中总共生成两个并列的根节点,即“main”和“main2”,这为用户随后进行的信息导航带来困难。

发明内容

鉴于现有技术中存在的上述问题,研制了本发明。本发明提出一种针对实体相关信息自动构建信息组织结构的方法和系统,其相对于现有技术,大大提高了所生成的信息组织结构的可读性。

根据本发明第一方面,提出了一种用于自动构建信息组织结构的方法,该方法包括:输入目标实体;从信息对象集合中检索出与所述目标实体相关的信息对象;提取出与所述目标实体相关的多个主题;基于提取出的所述主题搜索现有结构资源,以识别出与所述目标实体相关的现有结构及其对应的实体;以及通过比较所述目标实体和每个所述识别出的实体,从所述识别出的现有结构中选择匹配结构,用于组织所述检索出的与所述目标实体相关的信息对象。

根据本发明第二方面,提出了一种用于自动构建信息组织结构的系统,该系统包括:输入装置,用于输入目标实体;信息对象检索装置,用于从信息对象集合中检索出与所述目标实体相关的信息对象;主题提取装置,用于提取出与所述目标实体相关的多个主题;现有结构识别装置,用于基于提取出的所述主题搜索现有结构资源,以识别出与目标实体相关的现有结构及其对应的实体;以及匹配结构获取装置,用于通过比较所述目标实体和每个所述识别出的实体,从所述识别出的现有结构中选择匹配结构,用于组织检索出的与所述目标实体相关的信息对象。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于日电(中国)有限公司,未经日电(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200810177048.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top