[发明专利]用于网络数据集的呈现和可视导航的系统和方法在审

申请号：	201380066496.6	申请日：	2013-10-18
公开（公告）号：	CN105009112A	公开（公告）日：	2015-10-28
发明（设计）人：	本·帕默;多丽斯·施皮尔特黑纳;迈克尔·洛伊德	申请（专利权）人：	专利分析控股私人有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京德琦知识产权代理有限公司 11018	代理人：	柴德海;康泉
地址：	澳大利***	国省代码：	澳大利亚;AU
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于网络数据呈现可视导航系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及用于对包括一个或多个相关数据记录网络的数据集进行可视导航的系统和方法，具体地但不仅仅涉及用于知识产权数据集(如专利数据库)的互动可视检索的系统和方法。

背景技术

随着廉价且强大的计算系统的出现以及电子数据库的发展，在与技术、工业、商业和社会几乎所有领域相关的数据收集和电子存储方面已经出现了激增。通常在许多情况下、以“纪录”的形式保留数据，“记录”通常包括描述现实世界对象或事件的一系列属性。例如，一种数据记录是健康记录，健康记录保留与特定人的属性有关的信息，如该特定人的身高、性别、体重、现在的和过去的医疗情况、已进行的治疗等等。另一种数据记录是描述科学出版物的数据记录，其中多个这样的数据记录可以形成集合并且被保留在例如出版物数据库中。这样的出版物数据库可以包括与出版物相关的属性，如每个出版物的作者、对其它出版物的引用或参考、每个出版物的出版日期和主题。

另一种结构化的数据集是描述知识产权的数据，如专利数据记录或商标数据记录。许多国家具有如下法律制度：知识产权的所有者或创造者可以登记其对发明、标志和/或设计的权利。这样的记录是高度结构化的且包括大量属性，如提交日期、所有者或申请者的名称、发明人或作者的名字、与本发明的历史以及特定知识产权局分类代码(如IPC(国际专利分类)代码)相关的数据以及描述知识产权性质的其它属性。

由于专利数据实际上是创新活动的记录，所以可以从检索专利数据中获得价值，以提取商业上有用的信息。然而，随着每年提交的专利申请的数量不断增长，由于技术发展的速度不断增加以及覆盖发明的更强的法律权利意识，现在的专利数据库包含数百万或数千万计的记录，因此每个专利数据记录包含庞大而复杂的一组属性。因此，用于检索这样的数据库的传统方法(如通过查找标题、摘要或申请人详情属性中的关键字)可能精度不够，容易出现错误并且会返回庞大且不便的数据集。

一种用于选择、分析及可视化相关数据库记录的方法鉴于这些记录中至少一些记录之间或之中存在的关系来利用网络范式(network paradigm)。例如，美国公开2010/0106752(EcKardt(艾卡特)等三人)描述了一种用于通过提供记录的网络图形表现来理解相关数据库记录或文献集的网络可视化系统和方法。然而，已认识到分析和图形表现大型且复杂的数据集(如‘752号公开的图13中描绘的超过1000个专利文献的表现)中固有的困难。艾卡特在段落[0177]中指出，难以确定从专利文献的这张网络图中理解到什么，在该网络图中节点表示文献并且链接是引用联系。

此外，如果不寻求专业协助以及详细地研究每个专利说明书，则难以判断与其它专利及已授权的发明相比，特定专利或由该专利保护的底层发明的相对价值或“优点”。因此，传统检索方法努力充分提供与专利的相对优点或价值相关的任何复杂的或高层次的信息。

在一项提议中，美国专利7,716,226(Barney(巴尼))描述了一种在统计地评级、评估及分析知识产权资产(包括专利、专利申请及相关文献)的背景中，概率地量化及可视化两个或两个以上在引用上或在背景上相关的数据对象之间的相关性的方法和系统。然而，巴尼依靠专利文献的概率分析，特别地利用多变量回归来提供可视地图。该方法具有固有缺点，缺点包括与概率技术中使用的求平均关联的固有不精确性。

发明内容

本文公开的是一种确定多个数据记录对目标数据记录的相似性分数的计算机实现的方法。该方法包括以下步骤：

·从数据记录集中标识所述目标数据记录；

·标识所述数据集中与所述目标记录具有初级连接和次级连接的数据记录以形成数据记录地图，上述记录是初级数据记录和次级数据记录；

·对于所述次级数据记录中的至少一个次级数据记录，确定重要性值和相关性值，其中所述重要性值基于所述次级数据记录和所述数据地图中的其它数据记录以及所述数据集中的其它数据记录之间的互连，并且所述相关性值基于所述次级数据记录和所述数据地图中的其它数据记录之间的互连；以及

·将所述重要性值和所述相关性值相结合以提供所述相似性分数，其中所述相似性分数允许用户标识公开相似概念的次级数据记录。

在一些形式中，通过以下步骤确定所述至少一个次级数据记录中每个次级数据记录的所述重要性值：

·计算所述数据地图中所述次级数据记录和连接至所述次级数据记录的所述初级数据记录之间的连接强度；

·确定所连接的初级数据记录中每个初级数据记录的数据记录强度；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于专利分析控股私人有限公司，未经专利分析控股私人有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】