[发明专利]一种知识网络的半自动生成方法有效

专利信息
申请号: 201010212264.5 申请日: 2010-06-29
公开(公告)号: CN102207946A 公开(公告)日: 2011-10-05
发明(设计)人: 陶鹏;张旭成;张伟伟;杜嘉伟 申请(专利权)人: 天津海量信息技术有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京汲智翼成知识产权代理事务所(普通合伙) 11381 代理人: 陈曦
地址: 300384 天津市华苑*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 知识 网络 半自动 生成 方法
【说明书】:

技术领域

本发明涉及一种面向海量文本数据的知识网络(Knowl edgeNetwork)半自动生成方法,属于文本信息处理技术领域。

背景技术

文本是最基本、最常用的信息载体。随着互联网的日益普及,文本信息迅速膨胀。例如,在Internet上每天有数十万的网页更新,数百万新的网页加入,使得Internet上的信息丰富而又复杂。另一方面,新的知识不断出现(比如“甲型H1N1流感”),旧的知识不断消失(比如“随身听”),现存知识不断变更涵义(比如“俯卧撑”)。因此,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前文本信息处理领域面临的一大挑战。

知识发现的任务就是从海量的文本数据中发现应当被系统收集的知识,然后对收集到的知识进行结构化处理,以便于日后的查询、修改。在实践中,人们发现使用树形结构管理的知识网络,可以有效地将知识组织起来。

知识网络的概念最早由瑞典工业界在20世纪90年代中期提出。一般认为,知识网络是在概念网络的基础上添加了权值,从而定量地表示用户对知识节点之间关系的一种结构。其中,知识节点可以在现有的目录搜索引擎中提取,具有独立性、继承性、变异性、多维性等特点。在用户使用知识网络的过程中,可以根据某个知识节点的出现次数、用户的反馈信息来更新知识网络。当用户和系统多次交互后,这个知识网络就逼近于用户对某个词义的真实理解。关于知识网络的进一步介绍,可以参考赵蓉英的著作《知识网络及其应用》(北京图书馆出版社2007年8月出版,ISBN:9787501335299)。

在申请号为200710000966.5的中国发明专利申请中,提出了一种相关信息的发布方法和装置。该方法包括以下步骤:收集互联网中符合预置条件的网络文本;计算得到网络文本相应的文本特征参数;比对特征参数,依次完成网络文本的归类;发布相应的相关信息。该方法能够在用户不关心当前浏览文本关键词的情况下,发布最准确的相关信息,以及能够准确的将相关信息发布至终端用户的虚拟空间,以满足互联网相关信息发布的发展需要。

另外,在申请号为200810079685.8的中国发明专利申请中,提出了一种基于数据挖掘技术的文本多精度表示方法。它利用数据挖掘技术从海量文本中发现重要的文本特征信息,这些特征信息是多层次、多精度的。利用这些特征形成文本的精确表示,计算机基于这种精确的文本表示进行文本检索、聚类和分类等处理,能产生更佳的效果。

但是,上述的专利申请只能在一定程度上解决海量文本数据的结构化问题,并不具备直接生成知识网络的能力。目前,人们要想生成知识网络,必须依赖于人脑的智力判断,因此所需时间较长,工作效率较低。特别是在面对海量文本数据的情况下,单纯依赖人力来生成知识网络很难满足用户的实际需求。

发明内容

本发明所要解决的技术问题在于提供一种知识网络的半自动生成方法。利用该方法可以让计算机自动从海量文本数据中发现、抽取、组织知识,从而快速形成知识网络。

为实现上述的发明目的,本发明采用下述的技术方案:

一种知识网络的半自动生成方法,基于文本标引系统实现,所述文本标引系统中包括单文本知识发现与抽取单元、多文本知识关系提取与聚类单元、知识网络生成与修正单元、知识网络应用单元以及知识库存储单元,其特征在于:

(1)首先形成一个知识网络内核;

(2)所述单文本知识发现与抽取单元接收非结构化的文档,通过分词和命名实体识别技术,从非机构化文本数据中找到需要关注的知识点,并抽取出来;

(3)在对多篇文档进行知识发现和抽取后,将新的知识放到相应位置上作为候选知识;

(4)知识网络生成与修正单元中的知识网络运营平台将候选知识提交给相应的专家系统进行关联性判断,将判断为“是”的候选知识作为确认知识,判断为“否”的候选知识被舍弃。

其中,在所述步骤(1)中,所述知识网络内核从半结构化的互联网数据中抽取获得或者由人工给出。

所述步骤(3)中,采取基于图论的聚类技术确定从文本中抽取的知识点的相互关系,并进一步通过多文本知识关系提取与聚类单元中的知识与TAG间关系数据模块对文本进行类别标记。

本发明所提供的知识网络半自动生成方法从一个小的知识网络内核开始,让计算机自动从互联网海量的数据中发现、抽取、组织知识,经专家系统进行确认后,能够迅速而有效地构造一个知识网络结构,从而使生成知识网络的过程摆脱了对人的智力判断的依赖。

附图说明

下面结合附图和具体实施方式对本发明作进一步的详细说明。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津海量信息技术有限公司,未经天津海量信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201010212264.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top