[发明专利]一种对半结构化文档集进行文本挖掘的方法有效

申请号：	02129045.8	申请日：	2002-08-29
公开（公告）号：	CN1399228A	公开（公告）日：	2003-02-26
发明（设计）人：	杨建武;陈晓鸥;吴於茜;万小军;王选;陈堃銶	申请（专利权）人：	北京北大方正技术研究院有限公司;北京大学计算机科学技术研究所
主分类号：	G06N7/00	分类号：	G06N7/00;G06F17/21
代理公司：	北京英赛嘉华知识产权代理有限责任公司	代理人：	田明,陈宇萱
地址：	100085 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种对半结构文档进行文本挖掘方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于智能信息处理技术，具体涉及一种对半结构化文档集进行文本挖掘的方法。

背景技术

随着因特网的迅速发展，HTML、XML等半结构化文档大量出现，半结构化文档既不同于无结构的纯文本文档也不同于结构规整的关系数据库中的数据。如何从这样大量的文档中快速有效地获得人们所需要的文档以及如何发现这些文档中的隐含的规律便是人们所面临的问题。对半结构化文档集进行分析挖掘就是用来解决这些技术问题的方法。

目前，对半结构化文档的挖掘主要有两类方法：一类是将半结构化文档视为无结构的纯文本文档，采用传统的文本挖掘方法对半结构化文档进行文本挖掘；另一类是根据半结构化文档的新特征提出新的挖掘方法。在传统的文本挖掘中，将文档作为无结构的数据，以词条为单位进行处理，提出并被应用的文档模型包括：布尔模型、概率模型、向量空间模型。采用这些模型对半结构化文档集进行挖掘时，挖掘效果并不理想，因为半结构化文档的结构信息与链接信息没有被利用。2000年，D.Guillaume等人在文章《XML文档聚类》(DamienGuillaume and Fionn Murtagh.Clustering of XML documents.Computer PhysicsCommunications(127)2000.215～227)中公开了一种XML文档聚类技术，他们将XML文档中的元素作为节点，文档中XLINK作为边，构造拓扑图，通过给拓扑图的边赋予不同的权重，采用边剪切最小原理对拓扑图进行分割，从而实现对XML文档的聚类。2000年，Jeonghee Yi等人在美国波斯顿的数据挖掘国际会议上(Jeonghee Yi，Neel Sundaresan.A Classifier for Semi-StructuredDocuments.KDD 2000，Boston，MA USA)公开了一种利用半结构化文档的结构信息对文档向量空间模型进行扩展的向量模型，将文档元素用嵌套定义的向量进行描述，并给出了基于该扩展模型利用概率统计进行文档分类的算法。这些技术中，仅使用了半结构化文档的部分信息，没有充分利用半结构化文档中的信息以便获得好的文本挖掘效果，更没有形成统一的数学模型。

发明内容

针对现有技术中存在的问题，本发明的目的是利用半结构化文档的特点，提出一个数学模型，以及基于该模型对半结构化文档集进行文本挖掘的方法。本方法对半结构化文档中的字词信息、结构信息、链接信息采用统一的数学模型进行描述，利用这一方法对半结构化文档进行文本挖掘，可以大大提高挖掘效果。

为达到以上目的，本发明采用的技术方案是：一种基于结构链接向量模型对半结构化文档集进行文本挖掘的方法，包括以下步骤：

第一、读入文档，并对文档进行结构分析，分别判断文档各节点是否在结构树中已存在，如果结构树中还没有该节点信息，则需要给结构树添加该节点信息，并给节点一个唯一标识号；

第二、如果当前分析的节点包含子节点，则继续分析其第一个子节点，直到不包含子节点的数据节点；如果当前节点为数据节点，则对数据节点的文字段进行分词，并根据所处的节点位置，形成结构向量的一个分量；

第三、如果该文字段包含链接信息，则读入其链接资源，并获取其链接资源的结构向量；

第四、分析器继续找其下一个兄弟节点进行分析，如果已不存在下一个兄弟节点则向上层回溯，找其父节点的下一个兄弟节点，直到文档分析结束；

第五、将这一过程中的所有结构向量的分量组合成为该文档的结构向量，将链接资源的结构向量拼合成当前文档的链接向量，最后形成当前文档的结构链接资源，输入到挖掘模块，进行文本的挖掘分析。

本发明的效果在于针对了半结构化文档的特点，提出一种新的对半结构化文本挖掘的方法。该方法能有效地利用半结构化文档中的字词信息、结构信息与链接信息，并以统一的数学模型进行表示，从而大大提高了挖掘的效果，该方法可广泛应用于智能信息处理领域。

附图说明

图1是本发明的流程图。

图2是文档结构树示意图；

图3是抽象的文档结构树示意图；

具体实施方式

下面结合附图对本发明作进一步地描述。我们选用了中国百科术语数据库中的部分术语词条文档作为实施例数据，每个术语词条文档是一个半结构化XML文档。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京北大方正技术研究院有限公司;北京大学计算机科学技术研究所，未经北京北大方正技术研究院有限公司;北京大学计算机科学技术研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/02129045.8/2.html，转载请声明来源钻瓜专利网。

上一篇：一种血栓靶向性溶栓蛋白表达质粒及其构建
下一篇：利用太阳池从碳酸盐型卤水中结晶析出碳酸锂的方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N7-00 基于特定数学模式的计算机系统
G06N7-02 .采用模糊逻辑的
G06N7-08 .采用混沌模型或者非线性系统模型的
G06N7-04 ..物理实现
G06N7-06 ..在通用计算机上的仿真

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种对半结构化文档集进行文本挖掘的方法有效

专利文献下载