[发明专利]一种对半结构化文档集进行文本挖掘的方法有效
申请号: | 02129045.8 | 申请日: | 2002-08-29 |
公开(公告)号: | CN1399228A | 公开(公告)日: | 2003-02-26 |
发明(设计)人: | 杨建武;陈晓鸥;吴於茜;万小军;王选;陈堃銶 | 申请(专利权)人: | 北京北大方正技术研究院有限公司;北京大学计算机科学技术研究所 |
主分类号: | G06N7/00 | 分类号: | G06N7/00;G06F17/21 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 | 代理人: | 田明,陈宇萱 |
地址: | 100085 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 对半 结构 文档 进行 文本 挖掘 方法 | ||
技术领域
本发明属于智能信息处理技术,具体涉及一种对半结构化文档集进行文本挖掘的方法。
背景技术
随着因特网的迅速发展,HTML、XML等半结构化文档大量出现,半结构化文档既不同于无结构的纯文本文档也不同于结构规整的关系数据库中的数据。如何从这样大量的文档中快速有效地获得人们所需要的文档以及如何发现这些文档中的隐含的规律便是人们所面临的问题。对半结构化文档集进行分析挖掘就是用来解决这些技术问题的方法。
目前,对半结构化文档的挖掘主要有两类方法:一类是将半结构化文档视为无结构的纯文本文档,采用传统的文本挖掘方法对半结构化文档进行文本挖掘;另一类是根据半结构化文档的新特征提出新的挖掘方法。在传统的文本挖掘中,将文档作为无结构的数据,以词条为单位进行处理,提出并被应用的文档模型包括:布尔模型、概率模型、向量空间模型。采用这些模型对半结构化文档集进行挖掘时,挖掘效果并不理想,因为半结构化文档的结构信息与链接信息没有被利用。2000年,D.Guillaume等人在文章《XML文档聚类》(DamienGuillaume and Fionn Murtagh.Clustering of XML documents.Computer PhysicsCommunications(127)2000.215~227)中公开了一种XML文档聚类技术,他们将XML文档中的元素作为节点,文档中XLINK作为边,构造拓扑图,通过给拓扑图的边赋予不同的权重,采用边剪切最小原理对拓扑图进行分割,从而实现对XML文档的聚类。2000年,Jeonghee Yi等人在美国波斯顿的数据挖掘国际会议上(Jeonghee Yi,Neel Sundaresan.A Classifier for Semi-StructuredDocuments.KDD 2000,Boston,MA USA)公开了一种利用半结构化文档的结构信息对文档向量空间模型进行扩展的向量模型,将文档元素用嵌套定义的向量进行描述,并给出了基于该扩展模型利用概率统计进行文档分类的算法。这些技术中,仅使用了半结构化文档的部分信息,没有充分利用半结构化文档中的信息以便获得好的文本挖掘效果,更没有形成统一的数学模型。
发明内容
针对现有技术中存在的问题,本发明的目的是利用半结构化文档的特点,提出一个数学模型,以及基于该模型对半结构化文档集进行文本挖掘的方法。本方法对半结构化文档中的字词信息、结构信息、链接信息采用统一的数学模型进行描述,利用这一方法对半结构化文档进行文本挖掘,可以大大提高挖掘效果。
为达到以上目的,本发明采用的技术方案是:一种基于结构链接向量模型对半结构化文档集进行文本挖掘的方法,包括以下步骤:
第一、读入文档,并对文档进行结构分析,分别判断文档各节点是否在结构树中已存在,如果结构树中还没有该节点信息,则需要给结构树添加该节点信息,并给节点一个唯一标识号;
第二、如果当前分析的节点包含子节点,则继续分析其第一个子节点,直到不包含子节点的数据节点;如果当前节点为数据节点,则对数据节点的文字段进行分词,并根据所处的节点位置,形成结构向量的一个分量;
第三、如果该文字段包含链接信息,则读入其链接资源,并获取其链接资源的结构向量;
第四、分析器继续找其下一个兄弟节点进行分析,如果已不存在下一个兄弟节点则向上层回溯,找其父节点的下一个兄弟节点,直到文档分析结束;
第五、将这一过程中的所有结构向量的分量组合成为该文档的结构向量,将链接资源的结构向量拼合成当前文档的链接向量,最后形成当前文档的结构链接资源,输入到挖掘模块,进行文本的挖掘分析。
本发明的效果在于针对了半结构化文档的特点,提出一种新的对半结构化文本挖掘的方法。该方法能有效地利用半结构化文档中的字词信息、结构信息与链接信息,并以统一的数学模型进行表示,从而大大提高了挖掘的效果,该方法可广泛应用于智能信息处理领域。
附图说明
图1是本发明的流程图。
图2是文档结构树示意图;
图3是抽象的文档结构树示意图;
具体实施方式
下面结合附图对本发明作进一步地描述。我们选用了中国百科术语数据库中的部分术语词条文档作为实施例数据,每个术语词条文档是一个半结构化XML文档。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京北大方正技术研究院有限公司;北京大学计算机科学技术研究所,未经北京北大方正技术研究院有限公司;北京大学计算机科学技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/02129045.8/2.html,转载请声明来源钻瓜专利网。