[发明专利]一种对半结构化文档集进行文本挖掘的方法有效

申请号：	02129045.8	申请日：	2002-08-29
公开（公告）号：	CN1399228A	公开（公告）日：	2003-02-26
发明（设计）人：	杨建武;陈晓鸥;吴於茜;万小军;王选;陈堃銶	申请（专利权）人：	北京北大方正技术研究院有限公司;北京大学计算机科学技术研究所
主分类号：	G06N7/00	分类号：	G06N7/00;G06F17/21
代理公司：	北京英赛嘉华知识产权代理有限责任公司	代理人：	田明,陈宇萱
地址：	100085 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明属于智能信息处理技术，具体涉及一种对半结构化文档集进行文本挖掘的方法。本发明针对现有的文本挖掘处理半结构化文档集存在的挖掘效果差的缺陷，提出了一种针对半结构化文档的结构链接向量模型的挖掘方法。它能够综合利用半结构化文档中的字词信息、结构信息与链接信息，并以统一的数学模型进行表示。采用该模型对半结构化文档集进行文本挖掘，由于充分的利用了半结构化文档中的结构信息与链接信息，挖掘效果大大改进。本方法可广泛地应用于智能信息处理。
搜索关键词：	一种对半结构文档进行文本挖掘方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种对半结构化文档集进行文本挖掘的方法，包括以下步骤：第一、读入文档，并对文档进行结构分析，分别判断文档各节点是否在结构树中已存在，如果结构树中还没有该节点信息，则需要给结构树添加该节点信息，并给节点一个唯一标识号；第二、如果当前分析的节点包含子节点，则继续分析其第一个子节点，直到不包含子节点的数据节点；如果当前节点为数据节点，则对数据节点的文字段进行分词，并根据所处的节点位置，形成结构向量的一个分量；第三、如果该文字段包含链接信息，则读入其链接资源，并获取其链接资源的结构向量；第四、分析器继续找其下一个兄弟节点进行分析，如果已不存在下一个兄弟节点则向上层回溯，找其父节点的下一个兄弟节点，直到文档分析结束；第五、将这一过程中的所有结构向量的分量组合成为该文档的结构向量，将链接资源的结构向量拼合成当前文档的链接向量，最后形成当前文档的结构链接资源，输入到挖掘模块，进行文本的挖掘分析。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京北大方正技术研究院有限公司;北京大学计算机科学技术研究所，未经北京北大方正技术研究院有限公司;北京大学计算机科学技术研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/02129045.8/，转载请声明来源钻瓜专利网。

上一篇：一种血栓靶向性溶栓蛋白表达质粒及其构建
下一篇：利用太阳池从碳酸盐型卤水中结晶析出碳酸锂的方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N7-00 基于特定数学模式的计算机系统
G06N7-02 .采用模糊逻辑的
G06N7-08 .采用混沌模型或者非线性系统模型的
G06N7-04 ..物理实现
G06N7-06 ..在通用计算机上的仿真

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种对半结构化文档集进行文本挖掘的方法有效

专利文献下载