[发明专利]一种对半结构化文档集进行文本挖掘的方法有效
申请号: | 02129045.8 | 申请日: | 2002-08-29 |
公开(公告)号: | CN1399228A | 公开(公告)日: | 2003-02-26 |
发明(设计)人: | 杨建武;陈晓鸥;吴於茜;万小军;王选;陈堃銶 | 申请(专利权)人: | 北京北大方正技术研究院有限公司;北京大学计算机科学技术研究所 |
主分类号: | G06N7/00 | 分类号: | G06N7/00;G06F17/21 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 | 代理人: | 田明,陈宇萱 |
地址: | 100085 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于智能信息处理技术,具体涉及一种对半结构化文档集进行文本挖掘的方法。本发明针对现有的文本挖掘处理半结构化文档集存在的挖掘效果差的缺陷,提出了一种针对半结构化文档的结构链接向量模型的挖掘方法。它能够综合利用半结构化文档中的字词信息、结构信息与链接信息,并以统一的数学模型进行表示。采用该模型对半结构化文档集进行文本挖掘,由于充分的利用了半结构化文档中的结构信息与链接信息,挖掘效果大大改进。本方法可广泛地应用于智能信息处理。 | ||
搜索关键词: | 一种 对半 结构 文档 进行 文本 挖掘 方法 | ||
【主权项】:
1.一种对半结构化文档集进行文本挖掘的方法,包括以下步骤:第一、读入文档,并对文档进行结构分析,分别判断文档各节点是否在结构树中已存在,如果结构树中还没有该节点信息,则需要给结构树添加该节点信息,并给节点一个唯一标识号;第二、如果当前分析的节点包含子节点,则继续分析其第一个子节点,直到不包含子节点的数据节点;如果当前节点为数据节点,则对数据节点的文字段进行分词,并根据所处的节点位置,形成结构向量的一个分量;第三、如果该文字段包含链接信息,则读入其链接资源,并获取其链接资源的结构向量;第四、分析器继续找其下一个兄弟节点进行分析,如果已不存在下一个兄弟节点则向上层回溯,找其父节点的下一个兄弟节点,直到文档分析结束;第五、将这一过程中的所有结构向量的分量组合成为该文档的结构向量,将链接资源的结构向量拼合成当前文档的链接向量,最后形成当前文档的结构链接资源,输入到挖掘模块,进行文本的挖掘分析。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京北大方正技术研究院有限公司;北京大学计算机科学技术研究所,未经北京北大方正技术研究院有限公司;北京大学计算机科学技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/02129045.8/,转载请声明来源钻瓜专利网。