[发明专利]网络信息抽取及处理的方法及系统无效

专利信息
申请号: 03109338.8 申请日: 2003-04-04
公开(公告)号: CN1536483A 公开(公告)日: 2004-10-13
发明(设计)人: 陈文中 申请(专利权)人: 陈文中
主分类号: G06F9/445 分类号: G06F9/445;G06F17/00;G06F17/27;G06F17/30
代理公司: 中国商标专利事务所有限公司 代理人: 吴平
地址: 香港屯*** 国省代码: 中国香港;81
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种网络信息抽取及处理的方法及系统,采用了人工智能与自然语言处理技术,能够自动的从各个指定的站点下载每天最新的新闻信息,并且进行内容抽取,分类,自动摘要精简全文,且将全文储存,并进行文本索引以便日后进行高效的全文检索。
搜索关键词: 网络 信息 抽取 处理 方法 系统
【主权项】:
1、一种网络信息抽取及处理的方法,包括如下步骤:一.新闻下载步骤:包括如下步骤url分析步骤:系统指定一定的url,程序能够自动的从这些url上分析出新闻的最终内容url,而不用对每个新闻网站做一个特定的url模块,采用给予url统计以及对url进行相关性分析的方法,在一个含有最终内容新闻连接地址的网页,进行统计和分析,找到有用的最终url地址;自动抓取新闻网页步骤:将目标地址中的链接页面所有符合url格式的页面进行下载;垃圾过滤步骤:实现对抓下来的新闻内容网页进行垃圾过滤,除去其中的html标签以及一些无用的中文,最终得到中文向量信息;信息提取步骤:对以上得到的中文向量进行信息提取,前期实现能够提取标题和内容,后期实现对web新闻内容进行特征提取,相关性分析,文档分类,排重处理等等;二.自动生成摘要步骤:进行分词、特征词分析、句子重要分析、生成摘要,并输出摘要;三.生成全文索引步骤:对所有已经下载并且完成内容抽取的新闻内容文件进行全文索引,包括如下步骤:传入步骤,传入下一个文件名;索引判断步骤,判断是否已经索引过,是则回到传入步骤,否则进入下一步;过滤步骤,过滤其中所有垃圾及无意义的词;匹配分词步骤,进行词典匹配分词;ngram分词步骤,进行ngram分词,以免词典分词有未能完全分出来的词;更新步骤,对每一个词都更新相关的索引文件,包括关键字和日期,类别索引;四.层次文本分类步骤:是把一个新的文档归入一个给定的层次类别里的一个类里分类步骤;每份文档仅仅只能被归入一个类里,在层次类别里的每个类与许多词汇和术语相关有较大权重一个给定的术语在层次中的一个层次上,而stopword在另一个层次上.被摘录的文档(财政的新闻)的特征词在这个系统中被当作术语和字汇使用;包括层次训练步骤和文档分类步骤;层次训练是文档分类的预处理,在分类之前,先对类别的层次进行训练;训练的功能是要收集来自训练文档的一组特征(特征词),然后为每个节点(类别)在层次中分配特征权重,在文档分类算法中,特征权重是用来为一份新的文档计算类别等级;文件分类步骤是在被训练阶级组织之后,现在一份文件能被分类到一个类别,文件分类方法从根类别开始,根类别的所有子类别被分配等级,它由下面等式计算: R cd = Σ f N fd W fc c是一个类别,d是一份文件,f是一个在D中的特征,Rcd是c的等级,Nfd是f出现在d中的次数,Wfc是f在类别c中的权重;如果所有子类别的等级都是零的或负的,d被留在根类别;如果在子类别中有确定的正的最大的等级的类别,则该类别被选择;如果该类别是一个叶类别,文件d被分到该类别;如果被选择的类别不是叶类别,则在该类别的子类别中继续进行计算;因此,文件d能分到叶类别或内部类别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陈文中,未经陈文中许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/03109338.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top