[发明专利]一种基于WEB文档的自动摘要方法在审
申请号: | 201410642510.9 | 申请日: | 2014-11-13 |
公开(公告)号: | CN104361081A | 公开(公告)日: | 2015-02-18 |
发明(设计)人: | 刘文婷 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林;汪庆朋 |
地址: | 211100 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于WEB文档的自动摘要方法,具体包括以下几个步骤:(1)利用Html文档对象模型标签树抓取WEB文档正文信息;(2)对抓取的WEB文档正文信息进行分块、分句;(3)对抓取的WEB文档正文信息,依据关键词库进行分词,分词后去除无意义的非关键词,并将网络新词及专业词语扩充到关键词库,对于网络上已停用的非关键词,扩充到非关键词库;(4)计算分词权值和分句、分块权值;(5)根据摘要精细程度,选择分块、分句的个数,最后从中选出权值最高的几个分块、分句形成文档摘要信息。本发明能够分析WEB文档信息,给用户提供简洁的、信息全面的页面内容的概要,以提高用户获取信息的效率。 | ||
搜索关键词: | 一种 基于 web 文档 自动 摘要 方法 | ||
【主权项】:
一种基于WEB文档的自动摘要方法,其特征在于,具体包括以下几个步骤:(1)利用Html文档对象模型标签树抓取WEB文档正文信息;(2)对抓取的WEB文档正文信息进行分块、分句;(3)对抓取的WEB文档正文信息,依据关键词库进行分词,分词后去除无意义的非关键词,并将网络新词及专业词语扩充到关键词库,对于网络上已停用的非关键词,扩充到非关键词库;(4)计算分词权值和分句、分块权值;(5)根据摘要精细程度,选择分块、分句的个数,最后从中选出权值最高的几个分块、分句形成文档摘要信息。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410642510.9/,转载请声明来源钻瓜专利网。