[发明专利]网页摘要抽取方法及其装置在审
申请号: | 201510089870.5 | 申请日: | 2015-02-27 |
公开(公告)号: | CN104679730A | 公开(公告)日: | 2015-06-03 |
发明(设计)人: | 刘庆朝;何文娟;周娜;冯艳伟 | 申请(专利权)人: | 刘秀磊 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京青松知识产权代理事务所(特殊普通合伙) 11384 | 代理人: | 郑青松 |
地址: | 100082 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种网页摘要抽取方法,用于从通过输入用户选定的查询词所得到的与所述查询词相关的网页中抽取摘要。本发明的网页摘要抽取方法能够准确地从网页中提取摘要,使用户快速确定网页是否相关,是否进一步查看,从而解决了用户快速查找相关文档的困扰。本发明还提供一种网页摘要抽取装置。 | ||
搜索关键词: | 网页 摘要 抽取 方法 及其 装置 | ||
【主权项】:
一种网页摘要抽取方法,用于从通过输入用户选定的查询词所得到的与所述查询词相关的网页中抽取摘要,其特征在于,包括以下步骤:(1)查询词预处理步骤利用分词工具将查询词分词为若干个子查询词;(2)文本预处理步骤将预处理后的网页文本分成若干个句子,利用分词工具将每个句子进行分词并保存每个子查询词在网页文本中的分布信息;(3)词频及词分布信息统计步骤统计每个句子包含的子查询词的个数、包含的连续子查询词的个数和包含的子查询词的种类,并在句子对出现的子查询词进行标注以及标明具体为那个子查询词;(4)评分步骤基于步骤(3)的统计数据,利用评分工具对每个句子进行评分,计算每个句子的分数;(5)排序和生成摘要步骤按分数从高到低对句子进行排序,选取前K个句子来生成摘要,其中0≦K≦3。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于刘秀磊;,未经刘秀磊;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510089870.5/,转载请声明来源钻瓜专利网。