[发明专利]网页摘要抽取方法及其装置在审
申请号: | 201510089870.5 | 申请日: | 2015-02-27 |
公开(公告)号: | CN104679730A | 公开(公告)日: | 2015-06-03 |
发明(设计)人: | 刘庆朝;何文娟;周娜;冯艳伟 | 申请(专利权)人: | 刘秀磊 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京青松知识产权代理事务所(特殊普通合伙) 11384 | 代理人: | 郑青松 |
地址: | 100082 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 摘要 抽取 方法 及其 装置 | ||
1.一种网页摘要抽取方法,用于从通过输入用户选定的查询词所得到的与所述查询词相关的网页中抽取摘要,其特征在于,包括以下步骤:
(1)查询词预处理步骤
利用分词工具将查询词分词为若干个子查询词;
(2)文本预处理步骤
将预处理后的网页文本分成若干个句子,利用分词工具将每个句子进行分词并保存每个子查询词在网页文本中的分布信息;
(3)词频及词分布信息统计步骤
统计每个句子包含的子查询词的个数、包含的连续子查询词的个数和包含的子查询词的种类,并在句子对出现的子查询词进行标注以及标明具体为那个子查询词;
(4)评分步骤
基于步骤(3)的统计数据,利用评分工具对每个句子进行评分,计算每个句子的分数;
(5)排序和生成摘要步骤
按分数从高到低对句子进行排序,选取前K个句子来生成摘要,其中0≦K≦3。
2.根据权利要求1所述的网页摘要抽取方法,其特征在于,所述步骤(5)还包括:如果所述K个句子生成的摘要长度大于设定的摘要长度,则对超过所述摘要长度的句子内容进行删除,以及对摘要中出现的子查询词进行标注。
3.根据权利要求1所述的网页摘要抽取方法,其特征在于,所述每个子查询词在查询词中的分布信息包括每个子查询词在查询词中的位置和前后相邻信息,所述每个子查询词在网页文本中的分布信息包括每个子查询词在文本中的开始位置和结束位置信息。
4.根据权利要求1所述的网页摘要抽取方法,其特征在于,所述步骤(4)中的所述评分工具为BM25算法,具体为:对每个句子计算BM25贡献的分数以及对每句子计算词分布信息贡献的分数,加权BM25贡献的分数和词分布信息贡献的分数,得到每个句子的分数。
5.根据权利要求4所述的网页摘要抽取方法,其特征在于,采用公式score=kinds+(continutation+occur)/100.0来对每个句子计算BM25贡献的分数,其中kinds是句子中包含子查询词的种类;continuation是连续子查询词的个数;occur是句子中包含子查询词的个数。
6.根据权利要求1至4任一项所述的网页摘要抽取方法,其特征在于,所述分词工具为IKAnalyzer分词器、ICTCLAS、Ansj或结巴分词。
7.一种网页摘要抽取装置,其特征在于,包括:
查询词预处理单元,利用分词工具将查询词分词为若干个子查询词,统计每个子查询词出现的频率以及每个子查询词在查询词中的分布信息;
文本预处理单元,将文本分成若干个句子,利用分词工具将每个句子进行分词并保存每个词在网页文本中的分布信息,并统计句子个数和文本中词的个数;
词频及词分布信息单元,统计若干个句子中出现至少一个所述子查询词的句子数,统计某个所述子查询词在每个句子中出现的频率,以及统计每个句子中出现子查询词的种类,并在句子对出现的子查询词进行标注以及标明具体为那个子查询词;
评分单元,利用评分工具对每个句子进行评分,计算每个句子的分数;
排序单元,按分数从高到低对句子进行排序;以及
组织摘要单元,选取前K个句子来生成摘要,其中0≦K≦3。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于刘秀磊;,未经刘秀磊;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510089870.5/1.html,转载请声明来源钻瓜专利网。