[发明专利]摘要提取方法以及摘要提取模块有效
申请号: | 200710109499.X | 申请日: | 2007-06-28 |
公开(公告)号: | CN101075260A | 公开(公告)日: | 2007-11-21 |
发明(设计)人: | 袁哲 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司 | 代理人: | 宋志强;麻海明 |
地址: | 518044广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 摘要 提取 方法 以及 模块 | ||
技术领域
本发明涉及根据关键词从文档中提取摘要的技术领域,特别是摘要提取方法和摘要提取模块。
背景技术
搜索引擎是目前互联网上常见的一种工具。通常,搜索引擎利用爬虫从网络上的站点或者本地计算机上获取数据,并形成多个文档。当用户使用搜索引擎进行搜索时,搜索引擎根据用户提交的关键词匹配到一个或多个文档。接着,搜索引擎中的摘要提取模块根据用户提交的关键词,从所匹配到的文档中提取与关键词相关的内容作为摘要,该摘要应该能够最大限度地包含与关键词相关的信息,然后搜索引擎通过页面将各个文档的摘要显示给用户。
目前,摘要提取模块在文档中通过关键词进行位置匹配,然后将文档中关键词周围的内容作为摘要。例如,当关键词为三个时,这些关键词在文档中出现了10次、12次、18次,现有的摘要提取模块将这30处关键词中的一部分关键词及其附近的内容作为摘要。
但是,当文档中有4个包括全部关键词的句子时,说明这4个句子与关键词非常相关,但是上述现有技术并不能得知这一情况,从而提取出这4个句子作为摘要的一部分。换言之,现有的摘要提取方法提取出的摘要与关键词的关联程度较低,并不能将文档中与关键词高度相关的内容体现出来。
发明内容
有鉴于此,本发明提出了一种摘要提取方法,用以将与关键词高度匹配的内容提取出来作为摘要。本发明还提出了一种摘要提取模块。
本发明提供了一种摘要提取方法,该方法包括:
在文档中以设定步长滑动窗口的过程中,从文档中提取与当前窗口对应的当前窗口内容,根据关键词计算当前窗口内容的权重,并保存当前窗口内容及对应的权重;
在滑动结束后,根据所保存的窗口内容及对应的权重,取出与较高权重对应的一个或多个窗口内容作为摘要。
所述设定步长为文档内容中的最小单位。
在根据关键词计算当前窗口内容的权重之前进一步包括判断当前窗口内容中是否包含关键词的步骤,并在是的情况下计算当前窗口内容的权重。
所述根据关键词计算当前窗口内容的权重的步骤包括:对每个关键词的权重求和作为当前窗口内容的权重。
该方法进一步包括:根据各关键词的重要性,为各关键词的权重分别乘以一个系数,其中所述系数随重要性的增加而增大;和/或,为当前窗口内容的权重乘以或加上一个系数,该系数在当前窗口内容中关键词出现的次序与输入的关键词的次序越接近时和/或在当前窗口内容中关键词之间的距离越短时越大。
在保存当前窗口内容及对应的权重之前进一步包括判断当前窗口内容的权重是否大于与当前窗口重叠的窗口内容的权重,并在是的情况下保存当前窗口内容及对应的权重。
所述取出与较高权重对应的一个或多个窗口内容作为摘要的步骤包括:根据权重对对应的窗口内容排序;根据摘要的大小,按照权重从大到小的顺序取出一个或多个窗口内容作为摘要。
本发明还提供了一种摘要提取模块,该模块包括存储单元、滑动单元、计算单元以及摘要形成单元,其中:
所述存储单元用于存储文档、窗口内容及对应的权重;
所述滑动单元用于在文档中以设定步长滑动窗口,并在滑动的过程中,从文档中提取与当前窗口对应的当前窗口内容提供给计算单元;
所述计算单元用于根据关键词计算当前窗口内容的权重,并在存储单元中保存当前窗口内容及对应的权重;
所述摘要形成单元用于在滑动结束后从所述存储单元取出与较高权重对应的一个或多个窗口内容作为摘要。
该摘要提取模块进一步包括:设置单元,用于为滑动单元设置窗口大小和滑动步长;和/或,排序模块,用于根据权重对存储单元中对应的窗口内容排序,以便所述摘要生成单元顺序取出与较高权重对应的一个或多个窗口内容作为摘要。
所述计算单元进一步用于判断当前窗口内容中是否包含关键词,并在是的情况下计算当前窗口内容的权重;和/或,进一步用于判断当前窗口内容的权重是否大于与当前窗口重叠的窗口内容的权重,并在是的情况下保存当前窗口内容及对应的权重。
从上述方案中可以看出,由于本发明在窗口滑动过程中根据关键词计算窗口内容的权重,最后取出与较高权重对应的一个或多个窗口内容作为摘要,从而取出能够最佳反应与关键词关系的摘要内容,将与用户输入的关键词最贴近的内容作为摘要提供给用户。
附图说明
图1为根据本发明实施例的摘要提取方法的流程示意图;
图2为根据本发明实施例的摘要提取系统的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,以下举实施例对本发明进一步详细说明。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710109499.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种以路由器接口地址实现端口重定向的方法及其系统
- 下一篇:一种枕垫