[发明专利]摘要提取方法以及摘要提取模块有效
申请号: | 200710109499.X | 申请日: | 2007-06-28 |
公开(公告)号: | CN101075260A | 公开(公告)日: | 2007-11-21 |
发明(设计)人: | 袁哲 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司 | 代理人: | 宋志强;麻海明 |
地址: | 518044广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 摘要 提取 方法 以及 模块 | ||
1、一种摘要提取方法,其特征在于,该方法包括:
在文档中以设定步长滑动窗口的过程中,从文档中提取与当前窗口对应的当前窗口内容,根据关键词计算当前窗口内容的权重,并保存当前窗口内容及对应的权重;
在滑动结束后,根据所保存的窗口内容及对应的权重,取出与较高权重对应的一个或多个窗口内容作为摘要。
2、根据权利要求1所述的方法,其特征在于,所述设定步长为文档内容中的最小单位。
3、根据权利要求1所述的方法,其特征在于,在根据关键词计算当前窗口内容的权重之前进一步包括判断当前窗口内容中是否包含关键词的步骤,并在是的情况下计算当前窗口内容的权重。
4、根据权利要求1所述的方法,其特征在于,所述根据关键词计算当前窗口内容的权重的步骤包括:对每个关键词的权重求和作为当前窗口内容的权重。
5、根据权利要求4所述的方法,其特征在于,该方法进一步包括:
根据各关键词的重要性,为各关键词的权重分别乘以一个系数,其中所述系数随重要性的增加而增大;和/或,
为当前窗口内容的权重乘以或加上一个系数,该系数在当前窗口内容中关键词出现的次序与输入的关键词的次序越接近时和/或在当前窗口内容中关键词之间的距离越短时越大。
6、根据权利要求1所述的方法,其特征在于,在保存当前窗口内容及对应的权重之前进一步包括判断当前窗口内容的权重是否大于与当前窗口重叠的窗口内容的权重,并在是的情况下保存当前窗口内容及对应的权重。
7、根据权利要求1所述的方法,其特征在于,所述取出与较高权重对应的一个或多个窗口内容作为摘要的步骤包括:
根据权重对对应的窗口内容排序;
根据摘要的大小,按照权重从大到小的顺序取出一个或多个窗口内容作为摘要。
8、一种摘要提取模块,其特征在于,该摘要提取模块包括存储单元、滑动单元、计算单元以及摘要形成单元,其中:
所述存储单元用于存储文档、窗口内容及对应的权重;
所述滑动单元用于在文档中以设定步长滑动窗口,并在滑动的过程中,从文档中提取与当前窗口对应的当前窗口内容提供给计算单元;
所述计算单元用于根据关键词计算当前窗口内容的权重,并在存储单元中保存当前窗口内容及对应的权重;
所述摘要形成单元用于在滑动结束后从所述存储单元取出与较高权重对应的一个或多个窗口内容作为摘要。
9、根据权利要求8所述的摘要提取模块,其特征在于,该摘要提取模块进一步包括:
设置单元,用于为滑动单元设置窗口大小和滑动步长;和/或,
排序模块,用于根据权重对存储单元中对应的窗口内容排序,以便所述摘要生成单元顺序取出与较高权重对应的一个或多个窗口内容作为摘要。
10、根据权利要求8所述的摘要提取模块,其特征在于,所述计算单元进一步用于判断当前窗口内容中是否包含关键词,并在是的情况下计算当前窗口内容的权重;和/或,
进一步用于判断当前窗口内容的权重是否大于与当前窗口重叠的窗口内容的权重,并在是的情况下保存当前窗口内容及对应的权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710109499.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种以路由器接口地址实现端口重定向的方法及其系统
- 下一篇:一种枕垫