[发明专利]基于搜索引擎的摘要信息提取方法、装置以及搜索引擎在审
申请号: | 201410302674.7 | 申请日: | 2014-06-27 |
公开(公告)号: | CN104077388A | 公开(公告)日: | 2014-10-01 |
发明(设计)人: | 董毅;张前川;陈营营;张川 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 赵娟 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 搜索引擎 摘要 信息 提取 方法 装置 以及 | ||
技术领域
本发明涉及信息检索的技术领域,具体涉及一种基于搜索引擎的摘要信息提取方法、一种基于搜索引擎的摘要信息提取方法的装置以及一种搜索引擎。
背景技术
在网络信息极大丰富的当今时代,搜索引擎已经成为用户对海量资源检索的必备工具。
为了增强搜索结果展示的效果,搜索引擎提供的搜索结果中,除了网页标题和URL外,还可以包括提供一段来自网页的摘要。目前,搜索引擎生成摘要的方式,可以归结为如下两种:
一是静态方式,即独立于查询,按照某种规则,事先在预处理阶段从网页内容提取出一些文字,例如截取网页正文的开头512个字节(对应256个汉字),或者将每一个段落的第一个句子拼起来,等等。这样形成的摘要存放在查询子系统中,一旦相关文档被选中与查询项匹配,就读出返回给用户。显然,这种方式对查询子系统来说是最轻松的,不需要做另外的处理工作。但这种方式的一个最大的缺点是摘要和查询无关。
用户希望摘要中能够突出显示和查询直接对应的文字,希望摘要中出现和他关心的文字相关的句子。因此,动态摘要方式应运而生,动态摘要即在响应查询的时候,根据查询词在文档中的位置,提取出周围的文字来,在显示时将查询词标亮。这是目前大多数搜索引擎采用的方式。
虽然动态摘要的内容包含用户的查询词,但是这些句子并不能表达出整个Web文档的中心意思。也就是说,用户通过阅读搜索引擎返回的摘要并不能确定自己查找的信息是否包含在这个页面中。此时,用户需要点击搜索结果,从搜索结果对应的网页查看是否包含自己想要的信息,多次的交互过程耗费带宽资源,搜索效率低下。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于搜索引擎的摘要信息提取方法和相应的一种基于搜索引擎的摘要信息提取方法以及一种搜索引擎。
依据本发明的一个方面,提供了一种基于搜索引擎的摘要信息提取方法,包括:
基于在搜索引擎中接收的搜索字符串,获取匹配的网页资源;
识别所述网页资源的页面类型;
针对所述页面类型,从所述网页资源中提取对应的摘要信息;
输出所述摘要信息。
可选地,所述识别所述网页资源的页面类型的步骤包括:
抽取所述网页资源的页面框架,计算页面框架ID;
若相同页面框架ID的页面框架的数量大于预设阈值,计算页面框架模式;
将所述页面框架模式与预先生成的数据库中的页面框架模式进行匹配,识别出页面类型。
可选地,所述网页资源包括网页源代码,所述页面类型包括单一页面,所述针对所述页面类型,从所述网页资源中提取对应的摘要信息的步骤包括:
针对所述单一页面,从所述网页源代码中提取一个或多个关键的元素信息,作为摘要信息。
可选地,所述单一页面包括以下一种或几种的组合:下载正文页面、音视频播放页面、小说阅读页面、问答页面、新闻组图页面、专题页面。
可选地,所述网页资源包括网页源代码,所述页面类型包括列表页面,所述针对所述页面类型,从所述网页资源中提取对应的摘要信息的步骤包括:
针对所述列表页面,从所述网页源代码中提取所述网页资源统计出的点击率排序在前的一个或多个元素信息,作为摘要信息。
可选地,所述列表页面包括音视频列表页面。
可选地,所述针对所述页面类型,从所述网页资源中提取对应的摘要信息的步骤包括:
针对所述页面类型,向所述网页资源对应的网站对象发送第一查询请求;
接收所述网站对象发送的与所述第一查询请求对应的历史访问记录,所述历史访问记录为所述网站对象从当前终端中获得cookies信息后,依据所述cookies信息获得的记录;
从所述历史访问记录中获取所述网页资源中访问次数大于第一阈值的元素信息,作为摘要信息。
可选地,所述针对所述页面类型,从所述网页资源中提取对应的摘要信息的步骤包括:
针对所述页面类型,向当前终端的浏览器发出第二查询请求,所述第二查询请求包括所述网页资源的网站对象标识;
接收所述浏览器返回的当前终端中与所述网站对象标识相关的历史访问记录,所述历史访问记录为当前终端的浏览器获取与所述网站对象相关的cookies信息后获得;
从所述历史访问记录中获取所述网页资源中访问次数大于第一阈值的元素信息,作为摘要信息。
可选地,所述方法还包括:
对所述摘要信息添加特定标记TAG。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410302674.7/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置