[发明专利]搜索引擎中摘要的展现方法和装置有效
申请号: | 201510289030.3 | 申请日: | 2015-05-29 |
公开(公告)号: | CN104866592B | 公开(公告)日: | 2018-09-07 |
发明(设计)人: | 何伯磊;张伟萌;张希娟;马艳军 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索引擎 摘要 展现 方法 装置 | ||
1.一种搜索引擎中摘要的展现方法,其特征在于,包括:
获取需要处理的网页数据,挖掘所述网页数据中的正文数据;
对挖掘的正文数据进行预处理;
标记预处理后的正文数据中含有序号的句子;
根据所述序号的序号规则生成所述序号的序号树,并根据所述序号树生成列表类型的摘要;
将生成的摘要通过逐一展现的样式展现在搜索页面上;
其中,所述根据所述序号的序号规则生成所述序号的序号树包括:
建立数据组栈;
依次遍历标记后的句子中的每条数据;
在当前遍历的数据的序号为一组序号的起始序号时,创建所述起始序号对应的节点,创建所述起始序号对应的数组,将所述起始序号对应的节点添加至所述起始序号对应的数组中,并将所述起始序号对应的数组、所述起始序号和所述起始序号的序号类型存入所述数据组栈中,以及将所述起始序号对应的数组的指针绑定在上一个序号数组下;
在当前遍历的数据的序号不是起始序号时,创建所述序号对应的节点,在所述数据组栈中从栈顶依次向下搜索,当搜索到数组中数据的序号类型与当前遍历的数据的序号类型一致,并且当前遍历的数据的序号是搜索到的数组中的数据的序号与预定数值之和时,将所述序号对应的节点添加到搜索到的数组中,并将所述数据组栈中存储的所述搜索到的数组的最后一条数据的序号和序号类型修改为所述当前遍历的数据的序号和序号类型;
创建根节点,将所述数据组栈中第一条数据的节点对应的指针挂在创建的根节点下。
2.根据权利要求1所述的方法,其特征在于,所述获取需要处理的网页数据包括:
从展现日志中获取需要处理的网页数据的统一资源定位符,根据获取的统一资源定位符从数据库中获取需要处理的网页数据。
3.根据权利要求1所述的方法,其特征在于,所述对挖掘的正文数据进行预处理包括:
对挖掘的正文数据进行垃圾数据过滤;
对过滤后的数据进行分段和分句处理,并对分段和分句处理后的数据进行分词、词性标注和依存语法分析处理。
4.根据权利要求1-3任意一项所述的方法,其特征在于,所述根据所述序号树生成列表类型的摘要包括:
当所述标记后的句子中只包含一组序号时,根据所述序号的序号树生成列表类型的摘要;
当所述标记后的句子中包含至少两组序号时,计算所述至少两组序号前序句子与搜索词的相关性,选择相关性最高的一组序号,根据选择的一组序号所对应的序号树生成列表类型的摘要。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510289030.3/1.html,转载请声明来源钻瓜专利网。