[发明专利]在搜索结果页中聚合人物类资讯信息的方法及装置在审
申请号: | 201611213441.5 | 申请日: | 2016-12-23 |
公开(公告)号: | CN106649738A | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 王艳丽;陈营营;马华蓉;佟思颖;高苏丹 | 申请(专利权)人: | 北京奇虎科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京智汇东方知识产权代理事务所(普通合伙)11391 | 代理人: | 康正德,孙晓芳 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索 结果 聚合 人物 资讯 信息 方法 装置 | ||
技术领域
本发明涉及互联网应用技术领域,特别是一种在搜索结果页中聚合人物类资讯信息的方法及装置。
背景技术
随着信息技术的飞速发展,当今社会进入了信息爆炸时代,人们越来越多地借助网络来寻找自己需要的信息,因此,检索成为人们工作、生活不可或缺的一部分。
人们通常使用搜索引擎来进行检索,搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将与用户检索相关的信息展示给用户的系统。
现代网络有大量的用户贡献内容,如论坛帖,微信公众号、头条号以及兴趣部落帖子等,这类网站被称为用户原创内容(UGC,User-generated Content)或者专业生产内容(PGC,Professionally-generated Content),在本申请中,这类网站统称为UGC网站。目前,这些UGC网站中也有很多优质资讯,但目前在各家搜索引擎产品中没有充分挖掘UGC网站中的资讯,搜索结果并不能充分包含这些UGC网站中的内容。
发明人在发现本发明的过程中发现,某些优质的UGC网站上的资讯在内容上有它自己的优势,例如,1、数据独家:来源于个人;2、能引起共鸣:类似贴吧,一个好的帖子会有很多人评论;3、与现实搜索结果互补:同一query(搜索词),UGC数据可以补充引擎结果,同时延展阅读性。特别是针对人物类的query,某些UGC网站的资讯信息更能满足用户的需求。
目前,针对如何为用户提供包括UGC网站上的人物类资讯信息的搜索结果的问题,还没有有效的解决方案。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的在搜索结果页中聚合人物类资讯信息的方法及相应的装置。
依据本发明的一方面,提供了一种在搜索结果页中聚合人物类资讯信息的方法,包括:接收到用户在搜索引擎上输入的与人物类相关的目标搜索词;判断所述目标搜索词是否命中人物类预设词表,其中,所述人物类预设词表中记录了N个人物类预设词,N为整数,且N大于1;若是,在从互联网中搜索所述目标搜索词的同时,在结构化的人物类资讯内容数据库中查找与所述目标搜索词匹配的资讯信息,其中,所述人物类资讯内容数据库按如下步骤生成:收集针对人物类的多个用户生成内容UGC网站,并从所述多个UGC网站中抓取与所述人物类预设词表中各个人物类预设词相关的资讯信息;对抓取的所述资讯信息进行处理,按照每条资讯信息相关的人物类预设词进行分类,生成具有人物类预设词和资讯属性的所述结构化的人物类资讯内容数据库;将所述匹配的资讯信息聚合至所述目标搜索词对应的搜索结果页展现给用户。
可选地,接收到用户在搜索引擎上输入的与人物类相关的目标搜索词之前,所述方法还包括:获取预定数据库中点击率和/或搜索率排名最靠前的N个人物类预设词,组成所述人物类预设词表。
可选地,对抓取的所述资讯信息进行处理,按照每条资讯信息相关的人物类预设词进行分类,生成具有人物类预设词和资讯属性的所述结构化的人物类资讯内容数据库,包括:按照抓取的每条资讯信息相关的人物类预设词进行分类,并根据每条资讯信息的资讯属性进行优化排序,生成具有人物类预设词和资讯属性的所述结构化的人物类资讯内容数据库。
可选地,所述资讯属性包括:资讯发布时间和/或资讯的评论数。
可选地,对于专业信息发布平台类的UGC网站,从所述多个UGC网站中抓取与所述N个人物类预设词相关的资讯信息,包括:在所述专业信息发布平台类的UGC网站的搜索框内分别输入所述N个人物类预设词,按发布时间抓取所述N个人物类预设词中各个人物类预设词相关的资讯信息;或者,在所述专业信息发布平台类的UGC网站发布的资讯信息中标注人物类资讯,从标注的人物类资讯中抓取与所述N个人物类预设词相关的资讯信息。
可选地,对于网络主题社区类的UGC网站,从所述多个UGC网站中抓取与所述N个人物类预设词相关的资讯信息,包括:针对所述N个人物类预设词中的每个人物类预设词,在所述主题类的UGC网站中确定该人物类预设词对应的用户所在的主题社区,从该人物类预设词对应的用户所在的主题社区中最大主题社区中抓取名称title或正文包含该人物类预设词的资讯信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司,未经北京奇虎科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611213441.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:针对综艺类query的搜索结果的推送方法及装置
- 下一篇:床头柜(云)