[发明专利]新闻事件的聚类方法及装置有效
申请号: | 201610319385.7 | 申请日: | 2016-05-13 |
公开(公告)号: | CN106021418B | 公开(公告)日: | 2019-09-06 |
发明(设计)人: | 彭力扬;韩明辉;王肖磊;陈劲;魏自立;李浩 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/31;G06F16/955 |
代理公司: | 北京市浩天知识产权代理事务所(普通合伙) 11276 | 代理人: | 宋菲;刘云贵 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种新闻事件的聚类方法及装置。其中方法包括:挖掘新闻页面的URL,提取所述新闻页面的页面标题;根据搜索点击日志数据,查找所述新闻页面的URL对应的搜索词;根据所述页面标题和/或搜索词,对所述新闻页面进行聚类处理,其中,聚为一类的新闻页面构成一个新闻事件;从每个新闻事件的所有新闻页面对应的页面标题和/或搜索词中查找得到所述新闻事件的描述信息。本发明提供的是新闻事件的自动聚类方法,相对于现有技术来说,效率大大提高。另外,本发明一方面考虑到页面标题之间的关联性,另一方面考虑到搜索词的关联性,利用两方面的关联性完成新闻事件的聚类,提升了新闻事件聚类的精确性。 | ||
搜索关键词: | 新闻 事件 方法 装置 | ||
【主权项】:
1.一种新闻事件的聚类方法,包括:挖掘新闻页面的URL,提取所述新闻页面的页面标题;根据搜索点击日志数据,在搜索点击日志数据中查找用户点击所述新闻页面的URL时所输入的搜索词,以获得所述新闻页面的URL对应的搜索词;其中,所述搜索点击日志数据记录了用户使用搜索引擎输入搜索词后所选择点击的搜索结果URL的数据;根据所述页面标题及搜索词,对所述新闻页面进行聚类处理,其中,聚为一类的新闻页面构成一个新闻事件;采用最小覆盖集算法,先从每个新闻事件的所有新闻页面对应的页面标题及搜索词中查找覆盖最多新闻页面的URL的页面标题或搜索词作为所述新闻事件的描述信息,再从剩余中选关联次数最多的搜索词或页面标题,直至能够将聚类中所有的URL都关联到,此时已选择出来的搜索词或页面标题,构成了描述新闻事件的最小描述子集。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610319385.7/,转载请声明来源钻瓜专利网。