[发明专利]一种获取网络话题原型的方法及装置有效
申请号: | 201711024178.X | 申请日: | 2017-10-27 |
公开(公告)号: | CN107729521B | 公开(公告)日: | 2020-06-26 |
发明(设计)人: | 庞俊彪;胡安静;黄庆明;尹宝才 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/9536;G06F16/35;G06F40/30 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;吴欢燕 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 获取 网络 话题 原型 方法 装置 | ||
本发明实施例提供一种获取网络话题原型的方法及装置。所述方法包括:基于所有候选网络话题,对所述候选网络话题对应的目标网页集合的相似度图进行拟合和重构,获得重构后的相似度图;所述候选网络话题通过对应的目标网页集合的相似度图进行聚类得到;基于重构后的相似度图,获取所述候选网络话题中每个网络话题对应的原型网页。本发明实施例所述方法可以找到网络话题中具有话题代表性和多样性的原型网页,直接将原型网页反馈给用户用以了解网络话题的内容,而不需要通过提取网络话题中各网页的关键词来了解网络话题,有效减少了网络话题中错误检测的网页对网络话题描述带来的负面影响,和提取的关键词语义不连续对用户理解产生的影响。
技术领域
本发明实施例涉及网络话题检测领域,更具体地,涉及一种获取网络话题原型的方法及装置。
背景技术
随着网络技术的蓬勃发展,人们可以通过网络便捷地分享数据,因此海量的“用户产生式内容”信息出现并被传播。正是这种前所未有的爆炸式数据出现,使得用户无法快速了解热点话题。问题随之而来:因为是由个人产生而非专业编辑,所以从社交媒体中产生的网络话题并不总是连贯的,且其解释性较差。由于网络话题是从极其大量数据中,用户感兴趣的小部分通过一个事件紧密连接而产生的,从而造成网络话题的检测无异于大海捞针。值得注意的是,网络话题检测与话题模型完全不同,在话题模型中假设每个文本语料库都产生于混合的隐藏主题,如果使用这种无监督算法,则在产生网络话题时不可避免地会引入错误检测的网页。
在现有的大量网络话题检测相关文献中,仅有少部分提到话题的可解释性。因为即使是在专业编辑的文章中,依然可以发现话题是多个概念的混合,很难被理解。而在通过用户产生式数据尤其视频分享网站相关数据,生成的网络话题中,话题难以解释的问题更为严重。如何解释一个网络话题,现有的很多方法是寻找可能暗示网络话题含义的关键词按照一定规律排序,选取前几个较重要的关键词作为该网络话题的释义。这时描述网络话题的任务目标即转变为寻找富含信息且语义连贯明确的关键词。
然而传统的话题模型产生的关键词常常不是连贯的且无逻辑的,这就为用户了解网络话题带来了语义理解上的麻烦。即使使用先进的网络话题检测技术,检测出的网络话题中依然存在少部分错误检测的网页,即并不属于该网络话题的网页。这种错误检测的网页的存在,可能在关键词提取时提取出错误的关键词,或影响后续关键词的排序,从而影响网络话题解释的准确性。
发明内容
本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的获取网络话题原型的方法及装置。
根据本发明实施例的一个方面,一种获取网络话题原型的方法,包括:
基于所有候选网络话题,对所述候选网络话题对应的目标网页集合的相似度图进行拟合和重构,获得重构后的相似度图;所述候选网络话题通过对应的目标网页集合的相似度图进行聚类得到;
基于重构后的相似度图,获取所述候选网络话题中每个网络话题对应的原型网页。
进一步,所述基于所有候选网络话题,对所述候选网络话题对应的目标网页集合的相似度图进行拟合和重构,获得重构后的相似度图,进一步包括:
根据目标网页集合的特征描述子构造相似度图,并对所述相似度图进行聚类以获取候选网络话题;
基于所有的候选网络话题对应的相似度图进行拟合,利用稀疏泊松反卷积算法获取所述候选网络话题的重构系数和稀疏相似度;
基于所述候选网络话题的重构系数和稀疏相似度,重构每个候选网络话题内部网页间的相似度图,从而获得重构的相似度图。
进一步,所述根据目标网页集合的特征描述子构造相似度图,进一步包括:
获取目标网页集合提取每个网页的特征描述子;
根据所述特征描述子计算每两个网页间的相似度,构造每两个网页间的相似度矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711024178.X/2.html,转载请声明来源钻瓜专利网。