[发明专利]一种社交消息的监测方法及装置在审
申请号: | 201410175434.5 | 申请日: | 2014-04-28 |
公开(公告)号: | CN105095228A | 公开(公告)日: | 2015-11-25 |
发明(设计)人: | 陈雷;周项敏;何秀强 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/00;G06Q10/10 |
代理公司: | 北京中博世达专利商标代理有限公司 11274 | 代理人: | 申健 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 社交 消息 监测 方法 装置 | ||
1.一种社交消息的监测方法,其特征在于,包括:
接收社交消息,并对所述社交消息进行主题建模分析,得到所述社交消息的主题概率向量;
将所述社交消息的主题概率向量与每个代表消息的主题概率向量进行比较得到主题相似性,并依据所述主题相似性获取所述社交消息与所述每个代表消息的相似性,其中,所述代表消息为一个消息类中具有代表性的社交消息;
将所述社交消息存入与所述社交消息相似性最高的代表消息所在的消息类中;
当所述消息类中的社交消息的数量达到第一阈值或所述消息类中的社交消息主题一致时,向社交网客户端输出所述消息类。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述社交消息与所述每个代表消息的相似性均不超过预设的第一相似性阈值,则新建一个消息类,将所述社交消息存入所述新建的消息类。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
从每一个消息类中选取代表消息;
其中,所述从每一个消息类中选取代表消息包括:
在每一个消息类中选择预设的时间内的社交消息作为代表消息,其中,不同的消息类中预设的时间可以不相同;或
在所述每一个消息类中选择预设的地点内的社交消息作为代表消息,其中,不同的消息类中预设的地点可以不相同;或
在所述每一个消息类中选择预设的时间内和预设的地点内的社交消息作为代表消息,其中,不同的消息类中预设的时间和预设的地点可以不相同;或
将所述每一个消息类中的所有的社交消息的主题概率向量进行加权平均,得到所述每一个消息类的代表消息的主题概率向量,在每一个消息类中选取与所述消息类的代表消息的主题概率向量匹配的社交消息作为代表消息;其中,若有新的社交消息加入所述消息类,重新进行加权平均计算所述消息类的代表消息的主题概率向量。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述接收社交消息,并对所述社交消息进行主题建模分析,得到所述社交消息的主题概率向量,包括:
接收所述社交消息,获取所述社交消息的内容参数、所述社交消息的时间参数、所述社交消息的空间参数;
利用隐含狄利克雷分布LDA算法对所述社交消息的内容参数、所述社交消息的时间参数、所述社交消息的空间参数进行主题建模分析,得到所述社交消息的主题概率向量。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
对比所述社交消息的用户与所述每个代表消息的用户得到所述社交消息与所述每个代表消息的用户相似性;
所述将所述社交消息的主题概率向量与每个代表消息的主题概率向量进行比较得到主题相似性,并依据所述主题相似性获取所述社交消息与所述每个代表消息的相似性,具体包括:
计算所述社交消息的主题概率向量与所述每个代表消息的主题概率向量的相对熵,得到所述社交消息与所述每个代表消息的主题消息相似性;
对所述主题消息相似性和用户相似性进行加权求和,得到所述社交消息与所述每个代表消息的相似性。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:
对任意一个消息类中的社交消息进行查找、插入、删除操作。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述对所述社交消息进行主题建模分析,得到所述社交消息的主题概率向量之前,还包括:
获取所述社交消息所属的领域,若所述社交消息所属的领域不属于预设的领域,则剔除所述社交消息,得到过滤后的社交消息;
所述对所述社交消息进行主题建模分析,得到所述社交消息的主题概率向量,包括:
对过滤后的所述社交消息进行主题建模分析,得到所述社交消息的主题概率向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410175434.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:数据库的数据样本采集
- 下一篇:文本分类方法及服务器