[发明专利]微博话题标签自动化描述方法有效
申请号: | 201210209327.0 | 申请日: | 2012-06-20 |
公开(公告)号: | CN102890698A | 公开(公告)日: | 2013-01-23 |
发明(设计)人: | 杜小勇;刘红岩;何军;江璇;祝锐 | 申请(专利权)人: | 杜小勇 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 刘芳 |
地址: | 100872 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 话题 标签 自动化 描述 方法 | ||
1.一种微博话题标签自动化描述方法,其特征在于,包括:
从多个微博信息中提取话题标签,保存所述话题标签与提取所述话题标签的微博信息的对应关系;
获取任意两个话题标签的相似度,并根据所述相似度对所有话题标签进行聚类;
根据每一聚类的话题标签,获取同一聚类的话题标签的关注点;
根据所述同一聚类的话题标签的关注点对所述同一聚类中的各话题标签进行自动化描述。
2.根据权利要求1所述的方法,其特征在于,所述获取任意两个话题标签的相似度之前,还包括:
从所述提取的话题标签中滤去无意义话题标签。
3.根据权利要求2所述的方法,其特征在于,所述从所述提取的话题标签中滤去无意义话题标签具体包括:
滤去对应的微博信息数量低于预设阈值的话题标签。
4.根据权利要求1所述的方法,其特征在于,所述获取任意两个话题标签的相似度包括:
获取任意两个话题标签的字符串相似度、文本特征相似度、时间分布相似度;
根据每两个话题标签的所述字符串相似度、文本特征相似度和时间分布相似度获取所述两个话题标签的相似度。
5.根据权利要求1所述的方法,其特征在于,所述根据每一聚类的话题标签,获取同一聚类的话题标签的关注点包括:
获取同一聚类中的各话题标签对应的微博信息数量随微博发布时间变化的微博时间分布集合,所述微博时间分布集合中的各元素分别为在预设周期内的各统计时间段发布的所述各话题标签对应的微博信息的数量;
获取所述微博时间分布集合的香农小波能量的归一化值;
根据所述的香农小波能量的归一化值获取所述微博时间分布集合的归一化分布;
根据所述微博时间分布集合的归一化分布获取所述同一聚类的话题标签的关注点。
6.根据权利要求1所述的方法,其特征在于,所述根据所述同一聚类的话题标签的关注点对所述同一聚类中的各话题标签进行自动化描述包括:
根据所述同一聚类的话题标签的关注点,获取所述同一聚类中的各话题标签对应微博信息中的句子集合与词语集合;
获取所述句子集合与所述词语集合中任意两个句子之间、任意两个词语之间以及任意句子与任意词语之间的语义相似度;
根据任意两个句子之间、任意两个词语之间以及任意句子与任意词语之间的语义相似度的语义相似度获取所述句子集合与词语集合中各句子、各词语的重要度;
确定所述重要度高于预设重要度阈值的句子和/或词语为所述话题标签的自动化描述。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杜小勇,未经杜小勇许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210209327.0/1.html,转载请声明来源钻瓜专利网。