[发明专利]微博话题标签自动化描述方法有效
申请号: | 201210209327.0 | 申请日: | 2012-06-20 |
公开(公告)号: | CN102890698A | 公开(公告)日: | 2013-01-23 |
发明(设计)人: | 杜小勇;刘红岩;何军;江璇;祝锐 | 申请(专利权)人: | 杜小勇 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 刘芳 |
地址: | 100872 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 话题 标签 自动化 描述 方法 | ||
技术领域
本发明涉及计算机网络技术领域,尤其涉及一种微博话题标签自动化描述方法。
背景技术
微博是一种通过关注机制分享简短实时信息的广播式的社交网络平台。微博用户可以通过WEB、WAP(Wireless Application Protocol,无线应用协议)以及各种客户端组建个人社区,以140字左右的文字更新信息,并实现即时分享,拥有海量用户和数据。微博的话题标签是微博信息中添加于两个“#”之间的内容,用于概括描述该微博信息的话题内容。为了让更多的微博用户了解各话题标签所对应的微博信息所讨论的内容,各微博平台的运营方会对各话题标签进行自动化描述。
目前由于话题标签的同义性、话题标签的时序性、微博信息短小并且多噪以及海量数据的处理等原因,话题标签生成自动化的描述准确性差并且效率低。
发明内容
本发明提供了一种微博话题标签自动化描述方法,以提高微博话题标签生成自动化的描述的准确性及效率。
为实现本发明的目的,本发明提供了一种微博话题标签自动化描述方法,包括:
从多个微博信息中提取话题标签,保存该话题标签与提取该话题标签的微博信息的对应关系;
获取任意两个话题标签的相似度,并根据该相似度对所有话题标签进行聚类;
根据每一聚类的话题标签,获取同一聚类的话题标签的关注点;
根据同一聚类的话题标签的关注点对同一聚类的各话题标签进行自动化描述。
本发明的微博话题标签自动化描述方法,通过微博话题标签的相似度获取话题标签的关注点,进而快速、准确的对话题标签进行自动化描述。
附图说明
图1为本发明的微博话题标签自动化描述方法的实施例的流程图;
图2为本发明的微博话题标签自动化描述方法的又一实施例的流程图;
图3为本发明的微博话题标签自动化描述方法的又一实施例的流程图;
图4为本发明的微博话题标签自动化描述方法的又一实施例的流程图。
具体实施方式
下面结合附图与实施例对本发明做进一步的描述。
图1为本发明的微博话题标签自动化描述方法的实施例的流程图,本实施例具体可适用于对微博话题的自动化描述,以软件和/或硬件的形式来实现,本实施例的微博话题标签自动化描述方法的具体步骤如下:
S10:从多个微博信息中提取话题标签,保存该话题标签与提取该话题标签的微博信息的对应关系。
微博信息中的话题标签通常为两个“#”之间的文字,如以下这条微博信息:“#儿童节回忆#那些年我们一起上的学(1)语文考完了,我哭了。数学考完了,我发现我哭早了。2)医生,我最近睡不着心情坏,吃不下饭,我肿么了?医生问:你今年多大了?我:15岁。医生说:你作业没做完吧……”其中的“儿童节回忆”即为该条微博信息的话题标签。通常,一条微博信息对应一个话题标签,当然也可能没有话题标签,还可能一条微博信息对应多个话题标签。本实施例中,可通过识别微博信息中字符,获取微博信息的话题标签,再保存该话题标签与该条微博信息的对应关系。
S20:获取任意两个话题标签的相似度,并根据该相似度对所有话题标签进行聚类。
通过获取话题标签之间的相似度,相似度高的话题标签可能关注的是相同的内容,再根据该相似度利用层次聚类的方法对话题标签进行聚类。整个聚类过程通过话题标签的相似度矩阵来将它们按照自底向上方法聚成一个二叉树的层次结构。首先,每一个话题标签作为一个单点类。然后,在每一次迭代中,两个相似度最高的话题标签合并成一个新类,最相似的两个类之间的相似度无法满足预设阈值的时候,停止聚类。相似度衡量使用平均相似度,即两个类中结点两两之间相似度的平均值。
S30:根据每一聚类的话题标签,获取同一聚类的话题标签的关注点;
根据聚类的话题标签,获得每一类话题标签对应的微博信息集合,通过对该微博信息集合中微博信息数量在时间上的分布进行变换获得归一化的分布,当该分布高于预设的分布阈值时,其所对应的话题标签即为一个关注点。
S40:根据同一聚类的话题标签的关注点对同一聚类的各话题标签进行自动化描述。
判断该关注点对应微博信息中的句子和词语的重要度,该重要度高于预设重要度阈值的句子和/或词语具有摘要性质,即可作为对其所在话题标签的描述。
较佳的,步骤S20之前,还包括:
步骤A:从提取的话题标签中滤去无意义话题标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杜小勇,未经杜小勇许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210209327.0/2.html,转载请声明来源钻瓜专利网。