[发明专利]一种时间敏感和自适应的子话题在线检测方法及系统有效
申请号: | 201510408490.3 | 申请日: | 2015-07-13 |
公开(公告)号: | CN105488092B | 公开(公告)日: | 2018-05-22 |
发明(设计)人: | 李思旭;李锐;包秀国;马宏远;杨文静;邱泳钦;程工;刘春阳;庞琳;王斌 | 申请(专利权)人: | 中国科学院信息工程研究所;国家计算机网络与信息安全管理中心 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06K9/62;G06Q50/00 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 冯艺东 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种时间敏感和自适应的子话题在线检测方法及系统。该方法包括:1)对文档流中的每篇文档进行向量化表示;2)对文档进行增量式聚类,并根据随时间衰减的文档权重调整子话题的中心权重;3)当聚类产生的子话题数量或者某个子话题权重占比满足阈值条件,或者子话题满足长尾检测条件时,进行子话题间的合并或者删除无意义的子话题;4)根据每个新子话题的权重已及其内在的文档分布,对新子话题生成摘要并输出展示。该系统包括文档表示模块、增量式聚类模块、新子话题发现模块、摘要生成模块。本发明中历史文档权重随时间衰减,并且基于阈值判断和长尾检测进行子话题数量和内容的动态更新,能够有效提高子话题检测的效率。 | ||
搜索关键词: | 一种 时间 敏感 自适应 话题 在线 检测 方法 系统 | ||
【主权项】:
1.一种时间敏感和自适应的子话题在线检测方法,其特征在于,包括如下步骤:1)对文档流中的每篇文档进行向量化表示,将文档向量化表示成dt =<αt ,(ft1 ,ft2 ,...,ftM )>,其中dt 为t时刻的文档,αt 为时间衰减系数,(ft1 ,ft2 ,...,ftM )为文档特征向量,fti 表示第i维词项权重,i=1,2,…M,M表示维数;2)对向量化表示后的文档进行考虑时间的增量式聚类,使得聚类结果具有时效性;若文档属于某个子话题,则将该文档加入到该子话题中,并根据随时间衰减的文档权重调整该子话题的中心权重,即类权重;若文档不属于任何一个子话题,则建立一个新子话题,并同样根据随时间衰减的文档权重调整该新子话题的类权重;所述随时间衰减的文档权重,是指历史文档的权重随时间衰减,最新的文档具有最高的权重;所述根据随时间衰减的文档权重调整子话题的类权重的方法是:(i)文档权重更新:当文档权重低于设定的阈值时,即文档的时间距离当前时间很远,是过时的历史子话题,从系统中删除该文档;(ii)类中心更新:根据已经更新权重的文档,计算类权重及类中心;类中心的计算公式为: C i = Σ d t ∈ C i α d t ( f t 1 , f t 2 , ... , f t M ) , ]]>其中,fti 表示第i维词项权重,i=1,2,…M,M表示维数;类权重的计算公式为: weight C i = Σ d t ∈ C i α d t Σ C i Σ d t ∈ C i α d t , ]]>其中,Ci 表示类中心,表示类权重,为文档dt 的时间衰减系数;3)当增量式聚类产生的子话题数量或者某个子话题权重占比满足阈值条件,或者子话题满足长尾检测条件时,进行子话题间的合并或者删除无意义的子话题;该步骤基于类中心计算类间的相似度并运行层次聚类算法,实现子话题间的合并;4)根据每个新子话题的权重已及其内在的文档分布,对新子话题生成摘要,并输出展示。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所;国家计算机网络与信息安全管理中心,未经中国科学院信息工程研究所;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510408490.3/,转载请声明来源钻瓜专利网。
- 上一篇:一种知识要点推送方法及系统
- 下一篇:信息存储方法、装置及终端