[发明专利]一种基于通信类短文本的事件检测与跟踪方法及系统有效
申请号: | 201911244928.3 | 申请日: | 2019-12-06 |
公开(公告)号: | CN111143508B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 李扬曦;井雅琪;任博雅;时磊;余翠玲;佟玲玲;段东圣;胡燕林;苏晓玉;吴小盼 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心;中国科学院计算技术研究所 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/30;G06F40/289;G06F18/23 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国 |
地址: | 100031*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 通信 文本 事件 检测 跟踪 方法 系统 | ||
1.一种基于通信类短文本的事件检测与跟踪方法,其特征在于,包括:
提取与某事件对应的样本集合中各通信类短文本的语义特征、关键要素,及该样本集合的传播网络;其中,以该通信类短文本的发送用户和接收用户构成该传播网络的节点,以该通信类短文本从该发送用户向该接收用户的发送关系构成该传播网络的边;
根据该语义特征、该关键要素和该传播网络,分别获得任意两个该通信类短文本之间的语义距离、要素距离和用户距离;该用户距离为该两个通信类短文本的节点的数量与该两个通信类短文本的节点之间边的数量的比值,表示该两个通信类短文本的节点之间的关系紧密程度;
以该语义距离、该要素距离和该用户距离,获得任意两个该通信类短文本之间的度量距离;
对所有该度量距离进行聚类,获得该事件的事件检测结果;
提取该事件检测结果的特征属性以跟踪该事件。
2.如权利要求1所述的事件检测与跟踪方法,其特征在于,通过层次聚类方法对所有该度量距离进行聚类,以获得该事件的聚类树,并根据预设的事件检测阈值Thread,截取该聚类树获得事件列表topics作为该事件检测结果。
3.如权利要求1所述的事件检测与跟踪方法,其特征在于,该事件检测结果的特征属性包括:
该事件的关键字,将所有该通信类短文本合称为文本T,以该文本T为输入,通过python中jieba的textrank模块获得该关键字;
该事件的关键传播用户,获取该传播网络中每个节点的介数中心性,以介数中心性数值由大至小排序序列中的前M个节点,作为该关键传播用户;
该事件的关键传播路径,获取该传播网络中任意两个节点之间路径的介数中心性,以介数中心性数值由大致小排序序列中的前N条边,作为该关键传播路径;
其中,M、N为正整数。
4.如权利要求1所述的事件检测与跟踪方法,其特征在于,该关键要素包括该通信类短文本内容中包含的时间、地点、个人名称和机构名称。
5.一种基于通信类短文本的事件检测与跟踪系统,其特征在于,包括:
信息提取模块,用于提取与某事件对应的样本集合中各通信类短文本的语义特征、关键要素,及该样本集合的传播网络;其中,以该通信类短文本的发送用户和接收用户构成该传播网络的节点,以该通信类短文本从该发送用户向该接收用户的发送关系构成该传播网络的边;
距离获取模块,用于获取任意两个该通信类短文本之间的度量距离;其中根据该语义特征、该关键要素和该传播网络,分别获得任意两个该通信类短文本之间的语义距离、要素距离和用户距离;以该语义距离、该要素距离和该用户距离,获得该度量距离;该用户距离为该两个通信类短文本的节点的数量与该两个通信类短文本的节点之间边的数量的比值,表示该两个通信类短文本的节点之间的关系紧密程度;
事件检测模块,用于对所有该度量距离进行聚类,获得该事件的事件检测结果;
事件跟踪模块,用于提取该事件检测结果的特征属性以跟踪该事件。
6.如权利要求5所述的事件检测与跟踪系统,其特征在于,该事件检测模块通过层次聚类方法对所有该度量距离进行聚类,以获得该事件的聚类树,并根据预设的事件检测阈值Thread,截取该聚类树获得事件列表topics作为该事件检测结果。
7.如权利要求5所述的事件检测与跟踪系统,其特征在于,该事件跟踪模块还包括:
关键字获取模块,用于将所有该通信类短文本合称为文本T,以该文本T为输入,通过python中jieba的textrank模块获取该事件的关键字;
关键传播用户获取模块,用于通过获取该传播网络中每个节点的介数中心性,以介数中心性数值由大至小排序序列中的前M个节点,作为该事件的关键传播用户;
关键传播路径获取模块,用于通过获取该传播网络中任意两个节点之间路径的介数中心性,以介数中心性数值由大致小排序序列中的前N条边,作为该事件的关键传播路径;
其中,M、N为正整数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;中国科学院计算技术研究所,未经国家计算机网络与信息安全管理中心;中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911244928.3/1.html,转载请声明来源钻瓜专利网。