[发明专利]基于关键词聚类的突发事件检测方法在审

申请号：	202011498455.2	申请日：	2020-12-17
公开（公告）号：	CN112527960A	公开（公告）日：	2021-03-19
发明（设计）人：	王晓玲;何萍;袁佳豪;张欣蕾;孙铭佑;屈稳稳;王韵弘;纪文迪	申请（专利权）人：	华东师范大学
主分类号：	G06F16/33	分类号：	G06F16/33;G06F16/35;G06F16/9536;G06Q50/00
代理公司：	成都行之专利代理事务所(普通合伙) 51220	代理人：	温利平
地址：	200062 上***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于关键词突发事件检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于关键词聚类的突发事件检测方法，其特征在于，包括以下步骤：

S1：爬取预设时间窗口T内在社交媒体中发布的文本数据作为待进行突发事件检测的文本，根据预设的过滤规则对所收集的文本进行过滤，得到保留文本集合S；

S2：预先设置参考短语库，提取保留文本集合S所有文本中属于参考短语库的短语，构成保留文本集合S对应的短语集合A；

S3：分别计算短语集合A中的每个短语s的突发程度W_s，计算公式如下：

W_s＝p_s×log(u_s)×log(r_s)×log(log(f_s))

其中，p_s表示时间窗口T内关键短语s的突发概率，u_s表示时间窗口T内使用过关键短语s的用户数量，r_s表示时间窗口T内包含关键短语s的文本被转发的次数，f_s表示时间窗口T内使用关键短语s的用户的关注数目总和；

将所有短语按照突发程度从高到低进行排序，选择前K个关键短语作为突发短语加入突发短语集合B，K的值根据需要设置；

S4：将时间窗口T平均划分为M个连续不相交的子时间窗口，记第m个子时间窗口为T_m，m＝1,2,…,M，对于每个突发短语e，e∈B，统计每个子时间窗口T_m内包含该突发短语e的文本集合text(e,m)和文本数量f₁(e,m)，以及整个时间窗口T内包含该突发短语e的文本数量f₂(e)，计算每个突发短语e在子时间窗口T_m所占比例d(e,m)＝f₁(e,m)/f₂(e)；

对突发短语集合B中的突发短语两两计算相似度，计算方法如下：

记两个突发短语分别为e_a、e_b，首先分别计算文本集合text(e_a,m)和文本集合text(e_b,m)之间的相似度sim(text(e_a,m),text(e_b,m))，然后采用以下公式计算两个突发短语的相似度S(e_a,e_b)：

根据突发短语间的相似度对突发短语进行聚类，得到K个突发短语簇C_k，k＝1,2,…,K，，每个突发短语簇C_k即为时间窗口T的一个突发事件；

S5：对于每个突发短语簇C_k，从保留文本集合S中获取含有该突发短语簇C_k内突发短语的文本集合D_k，将文本集合D_k作为预训练语言模型的输入，将预训练语言模型输出的该文本集合的摘要作为突发短语簇C_k所对应突发事件的事件总结，得到事件检测结果。

2.根据权利要求1所述的突发事件检测方法，其特征在于，所述步骤S1中过滤规则采用一种判断条件或多种判断条件组合得到，判断条件包括：文本长度是否小于预设阈值、文本语种是否为预设语种、文本是否是回复或转发信息、文本包含的URL是否包含广告信息、文本哈希标签数量是否大于预设阈值，当某文本满足任一所设置的判断条件，则删除该文本，从而实现文本过滤。

3.根据权利要求1所述的突发事件检测方法，其特征在于，所述步骤S2中参考知识库中所包含的参考短语为维基百科的标题。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华东师范大学，未经华东师范大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011498455.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种多模态商品知识图谱构建方法
下一篇：一种用于治疗肠炎的间充质干细胞及其制备方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于关键词聚类的突发事件检测方法在审

专利文献下载