[发明专利]一种基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法有效
申请号: | 202111615836.9 | 申请日: | 2021-12-28 |
公开(公告)号: | CN113987192B | 公开(公告)日: | 2022-04-01 |
发明(设计)人: | 刘锟;曾曦;邱梓珩;陈天莹;王效武;魏刚 | 申请(专利权)人: | 中国电子科技网络信息安全有限公司;深圳市网联安瑞网络科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/34;G06F40/194;G06F40/30 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 陈法君 |
地址: | 610207 四川省成都市*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 roberta wwm hdbscan 算法 热点话题 检测 方法 | ||
1.一种基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法,其特征在于,所述热点话题检测方法包括离线热点话题检测和在线热点话题检测;
所述离线热点话题检测为检测数据库中已有数据中所包含的热点话题,数据量和话题数目不发生变化,所述在线热点话题检测为检测某时间区间内互联网媒体平台中实时发生的热点话题,数据量和话题数目在不断的增加;
其中,所述离线热点话题检测包括如下步骤:
A1.数据清洗步骤,对数据库中已有的文本数据做数据清洗,去除文本中的干扰信息;
A2.文本向量化表示步骤,使用有标注的相似句子对和不相似句子对数据集对外接有三层微调结构的RoBERTa-WWM模型进行微调,并将经过数据清洗的文本数据输入微调后的外接有微调结构的RoBERTa-WWM模型,得到所有文本数据的向量表示;
A3.聚类步骤,使用HDBSCAN算法对步骤A2得到的文本向量进行聚类,得到文本数据的话题分布情况;
A4.效果评估与参数调整步骤,使用轮廓系数以及互信息指数两个指标来评估离线话题检测模型的效果,如果未达到预设的效果,则调整RoBERTa—WWM模型和HDBSCAN算法的参数,直到达到最优解;
A5.结果生成步骤,根据每个话题中帖子的互动信息计算每个帖子的热度值以及每个话题的热度值,并根据该热度值排序,确定热点话题列表;并选取热点话题中帖子热度排名前M%位的帖子来表示该话题,计算这些帖子的文本向量的均值作为该话题的向量表示。
2.如权利要求1所述的基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法,其特征在于,步骤A1中,文本中的干扰信息包括新闻链接和符号。
3.如权利要求1所述的基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法,其特征在于,步骤A5中,热点话题为话题的热度值大于设定阈值的前N个话题。
4.如权利要求1所述的基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法,其特征在于,步骤A5中,
帖子的热度计算公式为:
;
其中,是指第i个帖子的发帖热度值,是指第i个帖子的点赞数,指的是第i个帖子的转发数,是指第i个帖子的评论数,x、y、z是由熵权法得到的权重系数。
5.如权利要求4所述的基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法,其特征在于,
话题的热度计算公式为:
其中表示第j个话题的热度值,n表示该话题中帖子的个数。
6.如权利要求1至5任一项所述的基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法,其特征在于,其中,所述在线热点话题检测包括如下步骤:
B1.数据采集步骤,实时采集互联网媒体平台中的网络舆情数据;
B2.离线话题检测步骤,每次选择固定时间窗口内爬取到的网络舆情数据,使用离线话题检测方法对采集到的数据做话题检测;
B3.相似度计算和新话题的分类与融合步骤,依次计算步骤B2新得到的话题和已有话题之间的相似度;
如果相似度大于事先设定的阈值,则将新得到的话题和已有话题中与之相似度最高的话题合并,同时根据帖子的热度值排序,更新合并后的话题表示向量,如果相似度小于设定的阈值,则该话题为新话题,得到该新话题的表示向量后将其加入已有话题列表;
B4.结果生成步骤:得到固定时间窗口内的所有话题,根据每个话题的热度值对所有话题排序,得到话题的热度排行榜,最后选取前P个话题作为这一时间段内的民众所关心和讨论的热点话题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技网络信息安全有限公司;深圳市网联安瑞网络科技有限公司,未经中国电子科技网络信息安全有限公司;深圳市网联安瑞网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111615836.9/1.html,转载请声明来源钻瓜专利网。