[发明专利]一种基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法有效
申请号: | 202111615836.9 | 申请日: | 2021-12-28 |
公开(公告)号: | CN113987192B | 公开(公告)日: | 2022-04-01 |
发明(设计)人: | 刘锟;曾曦;邱梓珩;陈天莹;王效武;魏刚 | 申请(专利权)人: | 中国电子科技网络信息安全有限公司;深圳市网联安瑞网络科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/34;G06F40/194;G06F40/30 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 陈法君 |
地址: | 610207 四川省成都市*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 roberta wwm hdbscan 算法 热点话题 检测 方法 | ||
本发明公开了一种基于RoBERTa‑WWM和HDBSCAN算法的热点话题检测方法,所述热点话题检测方法包括离线热点话题检测和在线热点话题检测;所述离线热点话题检测为检测数据库中已有数据所包含的热点话题,所述在线热点话题检测为检测某时间区间内互联网媒体平台中发生的热点话题;通过本发明的热点话题检测方法避免了传统技术中由关键词向量表示话题导致的向量之间的可区分性差的问题,从根本上提升了话题检测的准确性。
技术领域
本发明属于自然语言处理、网络认知安全技术领域,尤其涉及一种基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法。
背景技术
热点话题检测是一种能从当下海量的网络舆情数据中挖掘出民众所关心和讨论的热点话题或事件的技术。传统的热点话题检测有基于主题模型的话题检测技术以及基于文本聚类的话题检测技术两大类。
随着自然语言处理技术的发展,目前最常用的是基于文本聚类的话题检测技术,该技术首先将文本数据表示成能够便于数学计算的向量形式,然后通过计算所采集的文本数据之间的相似度,将这些文本数据划分为不同的簇,最终根据每个簇中包含的帖子所附带的转发、点赞等互动信息的综合排名对所有簇进行排序,选出排名最高的若干个簇,以此来达到检测热点话题的目的。
其中,基于文本聚类算法的话题检测技术,该技术目前存在以下不足:
(1)使用基于文本聚类算法的话题检测技术,首先要做的就是将文本数据处理成能够便于进行数学计算的向量形式。目前常用的词袋模型、Word2Vec等将文本数据表示成向量形式的主要思路是:首先将所有的文本进行预处理以及分词处理,然后将每一篇文本中的关键词汇合成语料库,最后利用每一篇文本中的关键词在该语料库上的映射,得到每一篇文本的向量表示。然而当前互联网媒体平台中的数据存在数据量大、文本长度短、用语不规范、碎片化严重、噪声信息多等特点,这使得基于现有的文本表示算法得到的文本向量维数很高,数据的可区分性很差,除此之外现有的文本表示方法没有考虑文本语义的相似性以及上下文语境信息,很难保证文本表示的准确性,从而导致现有的基于文本聚类的话题检测技术的在实际的应用场景中使用效果很差。
(2)目前常用于话题检测的聚类算法有基于密度聚类的DBSCAN算法以及基于层次聚类的HAC算法。然而这些算法都存在一定的局限性,其中DBSCAN算法的参数调整困难而且在数据量大的时候很难收敛、基于层次聚类的HAC算法计算复杂度高。因此在实际应用中,两种算法都很难达到较好的话题检测效果
(3)在对得到的话题进行向量化表示时,现有的话题检测算法是用该话题中所包含文本关键词的tf-idf(term frequency–inverse document frequency)值来表示该话题。但是在一般情况下,两个相似的事件所用的词频较高的关键词基本相同,因此使用该方法无法区分这两个事件,甚至会将两个事件划分为一个话题;除此之外,基于关键词的tf-idf值得算法无法应对话题的演化和漂移。这两个问题都会影响最终话题检测结果的准确性。
发明内容
本发明的目的在于,为克服现有技术缺陷,提供了一种基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法,通过本发明的热点话题检测方法避免了由关键词向量表示话题导致的向量之间的可区分性差的问题,从根本上提升了话题检测的准确性。
本发明目的通过下述技术方案来实现:
一种基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法,所述热点话题检测方法包括离线热点话题检测和在线热点话题检测;所述离线热点话题检测为检测数据库中已有数据所包含的热点话题,数据量和话题数目不发生变化,所述在线热点话题检测为检测某时间区间内互联网媒体平台中发生的热点话题,数据量和话题数目随时间不断增加;
其中,所述离线热点话题检测包括如下步骤:
A1.数据清洗步骤,对数据库中已有的文本数据做数据清洗,去除文本中的干扰信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技网络信息安全有限公司;深圳市网联安瑞网络科技有限公司,未经中国电子科技网络信息安全有限公司;深圳市网联安瑞网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111615836.9/2.html,转载请声明来源钻瓜专利网。