[发明专利]舆情推荐方法、装置、计算机设备及存储介质在审
申请号: | 201811346051.4 | 申请日: | 2018-11-13 |
公开(公告)号: | CN109189934A | 公开(公告)日: | 2019-01-11 |
发明(设计)人: | 吴壮伟 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/9535;G06F16/9536 |
代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 刘贻盛 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚类 语料 检索关键词 热度 计算机设备 存储介质 更新 外网 向量 标签 文本 关键词集合 模型获取 外网网址 文本资源 外部 分词 录入 预设 检索 归属 分类 | ||
1.一种舆情推荐方法,其特征在于,包括:
获取从预设的内网网址中所爬取初始语料进行关键词提取得到的关键词集合,根据关键词集合从外网网址的文本资源中爬取外部语料,获取与所述外部语料所包括的多篇文本中各文本一一对应的外网全文文章向量;
将所述外部语料中各文本对应的外网全文文章向量根据预先聚类所得到的聚类群进行分类,得到更新后聚类群;
获取更新后聚类群中每一聚类群所对应语料数据,根据所述语料数据及预设的舆情热度模型获取更新后聚类群中每一聚类群的舆情热度值;以及
接收所录入的检索关键词,若在更新后聚类群中存在有聚类群的标签与所述检索关键词相同,将对应聚类群的舆情内容和舆情热度值进行显示。
2.根据权利要求1所述的舆情推荐方法,其特征在于,所述根据关键词集合从外网网址的文本资源中爬取外部语料,获取与所述外部语料所包括的多篇文本中各文本一一对应的外网全文文章向量之前,还包括:
从预设的内网网址中爬取初始语料,获取与所述初始语料所包括的多篇文本中各文本一一对应的内网全文文章向量;
将各文本对应的全文文章向量进行DBSCAN聚类,得到多个聚类群,并对每一聚类群各设置一个标签。
3.根据权利要求1所述的舆情推荐方法,其特征在于,所述获取与所述外部语料所包括的多篇文本中各文本一一对应的外网全文文章向量,包括:
将所述外部语料所包括的多篇文本中各文本的标题和正文分别通过词频-逆文本频率指数模型进行关键词信息抽取,得到与各文本对应的标题关键词列表和正文关键词列表;
通过Word2Vec模型获取各标题关键词列表所包括标题关键词对应的标题词向量,及与标题关键词列表对应的标题平均向量;
通过Word2Vec模型获取各正文关键词列表所包括正文关键词对应的正文词向量,及与各正文关键词列表对应的正文平均向量;
根据文本的全文文章向量=标题平均向量*预设的第一权重+正文平均向量*预设的第二权重,获取与所述外部语料所包括的多篇文本中各文本一一对应的外网全文文章向量。
4.根据权利要求1所述的舆情推荐方法,其特征在于,所述将所述外部语料中各文本对应的外网全文文章向量根据预先聚类所得到的聚类群进行分类,得到更新后聚类群,包括:
获取所述外部语料中各文本一一对应的外网全文文章向量,计算每一外网全文文章向量与多个聚类群中各聚类群中心之间的欧式距离;
获取每一外网全文文章向量与多个聚类群中各聚类群中心之间的欧式距离中的最短距离,以作为外网全文文章向量的聚类归属判断距离;
若外网全文文章向量的聚类归属判断距离小于多个聚类群其中一个聚类群的扫描半径,将外网全文文章向量增加至对应的聚类群,直至各聚类群中无新增的外网全文文章向量以得到更新后聚类群;
若外网全文文章向量的聚类归属判断距离大于多个聚类群各聚类群的扫描半径,将外网全文文章向量增加至未聚类的文本集合。
5.根据权利要求1所述的舆情推荐方法,其特征在于,所述根据所述语料数据及预设的舆情热度模型获取更新后聚类群中每一聚类群的舆情热度值,包括:
获取所述语料数据包括的多篇文本中每一文本的点赞数、评论数和转发数之和以得到每一文本的热度值;
获取每一文本的发表时间与当前系统时间之差并乘以预设调节参数以作为自然指数e的指数,计算得到每一文本的时间衰退因子;
将所述语料数据中各文本的热度值乘以对应的时间衰退因子并求和,得到所述语料数据相对应聚类群的舆情热度值。
6.根据权利要求3所述的舆情推荐方法,其特征在于,所述根据文本的全文文章向量=标题平均向量*预设的第一权重+正文平均向量*预设的第二权重,获取与所述外部语料所包括的多篇文本中各文本一一对应的外网全文文章向量之后,还包括:
根据所述更新后聚类群中每一聚类群对应建立图数据,并存储至图数据库;其中,以所述更新后聚类群中每一聚类群的标签作为图数据的实体,以每一聚类群对应的舆情热度值作为图数据的对象。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811346051.4/1.html,转载请声明来源钻瓜专利网。