[发明专利]一种基于增量聚类的企业热点事件挖掘方法有效

专利信息
申请号: 201810680294.5 申请日: 2018-06-27
公开(公告)号: CN109145180B 公开(公告)日: 2021-07-20
发明(设计)人: 王鹏伟;蒋昌俊;孙鑫;章昭辉 申请(专利权)人: 东华大学
主分类号: G06F16/951 分类号: G06F16/951;G06F16/955;G06K9/62
代理公司: 上海泰能知识产权代理事务所(普通合伙) 31233 代理人: 宋缨;钱文斌
地址: 201620 上海市*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 增量 企业 热点 事件 挖掘 方法
【权利要求书】:

1.一种基于增量聚类的企业热点事件挖掘方法,其特征在于,包括以下步骤:

(1)通过网络爬虫获取企业网络新闻;

(2)对爬取的企业网络新闻进行降噪并存入数据库;

(3)从数据库读取企业新闻进行预处理;

(4)对预处理后的企业新闻进行聚类分析;

(5)对聚类分析得到的热点事件簇进行质心新闻提取并存入数据库;其中,所述质心新闻是一个簇内新闻文本中余弦相似度误差平方和SSE最小的新闻,所述质心新闻代表簇核心话题;

(6)从数据库获取所需企业热点事件进行展示。

2.根据权利要求1所述的基于增量聚类的企业热点事件挖掘方法,其特征在于,所述步骤(1)具体包括以下子步骤:

(11)通过关键字搜索获得新闻URL,放入待抓取新闻URL队列;

(12)从待抓取新闻队列读取URL,解析DNS,进入到URL对应的网页,下载该网页;

(13)解析下载的网页,使用正则匹配获取新闻网页中新闻的标题、时间、来源和内容。

3.根据权利要求1所述的基于增量聚类的企业热点事件挖掘方法,其特征在于,所述步骤(2)具体为:基于后期聚类分析对象是新闻内容和标题,使用编码降噪部分去掉新闻内容缺失,新闻标题缺失的噪声新闻,提高聚类正确率,降噪后存入数据库。

4.根据权利要求1所述的基于增量聚类的企业热点事件挖掘方法,其特征在于,所述步骤(3)包括以下子步骤:

(31)从数据库读取新闻,使用jieba中文分词对新闻进行文本分词,分词时去除对聚类无效的高频词和停用词;

(32)对分词完成的新闻进行词加权,使用TF-IDF算法对每篇新闻的特征进行权重计算;

(33)权重计算完成后,进行特征向量化,使用VSM对每篇新闻进行特征向量化,最终形成高维向量矩阵。

5.根据权利要求1所述的基于增量聚类的企业热点事件挖掘方法,其特征在于,所述所述步骤(4)包括以下子步骤:

(41)将新闻以发布时间进行排序,以第一篇新闻文本为第一个簇;

(42)加入新的新闻文本,计算新闻文本与已存在的新闻簇的余弦相似度,取出最大余弦相似度,标记取得最大余弦相似度的簇,将最大余弦相似度与相似度阈值T比较,若大于T,加入标记的簇,重新计算该簇的质心特征向量;若小于T,以新闻文本创建新的簇;

(43)判断是否还有新闻文本需要聚类,若有,返回步骤(42);若没有,进入下一步;

(44)产生k个簇,选取簇新闻数量大于阈值Tn的簇,去掉小于阈值Tn的簇,结束聚类。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东华大学,未经东华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810680294.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top