[发明专利]一种基于增量聚类的企业热点事件挖掘方法有效
申请号: | 201810680294.5 | 申请日: | 2018-06-27 |
公开(公告)号: | CN109145180B | 公开(公告)日: | 2021-07-20 |
发明(设计)人: | 王鹏伟;蒋昌俊;孙鑫;章昭辉 | 申请(专利权)人: | 东华大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955;G06K9/62 |
代理公司: | 上海泰能知识产权代理事务所(普通合伙) 31233 | 代理人: | 宋缨;钱文斌 |
地址: | 201620 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 增量 企业 热点 事件 挖掘 方法 | ||
1.一种基于增量聚类的企业热点事件挖掘方法,其特征在于,包括以下步骤:
(1)通过网络爬虫获取企业网络新闻;
(2)对爬取的企业网络新闻进行降噪并存入数据库;
(3)从数据库读取企业新闻进行预处理;
(4)对预处理后的企业新闻进行聚类分析;
(5)对聚类分析得到的热点事件簇进行质心新闻提取并存入数据库;其中,所述质心新闻是一个簇内新闻文本中余弦相似度误差平方和SSE最小的新闻,所述质心新闻代表簇核心话题;
(6)从数据库获取所需企业热点事件进行展示。
2.根据权利要求1所述的基于增量聚类的企业热点事件挖掘方法,其特征在于,所述步骤(1)具体包括以下子步骤:
(11)通过关键字搜索获得新闻URL,放入待抓取新闻URL队列;
(12)从待抓取新闻队列读取URL,解析DNS,进入到URL对应的网页,下载该网页;
(13)解析下载的网页,使用正则匹配获取新闻网页中新闻的标题、时间、来源和内容。
3.根据权利要求1所述的基于增量聚类的企业热点事件挖掘方法,其特征在于,所述步骤(2)具体为:基于后期聚类分析对象是新闻内容和标题,使用编码降噪部分去掉新闻内容缺失,新闻标题缺失的噪声新闻,提高聚类正确率,降噪后存入数据库。
4.根据权利要求1所述的基于增量聚类的企业热点事件挖掘方法,其特征在于,所述步骤(3)包括以下子步骤:
(31)从数据库读取新闻,使用jieba中文分词对新闻进行文本分词,分词时去除对聚类无效的高频词和停用词;
(32)对分词完成的新闻进行词加权,使用TF-IDF算法对每篇新闻的特征进行权重计算;
(33)权重计算完成后,进行特征向量化,使用VSM对每篇新闻进行特征向量化,最终形成高维向量矩阵。
5.根据权利要求1所述的基于增量聚类的企业热点事件挖掘方法,其特征在于,所述所述步骤(4)包括以下子步骤:
(41)将新闻以发布时间进行排序,以第一篇新闻文本为第一个簇;
(42)加入新的新闻文本,计算新闻文本与已存在的新闻簇的余弦相似度,取出最大余弦相似度,标记取得最大余弦相似度的簇,将最大余弦相似度与相似度阈值T比较,若大于T,加入标记的簇,重新计算该簇的质心特征向量;若小于T,以新闻文本创建新的簇;
(43)判断是否还有新闻文本需要聚类,若有,返回步骤(42);若没有,进入下一步;
(44)产生k个簇,选取簇新闻数量大于阈值Tn的簇,去掉小于阈值Tn的簇,结束聚类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东华大学,未经东华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810680294.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种爬虫行为检测方法及装置
- 下一篇:基于云计算的网络实践教学平台