[发明专利]文章聚类方法、装置、电子设备、存储介质在审
申请号: | 201811040361.3 | 申请日: | 2018-09-06 |
公开(公告)号: | CN110888978A | 公开(公告)日: | 2020-03-17 |
发明(设计)人: | 刘子丁 | 申请(专利权)人: | 北京京东金融科技控股有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 阚梓瑄;袁礼君 |
地址: | 100176 北京市北京经济*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文章 方法 装置 电子设备 存储 介质 | ||
本发明提供一种文章聚类方法、装置、电子设备、存储介质,文章聚类方法,包括:向量化一待聚类文章获得待聚类文章的待聚类特征向量;计算所述待聚类特征向量与子类中心向量的相似度,所述子类中心向量依据该子类中已聚类特征向量计算;若所述相似度小于预设相似度阈值,则将所述待聚类特征向量所指示的待聚类文章归入该子类;以及更新归入所述待聚类文章的子类中心向量。本发明提供的方法及装置具有在线性、历史可追溯性和效率性。
技术领域
本发明涉及计算机应用技术领域,尤其涉及一种文章聚类方法、装置、电子设备、存储介质。
背景技术
文本聚类技术可应用于舆情分析与监控系统:舆情系统每日通过网络爬虫可收集来自各个领域的海量新闻数据,利用算法有效的将这些文章进行归纳分类,可以帮助用户快速了解当前的热点事件,并高效的进行进一步的分析处理。
传统文本聚类技术主要分为分割式(Partitional Clustering)和层次式(Hierarchical Clustering)。分割式如K-means算法,可以将输入的多篇文本分割为预先设定好的K个分类;而层次式则不需要固定输出分类的个数,只需设定文本相似度阈值,并依此将输入的多篇文本聚类。在舆情系统的文本聚类场景下,通常无法预先判断新闻的分类个数,因此采用层次式聚类方法会更加合适。
现有层次式聚类主要是基于批处理(batch)方法,即聚类算法的输入为基于一批多篇文本所提取的文本特征向量,且输出的文本聚类仅针对这一批数据;如果再有新增的文本需要聚类,则需要将新增文本与历史文本整理成一批数据重新输入,对于新增的词汇重新进行文本特征向量的构建。再利用聚类算法输出新的聚类结果,而之前一批的结果与新的结果不存在相关性。在舆情系统的文本聚类场景下,每日存在大量的新增文本。一个有效处理新增文本的聚类方法,需要同时具备高效性、可实时更新性与历史新闻事件的可追溯性三个性质。
Canhui Wang等人在论文Automatic Online News Issue Construction in WebEnvironment中提出一种构建新增词汇的文本特征向量的方法:即弃用传统上必须考虑全部历史文档的反文档词频(IDF)特征,改为构建只考虑新增文档的反词频(IWF)特征。应用这种文本特征构建方法,进行三步聚类:(1)单独聚类新增的多篇文档;(2)根据新增文本特征更新历史文档的特征向量;(3)比较新增文档聚类和历史文档聚类的结果,进行分类的融合或新增。
R.和H.OLIVEIRA在论文OHDOCLUS–Online and HierarchicalDocument Clustering中提出一种针对文本的在线层次聚类的方法,大体思路为:每新增一篇文档,根据文本相似度更新层次聚类的结构树图;同时在树图中保留全部的历史文档信息,定期回溯更新文本特征向量和历史树图节点分支。
应用于舆情系统的文本聚类方法,需要能够满足以下3点重要需求:
(1)在线性:即支持新增文档的单独聚类与更新。传统的批处理聚类方法无法满足这个需求,虽然上述两篇论文都提出了不同的解决方法,但是Automatic Online NewsIssue Construction in Web Environment中提到的方法仅可看作一种批处理方法的变体,在初始阶段仍旧需要对批量新增文本进行聚类,并不能真正处理单篇新增文本。
(2)历史可追溯性:舆情系统的文本聚类功能要求历史文档的聚类结果可追溯,并且聚类完成后不能更改,以方便统计某一类的新闻事件在一段时间内的数量变化。OHDOCLUS–Online and Hierarchical Document Clustering中,存储在历史树图节点的历史文档需要进行定期融合和分叉,每次更新后文档的分类结果会略有差别。虽然这个更新操作可以综合提升最终聚类精度,但并不适用于一个不断新增新闻、并关注聚类历史变动的舆情系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东金融科技控股有限公司,未经北京京东金融科技控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811040361.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种液态乳及其制备方法
- 下一篇:一种氧化钛的制备方法