[发明专利]文章聚类方法、装置、电子设备、存储介质在审

专利信息
申请号: 201811040361.3 申请日: 2018-09-06
公开(公告)号: CN110888978A 公开(公告)日: 2020-03-17
发明(设计)人: 刘子丁 申请(专利权)人: 北京京东金融科技控股有限公司
主分类号: G06F16/35 分类号: G06F16/35
代理公司: 北京律智知识产权代理有限公司 11438 代理人: 阚梓瑄;袁礼君
地址: 100176 北京市北京经济*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文章 方法 装置 电子设备 存储 介质
【说明书】:

发明提供一种文章聚类方法、装置、电子设备、存储介质,文章聚类方法,包括:向量化一待聚类文章获得待聚类文章的待聚类特征向量;计算所述待聚类特征向量与子类中心向量的相似度,所述子类中心向量依据该子类中已聚类特征向量计算;若所述相似度小于预设相似度阈值,则将所述待聚类特征向量所指示的待聚类文章归入该子类;以及更新归入所述待聚类文章的子类中心向量。本发明提供的方法及装置具有在线性、历史可追溯性和效率性。

技术领域

本发明涉及计算机应用技术领域,尤其涉及一种文章聚类方法、装置、电子设备、存储介质。

背景技术

文本聚类技术可应用于舆情分析与监控系统:舆情系统每日通过网络爬虫可收集来自各个领域的海量新闻数据,利用算法有效的将这些文章进行归纳分类,可以帮助用户快速了解当前的热点事件,并高效的进行进一步的分析处理。

传统文本聚类技术主要分为分割式(Partitional Clustering)和层次式(Hierarchical Clustering)。分割式如K-means算法,可以将输入的多篇文本分割为预先设定好的K个分类;而层次式则不需要固定输出分类的个数,只需设定文本相似度阈值,并依此将输入的多篇文本聚类。在舆情系统的文本聚类场景下,通常无法预先判断新闻的分类个数,因此采用层次式聚类方法会更加合适。

现有层次式聚类主要是基于批处理(batch)方法,即聚类算法的输入为基于一批多篇文本所提取的文本特征向量,且输出的文本聚类仅针对这一批数据;如果再有新增的文本需要聚类,则需要将新增文本与历史文本整理成一批数据重新输入,对于新增的词汇重新进行文本特征向量的构建。再利用聚类算法输出新的聚类结果,而之前一批的结果与新的结果不存在相关性。在舆情系统的文本聚类场景下,每日存在大量的新增文本。一个有效处理新增文本的聚类方法,需要同时具备高效性、可实时更新性与历史新闻事件的可追溯性三个性质。

Canhui Wang等人在论文Automatic Online News Issue Construction in WebEnvironment中提出一种构建新增词汇的文本特征向量的方法:即弃用传统上必须考虑全部历史文档的反文档词频(IDF)特征,改为构建只考虑新增文档的反词频(IWF)特征。应用这种文本特征构建方法,进行三步聚类:(1)单独聚类新增的多篇文档;(2)根据新增文本特征更新历史文档的特征向量;(3)比较新增文档聚类和历史文档聚类的结果,进行分类的融合或新增。

R.和H.OLIVEIRA在论文OHDOCLUS–Online and HierarchicalDocument Clustering中提出一种针对文本的在线层次聚类的方法,大体思路为:每新增一篇文档,根据文本相似度更新层次聚类的结构树图;同时在树图中保留全部的历史文档信息,定期回溯更新文本特征向量和历史树图节点分支。

应用于舆情系统的文本聚类方法,需要能够满足以下3点重要需求:

(1)在线性:即支持新增文档的单独聚类与更新。传统的批处理聚类方法无法满足这个需求,虽然上述两篇论文都提出了不同的解决方法,但是Automatic Online NewsIssue Construction in Web Environment中提到的方法仅可看作一种批处理方法的变体,在初始阶段仍旧需要对批量新增文本进行聚类,并不能真正处理单篇新增文本。

(2)历史可追溯性:舆情系统的文本聚类功能要求历史文档的聚类结果可追溯,并且聚类完成后不能更改,以方便统计某一类的新闻事件在一段时间内的数量变化。OHDOCLUS–Online and Hierarchical Document Clustering中,存储在历史树图节点的历史文档需要进行定期融合和分叉,每次更新后文档的分类结果会略有差别。虽然这个更新操作可以综合提升最终聚类精度,但并不适用于一个不断新增新闻、并关注聚类历史变动的舆情系统。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东金融科技控股有限公司,未经北京京东金融科技控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811040361.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top