[发明专利]一种基于近邻搜索的新闻文本聚合方法及系统有效

申请号：	202011531635.6	申请日：	2020-12-22
公开（公告）号：	CN112463952B	公开（公告）日：	2023-05-05
发明（设计）人：	许建兵;李军;李帅;章礼娟;陶飞	申请（专利权）人：	安徽商信政通信息技术股份有限公司
主分类号：	G06F16/335	分类号：	G06F16/335;G06F16/33;G06F16/383;G06F16/35;G06F18/2431;G06F18/25;G06F16/951
代理公司：	北京知联天下知识产权代理事务所(普通合伙) 11594	代理人：	史光伟;张迎新
地址：	230000 安徽省合肥市高新***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于近邻搜索新闻文本聚合方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提出一种基于近邻搜索的新闻文本聚合方法及系统，包括以下步骤：采集和清洗数据；基于清洗后的数据确定新闻文本特征向量；根据新闻文本特征向量构建KDTree；根据构建好的KDTree对新闻文本特征向量进行近邻检索并生成近邻集合；对近邻集合进行集合合并分析得到不同事件的聚合簇。本发明聚合分析模块集合的合并，利用非极大值抑制思想，提升了事件的聚合效率及效果，解决异常数据不敏感问题，无须自定义聚合簇数目，将同一类型事件成功聚合，同时也能提取出异常数据或者独簇数据；同时本发明的聚合分析模块的新数据聚合以及KDTree更新模块，能够处理新数据，对我们的文本聚合的灵活性和时效性有保障，可以单独处理新数据，也可以实时更新聚合簇。

技术领域

本发明属于自然语言处理领域，特别涉及一种基于近邻搜索的新闻文本聚合方法及系统。

背景技术

现有文本的聚合分析主要都是基于无监督的聚类算法或者是利用主题模型进行聚类分析，又或者是直接根据相似度进行聚合。

常用的聚类算法：如K-means、层次聚类、密度聚类等等。

常用的主题模型：LSI、LDA等等。

传统的聚类算法的问题：计算复杂度高，计算成本高如K-means计算复杂度为n^2，不适用于大数据量的情况下的聚类；K-means需要先行设定聚类的簇数目，但是大多情况下我们不知道这个簇数目；对异常数据不敏感等。

传统主题模型的问题：主题模型需要预设主题数目，这个主题数目不好确定，我们一般可以采取主题模型来提取文档特征。

传统的直接进行相似度计算的方法复杂度高，需要两两计算相似度，也是n^2的复杂度，不适用于大数据量的情况。

本发明主要时通过近邻检索加上相似度阈值过滤进行文本聚合，并使用非极大值抑制(NMS)进行簇的融合，解决传统方法文本聚合方法中无法明确簇数目、计算复杂度高，对异常数据不明感的问题。最终能够快速、精准的进行文本事件聚合分析。

发明内容

针对上述问题，本发明提出一种基于近邻搜索的新闻文本聚合方法，所述方法包括以下步骤：