[发明专利]一种基于近邻搜索的新闻文本聚合方法及系统有效
申请号: | 202011531635.6 | 申请日: | 2020-12-22 |
公开(公告)号: | CN112463952B | 公开(公告)日: | 2023-05-05 |
发明(设计)人: | 许建兵;李军;李帅;章礼娟;陶飞 | 申请(专利权)人: | 安徽商信政通信息技术股份有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/33;G06F16/383;G06F16/35;G06F18/2431;G06F18/25;G06F16/951 |
代理公司: | 北京知联天下知识产权代理事务所(普通合伙) 11594 | 代理人: | 史光伟;张迎新 |
地址: | 230000 安徽省合肥市高新*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 近邻 搜索 新闻 文本 聚合 方法 系统 | ||
本发明提出一种基于近邻搜索的新闻文本聚合方法及系统,包括以下步骤:采集和清洗数据;基于清洗后的数据确定新闻文本特征向量;根据新闻文本特征向量构建KDTree;根据构建好的KDTree对新闻文本特征向量进行近邻检索并生成近邻集合;对近邻集合进行集合合并分析得到不同事件的聚合簇。本发明聚合分析模块集合的合并,利用非极大值抑制思想,提升了事件的聚合效率及效果,解决异常数据不敏感问题,无须自定义聚合簇数目,将同一类型事件成功聚合,同时也能提取出异常数据或者独簇数据;同时本发明的聚合分析模块的新数据聚合以及KDTree更新模块,能够处理新数据,对我们的文本聚合的灵活性和时效性有保障,可以单独处理新数据,也可以实时更新聚合簇。
技术领域
本发明属于自然语言处理领域,特别涉及一种基于近邻搜索的新闻文本聚合方法及系统。
背景技术
现有文本的聚合分析主要都是基于无监督的聚类算法或者是利用主题模型进行聚类分析,又或者是直接根据相似度进行聚合。
常用的聚类算法:如K-means、层次聚类、密度聚类等等。
常用的主题模型:LSI、LDA等等。
传统的聚类算法的问题:计算复杂度高,计算成本高如K-means计算复杂度为n^2,不适用于大数据量的情况下的聚类;K-means需要先行设定聚类的簇数目,但是大多情况下我们不知道这个簇数目;对异常数据不敏感等。
传统主题模型的问题:主题模型需要预设主题数目,这个主题数目不好确定,我们一般可以采取主题模型来提取文档特征。
传统的直接进行相似度计算的方法复杂度高,需要两两计算相似度,也是n^2的复杂度,不适用于大数据量的情况。
本发明主要时通过近邻检索加上相似度阈值过滤进行文本聚合,并使用非极大值抑制(NMS)进行簇的融合,解决传统方法文本聚合方法中无法明确簇数目、计算复杂度高,对异常数据不明感的问题。最终能够快速、精准的进行文本事件聚合分析。
发明内容
针对上述问题,本发明提出一种基于近邻搜索的新闻文本聚合方法,所述方法包括以下步骤:
步骤a、采集和清洗数据;
步骤b、基于清洗后的所述数据确定新闻文本特征向量;
步骤c、根据所述新闻文本特征向量构建KDTree;
步骤d、根据构建好的所述KDTree对所述新闻文本特征向量进行近邻检索并生成近邻集合;
步骤e、对所述近邻集合进行集合合并分析得到不同事件的聚合簇。
进一步的,所述数据包括新闻文本id、新闻标题、正文内容、新闻发布时间。
进一步的,步骤a中所述采集和清洗数据具体包括以下步骤:
步骤a1、使用爬虫技术,从多个当前热门的新闻门户网站爬取新闻数据,数据爬取时应含有一下几个重要特征字段:新闻文本id、新闻标题、正文内容、新闻发布时间;
步骤a2、对所述新闻标题和所述正文内容进行数据清洗,去除文本中的html标签,只保留文本内容;对所述新闻标题和所述正文内容进行分词;
步骤a3、对所述新闻发布时间进行时间戳转换。
进一步的,确定所述新闻特征文本向量前包括根据预训练的词向量获取所述新闻标题和所述正文内容分词每个词的词向量的步骤,确定所述新闻文本特征向量具体包括以下步骤:
步骤b1、确定新闻标题特征向量title_embedding:对每条数据的所述新闻标题的分词词向量取均值得到标题特征向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽商信政通信息技术股份有限公司,未经安徽商信政通信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011531635.6/2.html,转载请声明来源钻瓜专利网。