[发明专利]一种基于近邻搜索的新闻文本聚合方法及系统有效
申请号: | 202011531635.6 | 申请日: | 2020-12-22 |
公开(公告)号: | CN112463952B | 公开(公告)日: | 2023-05-05 |
发明(设计)人: | 许建兵;李军;李帅;章礼娟;陶飞 | 申请(专利权)人: | 安徽商信政通信息技术股份有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/33;G06F16/383;G06F16/35;G06F18/2431;G06F18/25;G06F16/951 |
代理公司: | 北京知联天下知识产权代理事务所(普通合伙) 11594 | 代理人: | 史光伟;张迎新 |
地址: | 230000 安徽省合肥市高新*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 近邻 搜索 新闻 文本 聚合 方法 系统 | ||
1.一种基于近邻搜索的新闻文本聚合方法,其特征在于,所述方法包括以下步骤:
步骤a、采集和清洗数据;
步骤b、基于清洗后的所述数据确定新闻文本特征向量;
步骤c、根据所述新闻文本特征向量构建KDTree;
步骤d、根据构建好的所述KDTree对所述新闻文本特征向量进行近邻检索并生成近邻集合;
步骤d中,生成所述近邻集合前还包括相似度阙值过滤和时间阈值过滤的步骤:
相似度阙值过滤包括:计算输入所述新闻文本特征向量与找到的K个近邻的文本特征向量的余弦相似度;对于相似度小于相似度阈值的近邻进行过滤,保留相似度大于等于相似阈值的近邻;
步骤e、对所述近邻集合进行集合合并分析得到不同事件的聚合簇;
步骤e中,采用非极大值抑制思想对所述近邻集合进行集合合并分析,具体包括以下步骤:
步骤e1、计算所述近邻集合中每个集合的集合长度并排序;
步骤e2、选择集合长度最大的集合,并遍历计算其他集合与最大集合长度的杰卡德相似度;
步骤e3、对于步骤e2中的其他集合及杰卡德相似度,将所有杰卡德相似度大于集合重合度阈值的其他集合与所述最大集合长度合并集合形成一簇,并且删除已经进行合并过的所有其他集合,保留对应的所述最大集合长度,作为簇中心;
步骤e4、经过步骤e2和步骤e3后,在剩下的集合中继续找到新的集合长度最大的集合,重复步骤e2和步骤e3,直至全部集合处理完毕。
2.根据权利要求1所述的基于近邻搜索的新闻文本聚合方法,其特征在于,所述数据包括新闻文本id、新闻标题、正文内容、新闻发布时间。
3.根据权利要求2所述的基于近邻搜索的新闻文本聚合方法,其特征在于,步骤a中所述采集和清洗数据具体包括以下步骤:
步骤a1、使用爬虫技术,从多个当前热门的新闻门户网站爬取新闻数据,数据爬取时应含有一下几个重要特征字段:新闻文本id、新闻标题、正文内容、新闻发布时间;
步骤a2、对所述新闻标题和所述正文内容进行数据清洗,去除文本中的html标签,只保留文本内容;对所述新闻标题和所述正文内容进行分词;
步骤a3、对所述新闻发布时间进行时间戳转换。
4.根据权利要求2所述的基于近邻搜索的新闻文本聚合方法,其特征在于,确定所述新闻特征文本向量前包括根据预训练的词向量获取所述新闻标题和所述正文内容分词每个词的词向量的步骤,确定所述新闻文本特征向量具体包括以下步骤:
步骤b1、确定新闻标题特征向量title_embedding:对每条数据的所述新闻标题的分词词向量取均值得到标题特征向量;
步骤b2、确定正文内容特征向量content_embedding:对每条数据的所述正文内容的分词词向量取均值得到正文内容特征向量;
步骤b3、确定新闻文本特征向量News_embedding:News_embedding=0.6*title_embedding+0.4*content_embedding。
5.根据权利要求2所述的基于近邻搜索的新闻文本聚合方法,其特征在于,构建所述KDTree具体包括以下步骤:
步骤c1、将所述新闻文本特征向量与采集的所述新闻文本id、所述新闻发布时间按照索引对应,按照索引顺序输入所有的所述新闻文本特征向量进行KDTree的构建;
步骤c2、按照索引顺序存储所述新闻文本特征向量对应的所述新闻文本id和所述新闻发布时间。
6.根据权利要求2所述的基于近邻搜索的新闻文本聚合方法,其特征在于,步骤d中,对所述新闻文本特征向量进行近邻检索具体包括以下步骤:
步骤d1、对输入数据的所述新闻文本特征向量在已经构建好的所述KDTree中获取K个近邻,返回其索引,其中,K表示超参数;
步骤d2、获取所述KDTree中保存的文本特征向量,并根据步骤d1中返回的近邻索引获取近邻文本特征向量;
步骤d3、根据步骤d1中返回的近邻索引在构建所述KDTree中保存的所述新闻文本id和所述新闻发布时间中找到所述近邻文本特征向量对应的新闻文本id和新闻发布时间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽商信政通信息技术股份有限公司,未经安徽商信政通信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011531635.6/1.html,转载请声明来源钻瓜专利网。