[发明专利]一种基于余弦距离的前沿科技信息快速推送方法及系统有效
申请号: | 201711125200.X | 申请日: | 2017-11-14 |
公开(公告)号: | CN107657067B | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 马艳;齐达立;陈玉峰;陈素红;曹建梅;邹立达 | 申请(专利权)人: | 国网山东省电力公司电力科学研究院;国家电网公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/9536;G06F16/33 |
代理公司: | 济南诚智商标专利事务所有限公司 37105 | 代理人: | 李修杰 |
地址: | 250002 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 余弦 距离 前沿 科技 信息 快速 推送 方法 系统 | ||
1.一种基于余弦距离的前沿科技信息快速推送方法,其特征是,包括以下过程:
构造余弦距离索引:爬取科技信息文章并存储到科技信息数据库中,并对爬取科技信息文章建立索引;
推送信息:通过快速对比新增文章和数据库的原有文章来查询是否有相同或者近似的文章,判断该新增文章内容是否已经被推送过,如果没有被推送过则加以选择并进行推送给用户;
所述构造余弦距离索引的过程包括以下步骤:
1)利用爬虫技术爬取科技信息文章,并将爬取的科技信息文章文本化,并记为Ti;
2)基于TF-IDF技术提取Ti的TF-IDF向量,记为并将做为key,将Ti做为value,以键值对的形式存储到科技信息数据库中;
3)周期性的采用自下而上的层次凝聚聚类方法对当前科技信息文章向量进行聚类,向量集合
4)在聚类过程中构造出一棵包含簇的层次信息以及所有簇内和簇间的相似度的生成树t,即余弦距离索引,在生成树t中,每个只含单个成员的簇对应树的一个叶节点,叶节点需要存储关键字每个多个成员的簇对应树的一个非叶节点,非叶节点需要存储关键字每次两个簇cx、cy合并生成一个新的非叶节点ni,ni的子节点是cx、cy对应的节点;
所述对当前科技信息文章向量进行聚类的过程包括以下步骤:
31)将每个向量都当做一个聚类,将向量集合T中的每个向量看成一个具有单个成员的簇这些簇构成T的一个聚类集合C={c1,c2,…,ci,…,cn};
32)计算每两个聚类之间的距离,将距离最近的或最相似的两个聚类进行合并,并计算C中每个簇对<ci,cj>之间的相似度距离SD(ci,cj);
33)选取具有最小SD(ci,cj)的簇对<ci,cj>,将ci和cj合并为一个新的簇ck=ci∪cj,同时更新聚类集合C=C∪{ck}-{ci,cj};
34)重复上述步骤31)至步骤33),直至C中剩下一个簇为止。
2.如权利要求1所述的一种基于余弦距离的前沿科技信息快速推送方法,其特征是,所述簇对<ci,cj>之间的相似度距离SD(ci,cj)采用增量距离方法进行计算,具体计算步骤为:
321)用表示两个向量之间的距离,定义为余弦距离的倒数,即
322)定义S2的计算公式为其中
3.如权利要求2所述的一种基于余弦距离的前沿科技信息快速推送方法,其特征是,所述推送信息的过程包括以下步骤:
5)基于生成树t查找与距离最小的向量
6)计算如果则判断Ti具有未推送的内容,需要推送给用户,其中μ是设置的相似度阈值;
7)根据用户订阅的主题,将科技信息文章推送给相关用户。
4.如权利要求3所述的一种基于余弦距离的前沿科技信息快速推送方法,其特征是,所述查找与距离最小的向量的过程包括以下步骤:
51)从生成树t的根节点开始查询,设nx→t.root;
52)如果nx为叶节点,结束此过程,则将nx的关键字赋值给返回
53)如果nx为非叶节点,计算与nx的所有孩子节点关键字的距离,距离利用公式(1)计算,选择具有最小距离的关键字子节点,设为ny;令nx→ny,并转步骤52)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网山东省电力公司电力科学研究院;国家电网公司,未经国网山东省电力公司电力科学研究院;国家电网公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711125200.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:防音布拼副机
- 下一篇:一种便携式压力管道检测装置