[发明专利]一种基于余弦距离的前沿科技信息快速推送方法及系统有效
申请号: | 201711125200.X | 申请日: | 2017-11-14 |
公开(公告)号: | CN107657067B | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 马艳;齐达立;陈玉峰;陈素红;曹建梅;邹立达 | 申请(专利权)人: | 国网山东省电力公司电力科学研究院;国家电网公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/9536;G06F16/33 |
代理公司: | 济南诚智商标专利事务所有限公司 37105 | 代理人: | 李修杰 |
地址: | 250002 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 余弦 距离 前沿 科技 信息 快速 推送 方法 系统 | ||
本发明公开了一种基于余弦距离的前沿科技信息快速推送方法及系统,方法包括构造余弦距离索引和推送信息两个过程,它首先爬取科技信息文章并存储到科技信息数据库中,并对爬取科技信息文章建立索引;然后通过快速对比新增文章和数据库的原有文章来查询是否有相同或者近似的文章,判断该新增文章内容是否已经被推送过,如果没有被推送过则加以选择并进行推送给用户。系统包括余弦距离索引模块、科技信息数据库和推送信息模块。本发明不仅使推送给用户的前沿科技信息避免相似性冗余,而且采用余弦距离索引可以加快文章的相似性判断,及时地将前沿信息推送给用户。
技术领域
本发明涉及网络数据推送技术领域,具体地说是一种基于余弦距离的前沿科技信息快速推送方法及系统。
背景技术
科技情报对国家、社会、企业的战略、计划的制定以及实施都发挥了重要作用。随着科学技术日新月异的发展,社会各行业、各单位部门对情报信息的需求更加迫切,科技情报被认为是经济建设、科研、设计、生产、经营管理、市场营销中的关键环节。
互联网的兴起与普及使得科技信息的获得更加快速与易得,然而,在大量的科技咨询中找到最新的前沿信息是费时与困难的。当前的科技情报推送系统,多以主题的方式对科技信息进行分类。当情报使用人员关注某一主题时,系统往往把这一主题的所有文章都加以推送,因而使用人员无法分清那些文章或者文献是最新的科研成果。比较直观的方法是根据信息文件的发布时间加以区分,只将近期发布的信息推送给用户。这种方法虽然可以将最新的科技信息找到,但是极易造成科技前沿信息的冗余与漏报:1)由于科技网站之间、文献数据库之间存在大量镜像与简单修改后再转载的情况,因此会有大量重复或者相似的文章被推送到用户端。2)系统在运行时,会对科技信息的数据源进行扩展,比如填加一个文献数据库,这时新增文献数据库中会有许多文献是没有被推送过但发布时间比较旧,然而只依据最新原则会将此类信息忽略。
科技信息数据库会存储大量的已被推送的文章,可以将新增文章与大量的文章进行一一比较,以判断该文章是否是重复或者相似的文章,是一件及为耗时的任务,这与科技情况信息的及时性要求相违背。
因此,亟需设计一种前沿科技信息的快速推送技术,来将没有推送过的信息及时地推送到用户端。
发明内容
针对现有技术的不足,本发明提出了一种基于余弦距离的前沿科技信息快速推送方法及系统,其能够将一个主题的科技信息查找出来,并进行快速比较,将没有推送过的信息及时地推送给用户。
本发明解决其技术问题采取的技术方案是:
一方面,本发明实施例提供的一种基于余弦距离的前沿科技信息快速推送方法,它包括以下过程:
构造余弦距离索引:爬取科技信息文章并存储到科技信息数据库中,并对爬取科技信息文章建立索引;
推送信息:通过快速对比新增文章和数据库的原有文章来查询是否有相同或者近似的文章,判断该新增文章内容是否已经被推送过,如果没有被推送过则加以选择并进行推送给用户。
作为本实施例一种可能的实现方式,所述构造余弦距离索引的过程包括以下步骤:
1)利用爬虫技术爬取科技信息文章,并将爬取的科技信息文章文本化,并记为Ti;
2)基于TF-IDF技术提取Ti的TF-IDF向量,记为并将做为key,将Ti做为value,以键值对的形式存储到科技信息数据库中;
3)周期性的采用自下而上的层次凝聚聚类方法对当前科技信息文章向量进行聚类,向量集合
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网山东省电力公司电力科学研究院;国家电网公司,未经国网山东省电力公司电力科学研究院;国家电网公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711125200.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:防音布拼副机
- 下一篇:一种便携式压力管道检测装置