[发明专利]一种动态计算新闻采集服务资源的方法有效
申请号: | 201811274611.X | 申请日: | 2018-10-30 |
公开(公告)号: | CN109325104B | 公开(公告)日: | 2021-11-19 |
发明(设计)人: | 詹咏松;程国艮 | 申请(专利权)人: | 中译语通科技股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35 |
代理公司: | 北京兴智翔达知识产权代理有限公司 11768 | 代理人: | 郭卫芹 |
地址: | 100040 北京市石*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 动态 计算 新闻 采集 服务 资源 方法 | ||
本发明公开一种动态计算新闻采集服务资源的方法。所述方法以过往所采集的新闻数据和为采集数据所投入的采集资源量为基础、对数据进行特征抽取,通过逻辑回归模型动态分析确定对特定网站的数据采集频率,进而动态确定对特定网站进行数据采集所需要投入的采集资源,再通过实际采集的数据量和资源投入量作为反馈信息,不断修正逻辑回归模型的参数,对采集频率进行动态修正和优化。通过所述方法,可以在采集过程中动态调整优化采集频率和资源投入,有效地克服漏采和采集成本过高等问题,在确保采集质量的前提下,大幅减低采集成本。
技术领域
本发明属于数据分析技术领域,具体涉及一种动态计算新闻采集服务资源的方法。
背景技术
新闻网站每天更新数据频繁,站点数量众多,对于从事于网站数据挖掘分析的企业而言,需要大量的服务器/带宽/IP资源,来对新闻网站的数据资源进行采集,每一类资源的使用都会涉及大量的成本。对新闻网站采集频率过低,容易遗漏采集新闻;采集频率高,则需要的服务器/带宽成本高,当采集频率过高时,为了减少新闻站点的误判,还需要使用代理IP进行采集。
现有采集系统一般会按单一频率采集网站数据资源,部分优秀的采集系统会采用分级管理,对网站进行简单分类,针对每一类采用固定频率进行数据资源采集。这些方法,难以合理配置对新闻网站的采集频率,无法避免前述的漏采集或者过高采集成本的问题。
逻辑回归是一种有监督的统计学习方法,主要用于对样本进行分类。
在线性回归模型中,输出一般是连续的,例如y=f(x)=ax+b,对于每一个输入的x,都有一个对应的y输出。模型的定义域和值域都可以是[-∞, +∞]。但是对于逻辑回归,定义域可以是连续的[-∞, +∞],但值域一般是离散的,即只有有限多个输出值。例如,其值域可以只有两个值{0, 1},这两个值可以表示对样本的某种分类,比如高/低、患病/健康、阴性/阳性等,这就是最常见的二分类逻辑回归。因此,从整体上来说,通过逻辑回归模型,我们将在整个实数范围上的x映射到了有限个点上,这样就实现了对x的分类。因为每次拿过来一个x,经过逻辑回归分析,就可以将它归入某一类y中。
逻辑回归也被称为广义线性回归模型,它与线性回归模型的形式基本上相同,都具有 ax+b,其中a和b是待求参数,其区别在于他们的因变量不同,多重线性回归直接将ax+b作为因变量,即y = ax+b,而logistic回归则通过函数S将ax+b对应到一个隐状态p,p = S(ax+b),然后根据p与1-p的大小决定因变量的值。这里的函数S就是Sigmoid函数
(1)
将t换成ax+b,可以得到逻辑回归模型的参数形式:
(2)
如何用最少的计算、存储和网络资源获得满意的数据资源采集效果,是本发明需要解决的问题。本发明通过动态评估采集数量,预测下一步采集数量,并对采集资源合理调用,在保证采集准确的前提下,降低所需要的采集资源。
发明内容
为了解决现有数据采集系统静态设置数据采集频率,导致数据采集不全、漏采重要数据,或者浪费计算、存储和网络资源,导致采集成本过高等问题,本发明提供一种动态计算新闻采集服务资源的方法,所述方法以历史数据为基础、对数据进行特征抽取,通过逻辑回归模型动态分析确定对特定网站的数据采集频率,进而动态确定了对特定网站进行数据采集所需要投入的采集资源,如计算、存储、网络资源等。通过所述方法,可以在采集过程中动态调整优化采集频率和资源投入,有效地克服漏采和采集成本过高等问题,在确保采集质量的前提下,大幅减低采集成本。
为实现上述目标,本发明采用以下技术方案:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中译语通科技股份有限公司,未经中译语通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811274611.X/2.html,转载请声明来源钻瓜专利网。