[发明专利]一种基于流式计算的金融仓单风控信息爬取和筛选方法有效
申请号: | 201610465640.9 | 申请日: | 2016-06-23 |
公开(公告)号: | CN106126642B | 公开(公告)日: | 2020-01-17 |
发明(设计)人: | 李浩 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955;G06F16/9535 |
代理公司: | 11203 北京思海天达知识产权代理有限公司 | 代理人: | 张慧 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于流式计算的金融仓单风险信息爬取和筛选方法,基于流式计算技术将爬虫过程解耦为6个子过程:URL筛选、页面分析、关键词过滤、数值过滤、特征向量匹配过滤、资源更新。采用本发明的技术方案,以解决传统方法在并行爬虫方面实时性较低,金融仓单风控对货物估值实时性要求高的问题。 | ||
搜索关键词: | 一种 基于 计算 金融 仓单风控 信息 筛选 方法 | ||
【主权项】:
1.一种基于流式计算的金融仓单风险信息爬取和筛选方法,其特征在于,包括以下步骤:/n步骤S1、从Spout任务数据源获得的URL,计算所述URL的Hash值并发往相应的节点,在所述节点上筛选待爬取URL和已爬取URL,若属于其中一种,则将该URL舍弃;/n步骤S2、对需要爬取的URL页面的关键内容进行解析和提取,获得页面的所有关键词,计算提取每个关键词的特征值,所述所有关键字的特征值组成该URL页面的特征向量;/n步骤S3、对关键词和特征向量其中的数值信息进行提取,并判断其数值信息是否位于价格置信区间当中,对于不在置信区间内的价格信息直接舍弃;/n步骤S4、将数值过滤后获得URL页面的关键词,与不同类别关键词列表进行匹配,根据相似度确定该URL页面发往对应类别及其所在节点;/n步骤S5、将该URL页面的特征向量与该类别所有成员的特征向量进行相似度平均值计算;若相似度平均值低于第二预设阈值区间,则将该URL页面的特征向量发往其他类别所在节点,计算与不同类别的相似度平均值;/n步骤S6、根据特征向量匹配计算结果,对共享资源进行更新操作。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610465640.9/,转载请声明来源钻瓜专利网。
- 上一篇:桌子(S1531‑L)
- 下一篇:圆桌(YZ201)