[发明专利]基于互联网的金融风险线索发掘方法有效
申请号: | 201811174968.0 | 申请日: | 2018-10-09 |
公开(公告)号: | CN109471934B | 公开(公告)日: | 2021-08-17 |
发明(设计)人: | 黄巍峰;范渊 | 申请(专利权)人: | 杭州安恒信息技术股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F16/951;G06Q40/00 |
代理公司: | 杭州中成专利事务所有限公司 33212 | 代理人: | 周世骏 |
地址: | 310051 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 互联网 金融风险 线索 发掘 方法 | ||
本发明涉及网络搜索技术,旨在提供一种基于互联网的金融风险线索发掘方法。包括步骤:通过互联网中记载历史金融风险案件的舆情文章,获取金融风险正负面关键词;设置广搜辞典和金融风险相关正面宣传词典,调取互联网搜索引擎;利用搜索引擎推荐的热词,分割金融风险线索;利用金融风险相关负面风险词典,确认在关键目标主体舆情文章中的出现频度,确定金融风险线索可靠度;通过关键目标准确度,优化正面宣传词典和负面风险词典。本发明可以减少传统人为收集线索的工作量,快速发现线索,提高金融监管效率,减少大范围金融风险爆发可能。本发明解决人力分辨金融风险能力远远跟不上金融风险爆发速度的问题,为金融监管、处置部门提供高效的监管工具。
技术领域
本发明涉及网络搜索技术,特别涉及基于互联网的金融风险线索发掘方法。
背景技术
在国内金融风险缺乏监管、金融风险监管目标不定、可监管来源不足的情况下,各监管单位很难去有效尽早发现风险目标。可疑线索往往在互联网上比比皆是,而传统人为收集线索效率极低,易引发大范围金融风险。如果此问题不予解决,仅依靠传统人为收集可疑线索,使得分辨金融风险能力远远跟不上金融风险爆发速度,将会导致中国互联网金融风险“雷暴式”崩溃,对人民群众、对国家都将造成巨大危害。
现有监管中,最多实现的仍是对人为既定收集的线索进行后期相关数据采集,主要是通过人为设置目标列表实时监测。其中虽然也使用了网络爬虫等技术,但是无法做到前期挖掘与发现,纯属于事后工作,所以无法解决线索发掘问题。
发明内容
本发明要解决的技术问题是,克服现有技术中的不足,提供一种基于互联网的金融风险线索发掘方法。
为解决上述技术问题,本发明采用的解决方案是:
提供一种基于互联网的金融风险线索发掘方法,包括以下步骤:
(1)通过互联网中记载历史金融风险案件的舆情文章,获取金融风险正负面关键词;
(2)设置广搜辞典和金融风险相关正面宣传词典,调取互联网搜索引擎;
(3)利用搜索引擎推荐的热词,分割金融风险线索;
(4)利用金融风险相关负面风险词典,确认在关键目标主体舆情文章中的出现频度,确定金融风险线索可靠度;
(5)通过关键目标准确度,优化正面宣传词典和负面风险词典。
本发明中,所述步骤(1)具体包括:
a)建立历史案件库存,其内容是现有历史金融风险案件(可以是任何现有案例的集合),至少需要包含风险目标网站的页面内容和风险目标在公众中的常用名称;
b)利用风险目标在公众中常用名称或风险目标网站页面内容,通过搜索引擎获取相关金融风险舆情文章,汇总得到金融宣传文章样本库;
c)利用感情分类器对金融宣传文章样本库的内容进行分析,对相关词语进行词频统计,取出权重靠前的词语,并区分情感正面词语和情感负面词语;
d)对获得的情感正面词语和情感负面词语进行分类存储(存储形式不局限于文本、数据库),得到正面宣传词典和负面风险词典。
本发明中,所述步骤(2)具体包括:
e)设置广搜辞典,并根据搜索引擎的搜索语法设置遍历规则;调取互联网搜索引擎,对金融风险相关的正面宣传词典中的各个词语进行遍历;
f)以页面解析装置获取遍历过程中各搜索引擎推荐的搜索热词,对获得的推荐结果进行数据存储(存储形式不局限于文本、数据库)。
本发明中,所述步骤(3)具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司,未经杭州安恒信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811174968.0/2.html,转载请声明来源钻瓜专利网。