[发明专利]一种使用非结构化数据进行风险评估的方法在审

专利信息
申请号: 202111282049.7 申请日: 2021-11-01
公开(公告)号: CN114021941A 公开(公告)日: 2022-02-08
发明(设计)人: 史亚琪;王楠;刘佳雯 申请(专利权)人: 航天科工网络信息发展有限公司
主分类号: G06Q10/06 分类号: G06Q10/06;G06F16/951;G06F16/215;G06F16/35;G06N3/04;G06N3/08
代理公司: 中国兵器工业集团公司专利中心 11011 代理人: 刘瑞东
地址: 100854 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 使用 结构 数据 进行 风险 评估 方法
【权利要求书】:

1.一种使用非结构化数据进行风险评估的方法,其特征在于,该方法包括如下步骤:

S1、数据采集

首先选择采集数据源,其次,在采集过程中,利用scrapy技术从网络上采集数据,使用待评估企业名称和常用别名对信息进行过滤,然后,选择包含待评估企业的相关信息进行逐条采集,包括新闻标题/正文、判决文书和评论信息;最后将采集的数据存储到mysql数据库中;

S2、数据清洗

经过采集得到的互联网数据含有大量特殊字符和噪声信息,需要对数据信息进行清洗;

S3、主题分类

根据会对企业合作造成影响的各类事项,总结出评价主题类别,建立相关标签体系,并对数据进行分类;

S4、情感分析

对经过主题分类后的数据进行正负面的情感倾向分析;

S5、风险评估

为主题类别设置影响因子P,统计每个主题类别的正面、负面和中性数据的数量,并对其按照情感倾向数值计算各个主题类别的情感指数C,之后依据六个主题的影响因子进行综合评估,得到风险指数N。

2.如权利要求1所述的使用非结构化数据进行风险评估的方法,其特征在于,所述步骤S1中数据源包括官方新闻媒体和主流社交网站

3.如权利要求1所述的使用非结构化数据进行风险评估的方法,其特征在于,所述步骤S2具体包括:通过删除原始企业新闻、判决文书、评论数据中多余的空格和换行符、筛选重复以及无关的数据内容、消除数据中的歧义信息、利用聚类分析进行噪声信息的确认及去除,最终将其存放至.txt文档中,并用换行符分隔。

4.如权利要求1-3任一项所述的使用非结构化数据进行风险评估的方法,其特征在于,所述步骤S3具体包括如下步骤:

S31、建立标签体系,人为地在“产品宣传、企业信誉、国家安全、劳务纠纷、价值观”这五个方面定义主题分类,同时将不属于当前五类的数据归为“其它”主题类别;

S32、将经过清洗后的数据存放在.txt文档中,并用换行符‘\n’分隔;随后对30%数据人工标注主题标签为0,1,2,3,4,5,分别对应“其他、产品宣传、企业信誉、国家安全、劳务纠纷、价值观”六个类别;

S33、使用BERT模型对标注数据集进行训练分析;

S34、将剩下70%的文本数据输入以上已经训练好的模型中进行主题分类。

5.如权利要求4所述的使用非结构化数据进行风险评估的方法,其特征在于,所述步骤S33具体包括:

将BERT模型输入实际可用的长度设置为400,大于400字的数据文本称为长文本,其余文本称为短文本,随后对长文本进行有重叠(overlap)的文本分割,保证分割后的每个片段之间仍然保留了一定的关联信息,将分割后的片段作为单独的一条数据,并为它们加上连接序号,每个片段都拥有原来文本的主题标签;

将分隔完成后的数据导入以XNLI为预训练数据集得到的BERT的文本分类预训练模型中,进行模型训练分析;

经过训练提取出每条数据的特征,并通过连接序号(index)将分割的片段特征合并起来,作为LSTM网络的输入,从而对完整的文本数据进行分类训练;随后经过一个Sigmoid激活函数和全连接层得到文本主题分类结果。

6.如权利要求4所述的使用非结构化数据进行风险评估的方法,其特征在于,所述步骤S4具体包括:

首先将30%的数据人工标注情感倾向标签,正面为1,负面为-1,中性为0;

随后,将标注数据输入以ChnSentiCorp为预训练数据集得到的ERNIE预训练模型中,进行情感分析训练,并得到情感分析结果;

最后,将剩下70%的数据输入以上已经训练好的ERNIE模型中进行情感倾向分析。

7.如权利要求6所述的使用非结构化数据进行风险评估的方法,其特征在于,所述步骤S5中,为主题类别设置影响因子P具体包括:分别对其他、产品宣传、企业信誉、国家安全、劳务纠纷、价值观这六个主题类别设置10%、10%、20%、30%、20%、10%作为影响因子P。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于航天科工网络信息发展有限公司,未经航天科工网络信息发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111282049.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top