[发明专利]一种使用非结构化数据进行风险评估的方法在审
申请号: | 202111282049.7 | 申请日: | 2021-11-01 |
公开(公告)号: | CN114021941A | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 史亚琪;王楠;刘佳雯 | 申请(专利权)人: | 航天科工网络信息发展有限公司 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06F16/951;G06F16/215;G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 中国兵器工业集团公司专利中心 11011 | 代理人: | 刘瑞东 |
地址: | 100854 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 使用 结构 数据 进行 风险 评估 方法 | ||
1.一种使用非结构化数据进行风险评估的方法,其特征在于,该方法包括如下步骤:
S1、数据采集
首先选择采集数据源,其次,在采集过程中,利用scrapy技术从网络上采集数据,使用待评估企业名称和常用别名对信息进行过滤,然后,选择包含待评估企业的相关信息进行逐条采集,包括新闻标题/正文、判决文书和评论信息;最后将采集的数据存储到mysql数据库中;
S2、数据清洗
经过采集得到的互联网数据含有大量特殊字符和噪声信息,需要对数据信息进行清洗;
S3、主题分类
根据会对企业合作造成影响的各类事项,总结出评价主题类别,建立相关标签体系,并对数据进行分类;
S4、情感分析
对经过主题分类后的数据进行正负面的情感倾向分析;
S5、风险评估
为主题类别设置影响因子P,统计每个主题类别的正面、负面和中性数据的数量,并对其按照情感倾向数值计算各个主题类别的情感指数C,之后依据六个主题的影响因子进行综合评估,得到风险指数N。
2.如权利要求1所述的使用非结构化数据进行风险评估的方法,其特征在于,所述步骤S1中数据源包括官方新闻媒体和主流社交网站。
3.如权利要求1所述的使用非结构化数据进行风险评估的方法,其特征在于,所述步骤S2具体包括:通过删除原始企业新闻、判决文书、评论数据中多余的空格和换行符、筛选重复以及无关的数据内容、消除数据中的歧义信息、利用聚类分析进行噪声信息的确认及去除,最终将其存放至.txt文档中,并用换行符分隔。
4.如权利要求1-3任一项所述的使用非结构化数据进行风险评估的方法,其特征在于,所述步骤S3具体包括如下步骤:
S31、建立标签体系,人为地在“产品宣传、企业信誉、国家安全、劳务纠纷、价值观”这五个方面定义主题分类,同时将不属于当前五类的数据归为“其它”主题类别;
S32、将经过清洗后的数据存放在.txt文档中,并用换行符‘\n’分隔;随后对30%数据人工标注主题标签为0,1,2,3,4,5,分别对应“其他、产品宣传、企业信誉、国家安全、劳务纠纷、价值观”六个类别;
S33、使用BERT模型对标注数据集进行训练分析;
S34、将剩下70%的文本数据输入以上已经训练好的模型中进行主题分类。
5.如权利要求4所述的使用非结构化数据进行风险评估的方法,其特征在于,所述步骤S33具体包括:
将BERT模型输入实际可用的长度设置为400,大于400字的数据文本称为长文本,其余文本称为短文本,随后对长文本进行有重叠(overlap)的文本分割,保证分割后的每个片段之间仍然保留了一定的关联信息,将分割后的片段作为单独的一条数据,并为它们加上连接序号,每个片段都拥有原来文本的主题标签;
将分隔完成后的数据导入以XNLI为预训练数据集得到的BERT的文本分类预训练模型中,进行模型训练分析;
经过训练提取出每条数据的特征,并通过连接序号(index)将分割的片段特征合并起来,作为LSTM网络的输入,从而对完整的文本数据进行分类训练;随后经过一个Sigmoid激活函数和全连接层得到文本主题分类结果。
6.如权利要求4所述的使用非结构化数据进行风险评估的方法,其特征在于,所述步骤S4具体包括:
首先将30%的数据人工标注情感倾向标签,正面为1,负面为-1,中性为0;
随后,将标注数据输入以ChnSentiCorp为预训练数据集得到的ERNIE预训练模型中,进行情感分析训练,并得到情感分析结果;
最后,将剩下70%的数据输入以上已经训练好的ERNIE模型中进行情感倾向分析。
7.如权利要求6所述的使用非结构化数据进行风险评估的方法,其特征在于,所述步骤S5中,为主题类别设置影响因子P具体包括:分别对其他、产品宣传、企业信誉、国家安全、劳务纠纷、价值观这六个主题类别设置10%、10%、20%、30%、20%、10%作为影响因子P。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于航天科工网络信息发展有限公司,未经航天科工网络信息发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111282049.7/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置