[发明专利]一种企业新闻数据风险分类方法有效
申请号: | 201811239290.X | 申请日: | 2018-10-23 |
公开(公告)号: | CN109492097B | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 陈玮;刘德彬;孙世通;吴万杰;严开 | 申请(专利权)人: | 重庆誉存大数据科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/951;G06F40/211;G06N3/04;G06N3/08 |
代理公司: | 重庆智慧之源知识产权代理事务所(普通合伙) 50234 | 代理人: | 孙方 |
地址: | 401121 重庆市渝北*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 企业 新闻 数据 风险 分类 方法 | ||
1.一种企业新闻数据风险分类方法,其特征在于,包括如下步骤:
根据确定企业的公司名称获取所述确定企业的相关属性,将所述相关属性两两组合并以此为关键词进行搜索,获取与所述确定企业相关的新闻材料,并从所述新闻材料中提取出含有所述相关属性的句子;
将含有所述相关属性的句子输入CNN句子分类模型中,得到每个句子的句子分类,所述句子分类为正面类别或负面类别;
将该新闻正面类别的句子和负面类别的句子分别加权处理后相加,若正面类别的加权和值大,则该新闻分类为正面类别,若负面类别的加权和值大,则该新闻分类为负面类别。
2.根据权利要求1所述的企业新闻数据风险分类方法,其特征在于,所述相关属性包括但不限于法人名、高管名、公司简称、股票简称、公司历史名和产品名。
3.根据权利要求1所述的企业新闻数据风险分类方法,其特征在于,所述CNN句子分类模型是采用CNN算法训练而成的企业新闻分类模型。
4.根据权利要求3所述的企业新闻数据风险分类方法,其特征在于,所述CNN句子分类模型采用如下方法训练而成:
准备训练语料数据;
将训练语料数据中的句子输入CNN句子分类训练模型中,训练得到CNN句子分类模型。
5.根据权利要求4所述的企业新闻数据风险分类方法,其特征在于,所述准备训练语料数据包括如下步骤:
使用网络爬虫在新闻数据来源中抓取企业类新闻材料,并将所述企业类新闻材料以文本的形式存储在数据库中;
根据企业关注的新闻焦点,总结统计所需新闻类别;
针对不同的新闻类别自定义一系列的强规则;
根据所述自定义的强规则,在数据库中筛选出与所述强规则相匹配的新闻材料作为备用语料数据;
采用人工对强规则筛出来的备用语料数据进行核对,筛选出第一训练语料数据;
采用人工从各大网站获取不同新闻类别的数据,作为第二训练语料数据;
将第一语料数据和第二语料数据融合,得到训练语料数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆誉存大数据科技有限公司,未经重庆誉存大数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811239290.X/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置