[发明专利]一种企业新闻数据风险分类方法有效
申请号: | 201811239290.X | 申请日: | 2018-10-23 |
公开(公告)号: | CN109492097B | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 陈玮;刘德彬;孙世通;吴万杰;严开 | 申请(专利权)人: | 重庆誉存大数据科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/951;G06F40/211;G06N3/04;G06N3/08 |
代理公司: | 重庆智慧之源知识产权代理事务所(普通合伙) 50234 | 代理人: | 孙方 |
地址: | 401121 重庆市渝北*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 企业 新闻 数据 风险 分类 方法 | ||
本发明公开了一种企业新闻数据风险分类方法,包括如下步骤:根据确定企业的公司名称获取该确定企业的相关属性,将所述相关属性两两组合并以此为关键词进行搜索,获取与该确定企业相关的新闻材料,并从所述新闻材料中提取出含有所述相关属性的句子;将含有所述相关属性的句子输入CNN句子分类模型中,得到每个句子的句子分类,所述句子分类为正面类别或负面类别;将每个所述句子分类分别进行加权处理,取加权处理后的句子分类值大者作为当前新闻的新闻分类,所述新闻分类为正面类别或负面类别;本发明根据企业主体进行句子提取,通过对句子分类进行预测,进而实现针对于该主体的新闻材料的类别预测。
技术领域
本发明属于数据处理技术领域,具体涉及一种企业新闻数据风险分类方法。
背景技术
目前,最新技术有大量的文本分类模型和情感分析模型,其算法都相对较为成熟。现有的文本分类模型和情感分析模型为相互独立的算法。其中文本分类模型采用的主流算法有Bi-LSTM算法和CNN、FastText算法,都可以是基于字符、基于词的针对整篇新闻作为训练语料数据,由于其针对全文作为训练语料,那么对于特定的一篇新闻文章只有一个分类,但是当新闻中出现多个公司主体时,在事实上对于不同的公司主体来说可能具有不同的分类。例如,某篇新闻内容描述了公司A的负面信息和公司B的正面信息,如果针对全文进行分类,始终只能得出一个类别,该分类可能针对公司A的类别是对的,但是在公司A和公司B的类别不一样的情况下(公司A为负面类别,公司B为正面类别),现有分类思路始终无法满足在同一篇新闻中针对不同主体打标分类。而情感分析较多采用Bi-LSTM算法,情感分析通常只输出整篇文章情感倾向,包括正面概率,负面概率;没有更加具体的情感类别区分。因此,完全依赖一个模型预测,其准确度高度依赖于新闻语料数据的准备,鉴于新闻样式繁多,同样的新闻出自不同的撰写人可能风格完全不同,因此具有局限性。
发明内容
为了解决现有技术存在的上述问题,本发明目的在于提供一种可针对某一特定主体进行分类的企业新闻数据风险分类方法。
本发明所采用的技术方案为:
一种企业新闻数据风险分类方法,包括如下步骤:
根据确定企业的公司名称获取该确定企业的相关属性,将所述相关属性两两组合并以此为关键词进行搜索,获取与该确定企业相关的新闻材料,并从所述新闻材料中提取出含有所述相关属性的句子;
将含有所述相关属性的句子输入CNN句子分类模型中,得到每个句子的句子分类,所述句子分类为正面类别或负面类别;
将每个所述句子分类分别进行加权处理,取加权处理后的句子分类值大者作为当前新闻的新闻分类,所述新闻分类为正面类别或负面类别。
进一步,所述相关属性包括但不限于法人名、高管名、公司简称、股票简称、公司历史名和产品名。
更进一步,所述CNN句子分类模型是采用CNN算法训练而成的企业新闻分类模型。
更进一步,所述CNN句子分类模型采用如下方法训练而成:
准备训练语料数据;
将训练语料数据中的句子输入CNN句子分类训练模型中,训练得到CNN句子分类模型。
更进一步,所述准备训练语料数据包括如下步骤:
使用网络爬虫在新闻数据来源中抓取企业类新闻材料,并将该企业类新闻材料以文本的形式存储在数据库中;
根据企业关注的新闻焦点,总结统计所需新闻类别;
针对不同的新闻类别自定义一系列的强规则;
根据所述自定义的强规则,在数据库中筛选出与该强规则相匹配的新闻材料作为备用语料数据;
采用人工对强规则筛出来的备用语料数据进行核对,筛选出第一训练语料数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆誉存大数据科技有限公司,未经重庆誉存大数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811239290.X/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置