[发明专利]基于文本情感倾向的违规检测方法在审
申请号: | 202111502220.0 | 申请日: | 2021-12-09 |
公开(公告)号: | CN114138942A | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 张熠;李维萍;周晓文;雷万保;徐阳 | 申请(专利权)人: | 南京审计大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F16/36;G06F40/216;G06F40/289;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 南京科知维创知识产权代理有限责任公司 32270 | 代理人: | 王萍萍 |
地址: | 211815 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 文本 情感 倾向 违规 检测 方法 | ||
本发明基于建立适用的情感词典提取文本特征数据,提供一种基于变分自编码器的长短期记忆网络的文本情感倾向的违规检测方法,该方法包括如下步骤:构建情感词典、进一步提取文本特征、对长短期记忆网络LSTM做数学建模以及文本检测及结果输出;有效检测年报文本中的具有情感倾向的文本,从情感的角度发现上市公司违规,解决了目前市场上缺乏基于文本情感倾向的上市公司违规检测的问题,有效克服现有的不足;同时本方法通过设置多方位评估指标,有效提高了上市公司违规检测的效率和准确性。
技术领域
本发明涉及金融与计算机科学领域,尤其涉及一种基于变分自编码器的长短期记忆网络的文本情感倾向的违规检测方法。
背景技术
目前,使用上市公司年报分析该公司是否违规成为一种趋势,在现有技术中,通过量化年报或管理层讨论与分析部分文本建立机器学习模型,而这种做法并没有考虑管理层情感因素,当公司违规时,管理层会加大使用积极词以此来掩盖公司真实的经营状况,但是现有技术的方法由于在从上市公司年报查找违规时没有考虑文本特征的情感因素,因此使得传统的机器学习方法查找违规的结果并不好,同时评估模型预测能力的指标不够全面。因此,亟待发明一种基于文本情感倾向的违规检测方法,从情感的角度发现上市公司违规。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的。
为实现上述目的,本发明基于建立适用的情感词典提取文本特征数据,提供一种基于变分自编码器的长短期记忆网络的文本情感倾向的违规检测方法,该方法可以很好识别上市公司违规。
具体采用了如下技术方案:
一种基于文本情感倾向的违规检测方法,包括如下步骤:
S1:构建情感词典:获取上市公司年报文本,并利用该文本构建合适情感词典;
S2:进一步提取文本特征:计算基于情感词典的TF-IDF值,然后利用变分自编码器VAE进一步做文本特征提取;
S3:对长短期记忆网络LSTM做数学建模:使用变分自编码器VAE的长短期记忆网络LSTM构建出VAE-LSTM预测模型;
S4:文本检测及结果输出:通过VAE-LSTM预测模型对S2步骤中提取的特征数据进行检测分析,基于分析出的数据结果输出年报文本为违规或者正常。
优选地,在S1步骤的构建情感词典的具体步骤如下:
S1-1:从上市公司信息披露网站上下载上市公司年度报告;
S1-2:将年报转换成Html格式;
S1-3:解析年报,使用python解析年报,清理成文本,将年报中的年报标题以及表格中数字占总字数的比例大于25%的表格;
S1-4:提取文本,利用python的jieba库自定义字典功能,选用金融类词典对文本进行分词;
S1-5:参照中文停用词库,手动添加特殊字符,去除停用词;
S1-6:年报保存上述处理的词为.TXT格式,根据保存的年报分词数据建立上市公司的积极和消极词汇词典。
优选地,在步骤S2中,TF-IDF为词频-逆文档频率,是一种统计方法,具体公式如下:其中,N表示年报总数,tfi,j表示第j个年报中出现第i个词的次数之比,dfi表示包含第i个词的年报数。
优选地,在步骤S2中,变分自编码器包括编码、采样和解码,使用神经网络编码,提取数据特征,再解码生成数据。
优选地,在S3步骤中的长短期记忆网络模型如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京审计大学,未经南京审计大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111502220.0/2.html,转载请声明来源钻瓜专利网。