[发明专利]基于文本情感倾向的违规检测方法在审
申请号: | 202111502220.0 | 申请日: | 2021-12-09 |
公开(公告)号: | CN114138942A | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 张熠;李维萍;周晓文;雷万保;徐阳 | 申请(专利权)人: | 南京审计大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F16/36;G06F40/216;G06F40/289;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 南京科知维创知识产权代理有限责任公司 32270 | 代理人: | 王萍萍 |
地址: | 211815 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 文本 情感 倾向 违规 检测 方法 | ||
1.一种基于文本情感倾向的违规检测方法,其特征在于:包括如下步骤:
S1:构建情感词典:获取上市公司年报文本,并利用该文本构建合适情感词典;
S2:进一步提取文本特征:计算基于情感词典的TF-IDF值,然后利用变分自编码器VAE进一步做文本特征提取;
S3:对长短期记忆网络LSTM做数学建模:使用变分自编码器VAE的长短期记忆网络LSTM构建出VAE-LSTM预测模型;
S4:文本检测及结果输出:通过VAE-LSTM预测模型对S2步骤中提取的特征数据进行检测分析,基于分析出的数据结果输出年报文本为违规或者正常。
2.如权利要求1所述的基于文本情感倾向的违规检测方法,其特征在于:在S1步骤的构建情感词典的具体步骤如下:
S1-1:从上市公司信息披露网站上下载上市公司年度报告;
S1-2:将年报转换成Html格式;
S1-3:解析年报,使用python解析年报,清理成文本,将年报中的年报标题以及表格中数字占总字数的比例大于25%的表格;
S1-4:提取文本,利用python的jieba库自定义字典功能,选用金融类词典对文本进行分词;
S1-5:参照中文停用词库,手动添加特殊字符,去除停用词;
S1-6:年报保存上述处理的词为.TXT格式,根据保存的年报分词数据建立上市公司的积极和消极词汇词典。
3.如权利要求1所述的基于文本情感倾向的违规检测方法,其特征在于:在步骤S2中,TF-IDF为词频-逆文档频率,是一种统计方法,具体公式如下:其中,N表示年报总数,tfi,j表示第j个年报中出现第i个词的次数之比,dfi表示包含第i个词的年报数。
4.如权利要求1所述的基于文本情感倾向的违规检测方法,其特征在于:在步骤S2中,变分自编码器包括编码、采样和解码,使用神经网络编码,提取数据特征,再解码生成数据。
5.如权利要求1所述的基于文本情感倾向的违规检测方法,其特征在于:在S3步骤中的长短期记忆网络模型如下:
ft=σ(Wf[ht-1,xt]+bf)
it=σ(Wi[ht-1,xt]+bi)
ot=σ(Wo[ht-1,xt]+bo)
ht=ot*tanh(Ct)
其中xt是输入向量,it是时间步长t中的输入状态,ft是时间步长t中的遗忘状态,ot是时间步长t中的输出状态,ht-1和Ct-1是时间步长t-1中的隐藏状态和单元状态,以tanh和sigmoid激活函数σ的形式添加非线性,Wf、Wi、WC、Wo分别代表遗忘门、输入门、记忆单元和输出门的权值向量,bf、bi、bC、bo分别代表遗忘门、输入门、记忆单元和输出门的损坏变量,*是矩阵的Hadamard积。
6.如权利要求1所述的基于文本情感倾向的违规检测方法,其特征在于:在S4步骤中,所述VAE-LSTM预测模型内设有多方位评估指标;所述多方位评估指标包括:准确率、敏感度和特异度、综合指标Fβ-score以及假阳性率和真阳性率之间的曲线下覆盖的面积AUC。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京审计大学,未经南京审计大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111502220.0/1.html,转载请声明来源钻瓜专利网。