[发明专利]基于文本情感倾向的违规检测方法在审

申请号：	202111502220.0	申请日：	2021-12-09
公开（公告）号：	CN114138942A	公开（公告）日：	2022-03-04
发明（设计）人：	张熠;李维萍;周晓文;雷万保;徐阳	申请（专利权）人：	南京审计大学
主分类号：	G06F16/33	分类号：	G06F16/33;G06F16/35;G06F16/36;G06F40/216;G06F40/289;G06K9/62;G06N3/04;G06N3/08
代理公司：	南京科知维创知识产权代理有限责任公司 32270	代理人：	王萍萍
地址：	211815 江苏省***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于文本情感倾向违规检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明基于建立适用的情感词典提取文本特征数据，提供一种基于变分自编码器的长短期记忆网络的文本情感倾向的违规检测方法，该方法包括如下步骤：构建情感词典、进一步提取文本特征、对长短期记忆网络LSTM做数学建模以及文本检测及结果输出；有效检测年报文本中的具有情感倾向的文本，从情感的角度发现上市公司违规，解决了目前市场上缺乏基于文本情感倾向的上市公司违规检测的问题，有效克服现有的不足；同时本方法通过设置多方位评估指标，有效提高了上市公司违规检测的效率和准确性。

技术领域

本发明涉及金融与计算机科学领域，尤其涉及一种基于变分自编码器的长短期记忆网络的文本情感倾向的违规检测方法。

背景技术

目前，使用上市公司年报分析该公司是否违规成为一种趋势，在现有技术中，通过量化年报或管理层讨论与分析部分文本建立机器学习模型，而这种做法并没有考虑管理层情感因素，当公司违规时，管理层会加大使用积极词以此来掩盖公司真实的经营状况，但是现有技术的方法由于在从上市公司年报查找违规时没有考虑文本特征的情感因素，因此使得传统的机器学习方法查找违规的结果并不好，同时评估模型预测能力的指标不够全面。因此，亟待发明一种基于文本情感倾向的违规检测方法，从情感的角度发现上市公司违规。

发明内容

本发明的目的是为了解决现有技术中存在的缺点，而提出的。

为实现上述目的，本发明基于建立适用的情感词典提取文本特征数据，提供一种基于变分自编码器的长短期记忆网络的文本情感倾向的违规检测方法，该方法可以很好识别上市公司违规。

具体采用了如下技术方案：

一种基于文本情感倾向的违规检测方法，包括如下步骤：

S1：构建情感词典：获取上市公司年报文本，并利用该文本构建合适情感词典；

S2：进一步提取文本特征：计算基于情感词典的TF-IDF值，然后利用变分自编码器VAE进一步做文本特征提取；

S3：对长短期记忆网络LSTM做数学建模：使用变分自编码器VAE的长短期记忆网络LSTM构建出VAE-LSTM预测模型；

S4：文本检测及结果输出：通过VAE-LSTM预测模型对S2步骤中提取的特征数据进行检测分析，基于分析出的数据结果输出年报文本为违规或者正常。

优选地，在S1步骤的构建情感词典的具体步骤如下：

S1-1：从上市公司信息披露网站上下载上市公司年度报告；

S1-2：将年报转换成Html格式；