[发明专利]基于机器学习的微信金融消息分析方法及系统有效
申请号: | 202010338132.0 | 申请日: | 2020-04-26 |
公开(公告)号: | CN111680225B | 公开(公告)日: | 2023-08-18 |
发明(设计)人: | 贺敏;郭富民;董琳;杜慧 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F16/35;G06F40/30;G06F40/289;G06N3/0464;G06N3/048;G06N3/047;G06N3/082 |
代理公司: | 北京远大卓悦知识产权代理有限公司 11369 | 代理人: | 卞静静 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 机器 学习 金融 消息 分析 方法 系统 | ||
本发明公开了一种基于机器学习的微信消息分析方法,包括:步骤一、构建训练语料库;步骤二、建立词汇向量表;步骤三和步骤四、构建和训练卷积神经网络;步骤五、将待分析的微信消息对应的多个词汇对应的词向量构成的词向量矩阵输入至训练得到的卷积神经网络,输出得到该微信消息对应的所有标签的概率分布情况。本发明具有精准预测微信消息所属的金融分类标签的有益效果。本方法还公开了一种基于机器学习的微信消息分析系统,包括:数据采集组件;训练语料库;文本预处理组件;模型训练组件;源数据分类组件。本系统具有精准预测微信消息所属的金融分类标签的有益效果。
技术领域
本发明涉及计算机机器学习领域。更具体地说,本发明涉及一种基于机器学习的微信金融消息分析方法及系统。
背景技术
互联网金融创新带来了我国互联网金融行业的蓬勃发展,但与此同时风险也在恣意蔓延,从事非法集资、传销、诈骗等金融违法违规行为的不法分子,借助互联网社交媒体传播诱导性、欺诈性信息,尤其是微信朋友圈,其内容较为私密不易被传统监测技术发现,并且其传播极具有针对性能够快速到达目标人群。同时,不具备金融常识、对金融产品鉴别能力较差的普通大众往往抵挡不住高利诱惑,导致财产安全受到威胁,容易引发社会性风险。
现如今,微信逐渐成为主流的社交媒体平台,随着微信用户量的增多和粘性增加,由于微信朋友圈相较于传统的微博、新闻、论坛等通道更私密,所以其信息在表述方式和内容方面都有所不同,呈现出更夸张、特征性更强等特点,现有针对微博、新闻、论坛等通道的线索分析手段需要依据微信朋友圈特性开展定制化分析工作。此外,由于金融从业人员和投资者这个庞大的群体均表现出一定的流动性,对它们的分析有助于互联网金融的风险研判和风险传递分析,但目前并没有相关的技术分析手段,因此开发一套能够采集、鉴别并分析微信欺诈金融消息的系统显得极为重要。
发明内容
本发明的一个目的是解决至少上述问题,并提供至少后面将说明的优点。
本发明还有一个目的是提供一种基于机器学习的微信消息分析方法,可以精准预测微信消息所属的金融分类标签。
提供一种基于机器学习的微信消息分析系统,可以精准预测微信消息所属的金融分类标签。
为了实现根据本发明的这些目的和其它优点,提供了一种基于机器学习的微信消息分析方法,包括以下步骤:
步骤一、构建训练语料库,所述训练语料库包括多条微信消息,每条微信消息已标记所属的标签,所述微信消息为微信朋友圈消息或微信群消息,所述标签按金融性质分类;
步骤二、建立词汇向量表,所述词汇向量表包括所述训练语料库涉及的所有词汇,每个词汇具有唯一的词向量;
步骤三、构建卷积神经网络,所述卷积神经网络采用Glove模型和TF-IDF算法对输入层的词语进行向量化;
步骤四、对训练语料的文本内容进行预处理得到对应的多个词汇,查询词汇向量表得到多个词汇对应的词向量,以每条训练语料的词向量构成的词向量矩阵作为输入层,以每条训练语料所属的标签为最大概率的所有标签的概率分布情况为输出层,调整所述卷积神经网络的损失函数、池化函数、激活函数、卷积核函数的参数;
步骤五、将待分析的微信消息的文本内容进行文本预处理,得到对应的多个词汇,查询词汇向量表得到多个词汇对应的词向量,将该多个词汇对应的词向量构成的词向量矩阵输入至步骤四训练得到的卷积神经网络,输出得到该微信消息对应的所有标签的概率分布情况。
优选的是,所述词汇向量表的建立方法具体为:将所述训练语料库中所有的训练语料进行文本预处理后,设定滑动窗口大小为奇数,统计中心词与语境词共现次数,遍历整个训练语料库,构建一个共现矩阵,然后基于Glove模型计算得出每个词汇的词向量,经过TF-IDF加权处理后,并汇总构成所述词汇向量表;
其中,文本预处理包括依次对训练语料进行分词操作和预设的停用词过滤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010338132.0/2.html,转载请声明来源钻瓜专利网。