[发明专利]一种资讯分类处理的方法及系统在审
申请号: | 202110762167.1 | 申请日: | 2021-07-06 |
公开(公告)号: | CN113434685A | 公开(公告)日: | 2021-09-24 |
发明(设计)人: | 徐晓健 | 申请(专利权)人: | 中国银行股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06F16/953;G06N3/04 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 王天尧;谷敬丽 |
地址: | 100818 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 资讯 分类 处理 方法 系统 | ||
1.一种资讯分类处理的方法,其特征在于,该方法包括:
采集资讯数据,对所述资讯数据进行预处理;
建立资讯分类模型,将预处理后的资讯数据输入至资讯分类模型中,通过所述资讯分类模型将资讯数据映射到高维空间得到文本中词语之间的关系,并利用LSTM提取文本特征的语义信息;
根据文本特征的语义信息分析得到特征权重,按照特征权重进行信息增强,优化资讯分类模型;
根据预处理后的资讯数据设置训练集及测试集,对优化后的资讯分类模型进行训练,并利用测试集对训练模型进行测试;
获取待分类的资讯数据,利用训练完成的资讯分类模型对待分类的资讯数据进行类别划分,得到分类结果。
2.根据权利要求1所述的资讯分类处理的方法,其特征在于,采集资讯数据,对所述资讯数据进行预处理,包括:
对收集的资讯数据进行筛选和标注,提取资讯的标题文本并标注资讯类别。
3.根据权利要求2所述的资讯分类处理的方法,其特征在于,建立资讯分类模型,将预处理后的资讯数据输入至资讯分类模型中,通过所述资讯分类模型将资讯数据映射到高维空间得到文本中词语之间的关系,并利用LSTM提取文本特征的语义信息,包括:
根据文本中词语之间的关系,利用LSTM对文本进行前向及后向特征提取,得到文本特征的前向和后向语义信息;
将文本特征的前向和后向语义信息进行整合,按照特征维度进行拼接得到新特征;其中,文本中的每个文字通过相应的所述新特征、文本特征的前向和后向语义信息进行表示。
4.根据权利要求3所述的资讯分类处理的方法,其特征在于,根据文本特征的语义信息分析得到特征权重,按照特征权重进行信息增强,优化资讯分类模型,包括:
对新特征进行处理,选择性增大有效特征的影响,并抑制无效特征的影响,其中,信息增强的选择逻辑为:
设置输入数据维度为[B,S,H*2],其中,B表示数据批量,S表示文本长度,H表示LSTM隐层神经元数;
将S个文字的特征按矩阵第二个维度相加,并求均值得到[B,1,H*2]维度的第一数据,其中,第一数据包含了整个文本所有的信息;
将第一数据的矩阵输入一个全连接神经网络中,输入神经元数为H*2,隐层神经元数为H,输出层神经元数为H*2,全连接神经网络最终输出一个[H*2,1]维度的第一权重矩阵,所述第一权重矩阵代表文本中每个文字在每个特征维度上的权重,用于对特征按重要性进行增强;
利用所述第一权重矩阵与输入数据[B,S,H*2]相乘,得到[B,S,1]的第二权重矩阵,所述第二权重矩阵代表文本中每个文字的权重,用于对文字特征进行增强,利用第二权重矩阵与输入数据[B,S,H*2]相乘,得到最终的文本特征矩阵[B,H*2],将最终的文本特征矩阵输入到分类层中,得到最终的分类结果;
按照特征重要度对每个文字的特征进行增强或抑制,对所有文字的特征按重要度进行增强或抑制,优化资讯分类模型。
5.根据权利要求4所述的资讯分类处理的方法,其特征在于,根据预处理后的资讯数据设置训练集及测试集,对优化后的资讯分类模型进行训练,并利用测试集对训练模型进行测试,包括:
利用训练集对优化后的资讯分类模型进行训练;
根据测试集的资讯标题对训练的模型进行测试,判断分类结果是否正确;其中,若正确率达到预设值,模型训练完成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银行股份有限公司,未经中国银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110762167.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:APP业务数据处理方法及装置
- 下一篇:活体检测方法、装置及系统