[发明专利]一种资讯分类处理的方法及系统在审
申请号: | 202110762167.1 | 申请日: | 2021-07-06 |
公开(公告)号: | CN113434685A | 公开(公告)日: | 2021-09-24 |
发明(设计)人: | 徐晓健 | 申请(专利权)人: | 中国银行股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06F16/953;G06N3/04 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 王天尧;谷敬丽 |
地址: | 100818 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 资讯 分类 处理 方法 系统 | ||
本发明提出了一种资讯分类处理的方法及系统,涉及自然语言处理及机器学习技术领域,该方法包括:采集资讯数据,对所述资讯数据进行预处理;建立资讯分类模型,将预处理后的资讯数据输入至资讯分类模型中,通过所述资讯分类模型将资讯数据映射到高维空间得到文本中词语之间的关系,并利用LSTM提取文本特征的语义信息;根据文本特征的语义信息分析得到特征权重,按照特征权重进行信息增强,优化资讯分类模型;根据预处理后的资讯数据设置训练集及测试集,对优化后的资讯分类模型进行训练,并利用测试集对训练模型进行测试;获取待分类的资讯数据,利用训练完成的资讯分类模型对待分类的资讯数据进行类别划分,得到分类结果。
技术领域
本发明涉及自然语言处理及机器学习技术领域,尤指一种资讯分类处理的方法及系统。
背景技术
手机银行APP作为重要对客渠道,在银行数字化转型中发挥着重要的作用。为进一步提升客户体验,手机银行加入了资讯功能,考虑到每天均会产生各种新资讯,为更好地管理资讯,手机银行需要根据资讯内容对资讯进行分类;考虑到资讯数据量,单纯依靠人工的方式成本高昂且效率低下。
综上来看,亟需一种可以克服上述缺陷,能够高效、准确的进行资讯分类的技术方案。
发明内容
为解决现有技术存在的问题,本发明提出了一种资讯分类处理的方法及系统。本发明通过提取标题文本中信息,并对其进行加工后对资讯进行分类。
在本发明实施例的第一方面,提出了一种资讯分类处理的方法,该方法包括:
采集资讯数据,对所述资讯数据进行预处理;
建立资讯分类模型,将预处理后的资讯数据输入至资讯分类模型中,通过所述资讯分类模型将资讯数据映射到高维空间得到文本中词语之间的关系,并利用LSTM提取文本特征的语义信息;
根据文本特征的语义信息分析得到特征权重,按照特征权重进行信息增强,优化资讯分类模型;
根据预处理后的资讯数据设置训练集及测试集,对优化后的资讯分类模型进行训练,并利用测试集对训练模型进行测试;
获取待分类的资讯数据,利用训练完成的资讯分类模型对待分类的资讯数据进行类别划分,得到分类结果。
进一步的,采集资讯数据,对所述资讯数据进行预处理,包括:
对收集的资讯数据进行筛选和标注,提取资讯的标题文本并标注资讯类别。
进一步的,建立资讯分类模型,将预处理后的资讯数据输入至资讯分类模型中,通过所述资讯分类模型将资讯数据映射到高维空间得到文本中词语之间的关系,并利用LSTM提取文本特征的语义信息,包括:
根据文本中词语之间的关系,利用LSTM对文本进行前向及后向特征提取,得到文本特征的前向和后向语义信息;
将文本特征的前向和后向语义信息进行整合,按照特征维度进行拼接得到新特征;其中,文本中的每个文字通过相应的所述新特征、文本特征的前向和后向语义信息进行表示。
进一步的,根据文本特征的语义信息分析得到特征权重,按照特征权重进行信息增强,优化资讯分类模型,包括:
对新特征进行处理,选择性增大有效特征的影响,并抑制无效特征的影响,其中,信息增强的选择逻辑为:
设置输入数据维度为[B,S,H*2],其中,B表示数据批量,S表示文本长度,H表示LSTM隐层神经元数;
将S个文字的特征按矩阵第二个维度相加,并求均值得到[B,1,H*2]维度的第一数据,其中,第一数据包含了整个文本所有的信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银行股份有限公司,未经中国银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110762167.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:APP业务数据处理方法及装置
- 下一篇:活体检测方法、装置及系统