[发明专利]一种文本信息的处理方法及系统在审
申请号: | 201911345064.4 | 申请日: | 2019-12-24 |
公开(公告)号: | CN111309855A | 公开(公告)日: | 2020-06-19 |
发明(设计)人: | 沙彩霞;张军杰;马广腾;曹晶晶;陈晨;张润;唐珩祥;余汉珍;徐国磊 | 申请(专利权)人: | 中国银行股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/284 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 古利兰 |
地址: | 100818 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 信息 处理 方法 系统 | ||
1.一种文本信息的处理方法,其特征在于,所述方法包括:
对待审批文本进行分词处理,获取包含多个词汇的词汇集合;
提取所述词汇集合中每个所述词汇的特征,获取词汇特征集;
将所述词汇特征集输入预设的分类模型进行词汇分类,确定所述待审批文本是否包含敏感词,所述分类模型预先基于样本数据训练神经网络模型得到,所述样本数据包括筛选样本词汇集和敏感样本词汇集;
若所述待审批文本包含敏感词,则输出用于指示所述待审批文本未通过审批的文本信息;
若所述待审批文本不包含敏感词,则输出用于指示所述待审批文本通过审批的文本信息。
2.根据权利要求1所述的方法,其特征在于,训练所述分类模型的过程,包括:
提取筛选样本词汇集中的每一筛选样本词汇的特征,获取正向特征集;
提取敏感样本词汇集中的每一敏感样本词汇的特征,获取反向特征集;
将所述正向特征集和所述反向特征集输入预设的神经网络模型,训练所述神经网络模型直至所述神经网络模型收敛,得到所述分类模型。
3.根据权利要求1所述的方法,其特征在于,所述将所述词汇特征集输入预设的分类模型进行词汇分类,确定所述待审批文本是否包含敏感词,包括:
将所述词汇特征集输入预设的分类模型进行词汇分类,确定每一所述词汇的词汇类别,所述词汇类别指示词汇是否为敏感词;
基于每一所述词汇的词汇类别,确定所述待审批文本中敏感词的数量;
若敏感词的数量大于等于阈值,确定所述待审批文本包含敏感词;
若所述敏感词的数量小于所述阈值,确定所述待审批文本不包含敏感词。
4.根据权利要求1所述的方法,其特征在于,所述对待审批文本进行分词处理,获取包含多个词汇的词汇集合,包括:
对待审批文本进行分词,获取多个第一词汇;
针对每个第一词汇,对所述第一词汇进行词性标注和权重设置,获取第二词汇;
确定包含所有所述第二词汇的词汇集合。
5.根据权利要求4所述的方法,其特征在于,所述提取所述词汇集合中每个所述词汇的特征,获取词汇特征集,包括:
对每一所述第二词汇进行词向量转换,得到每一所述第二词汇对应的词向量;
将每一所述第二词汇对应的词向量进行降维处理,获取每一所述第二词汇的特征;
根据每一所述第二词汇的特征,确定词汇特征集。
6.一种文本信息的处理系统,其特征在于,所述系统包括:
分词单元,用于对待审批文本进行分词处理,获取包含多个词汇的词汇集合;
提取单元,用于提取所述词汇集合中每个所述词汇的特征,获取词汇特征集;
分类单元,用于将所述词汇特征集输入预设的分类模型进行词汇分类,确定所述待审批文本是否包含敏感词,所述分类模型预先基于样本数据训练神经网络模型得到,所述样本数据包括筛选样本词汇集和敏感样本词汇集;
输出单元,用于若所述待审批文本包含敏感词,则输出用于指示所述待审批文本未通过审批的文本信息,若所述待审批文本不包含敏感词,则输出用于指示所述待审批文本通过审批的文本信息。
7.根据权利要求6所述的系统,其特征在于,所述分类单元包括:
第一提取模块,用于提取筛选样本词汇集中的每一筛选样本词汇的特征,获取正向特征集;
第二提取模块,用于提取敏感样本词汇集中的每一敏感样本词汇的特征,获取反向特征集;
训练模块,用于将所述正向特征集和所述反向特征集输入预设的神经网络模型,训练所述神经网络模型直至所述神经网络模型收敛,得到所述分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银行股份有限公司,未经中国银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911345064.4/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置