[发明专利]一种文本信息的处理方法及系统在审
申请号: | 201911345064.4 | 申请日: | 2019-12-24 |
公开(公告)号: | CN111309855A | 公开(公告)日: | 2020-06-19 |
发明(设计)人: | 沙彩霞;张军杰;马广腾;曹晶晶;陈晨;张润;唐珩祥;余汉珍;徐国磊 | 申请(专利权)人: | 中国银行股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/284 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 古利兰 |
地址: | 100818 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 信息 处理 方法 系统 | ||
本发明提供一种文本信息的处理方法及系统,该方法为:对待审批文本进行分词处理,获取包含多个词汇的词汇集合;提取词汇集合中每个词汇的特征,获取词汇特征集;将词汇特征集输入预设的分类模型进行词汇分类,确定待审批文本是否包含敏感词;若包含敏感词,则输出用于指示待审批文本未通过审批的文本信息;若不包含敏感词,则输出用于指示待审批文本通过审批的文本信息。本方案中,利用预先训练好的分类模型对待审批文本进行词汇分类,确定待审批文本中是否包含敏感词。根据确定结果输出用于指示审批文本是否通过审批的文本信息,不需要人工进行审批,节约人力和审批成本,提高审批速度和提高审批效率。
技术领域
本发明涉及数据处理技术领域,具体涉及一种文本信息的处理方法及系统。
背景技术
随着互联网的发展,各式各样的团体内建设类应用出现在软件应用市场。在关于团体内建设的应用上发布关于团体内建设的文章时,需要对文章进行审批,只有审批通过的文章才能被发布。
目前审批关于团体内建设的文章的方式是由审批人员进行人工审批,从而筛选出符合发布要求的文章。但是由于目前越来越多的人使用关于团体内建设的应用,这也表示有大量的关于团体内建设的文章需要被审核。使用人工审批方式,需要耗费大量的人力和时间,审批成本高,审批速度慢和审批效率低。
发明内容
有鉴于此,本发明实施例提供一种文本信息的处理方法及系统,以解决现有人工审批方式存在的审批成本高、审批速度慢和审批效率低等问题。
为实现上述目的,本发明实施例提供如下技术方案:
本发明实施例第一方面公开一种文本信息的处理方法,所述方法包括:
对待审批文本进行分词处理,获取包含多个词汇的词汇集合;
提取所述词汇集合中每个所述词汇的特征,获取词汇特征集;
将所述词汇特征集输入预设的分类模型进行词汇分类,确定所述待审批文本是否包含敏感词,所述分类模型预先基于样本数据训练神经网络模型得到,所述样本数据包括筛选样本词汇集和敏感样本词汇集;
若所述待审批文本包含敏感词,则输出用于指示所述待审批文本未通过审批的文本信息;
若所述待审批文本不包含敏感词,则输出用于指示所述待审批文本通过审批的文本信息。
优选的,训练所述分类模型的过程,包括:
提取筛选样本词汇集中的每一筛选样本词汇的特征,获取正向特征集;
提取敏感样本词汇集中的每一敏感样本词汇的特征,获取反向特征集;
将所述正向特征集和所述反向特征集输入预设的神经网络模型,训练所述神经网络模型直至所述神经网络模型收敛,得到所述分类模型。
优选的,所述将所述词汇特征集输入预设的分类模型进行词汇分类,确定所述待审批文本是否包含敏感词,包括:
将所述词汇特征集输入预设的分类模型进行词汇分类,确定每一所述词汇的词汇类别,所述词汇类别指示词汇是否为敏感词;
基于每一所述词汇的词汇类别,确定所述待审批文本中敏感词的数量;
若敏感词的数量大于等于阈值,确定所述待审批文本包含敏感词;
若所述敏感词的数量小于所述阈值,确定所述待审批文本不包含敏感词。
优选的,所述对待审批文本进行分词处理,获取包含多个词汇的词汇集合,包括:
对待审批文本进行分词,获取多个第一词汇;
针对每个第一词汇,对所述第一词汇进行词性标注和权重设置,获取第二词汇;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银行股份有限公司,未经中国银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911345064.4/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置