[发明专利]文本的处理方法、装置和存储介质在审
申请号: | 201910412454.2 | 申请日: | 2019-05-17 |
公开(公告)号: | CN110134961A | 公开(公告)日: | 2019-08-16 |
发明(设计)人: | 徐国爱;徐国胜;于海 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/04 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 张晓霞;刘芳 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 待检测文本 存储介质 文本 卷积神经网络 检测结果 文本检测 词向量 预处理 准确度 检测 | ||
本发明提供一种文本的处理方法、装置及存储介质,该方法包括:获取待检测文本;对所述待检测文本进行预处理,得到所述待检测文本对应的词向量;进而将所述待检测文本对应的词向量输入至基于卷积神经网络文本检测模型,最终得到所述待检测文本的检测结果。本发明提供的文本的处理方法、装置和存储介质,通过采用基于卷积神经网络的文本检测模型对待检测文本进行检测,可以提高检测结果的准确度。
技术领域
本发明涉及信息安全中领域,尤其涉及一种文本的处理方法、装置和存储介质。
背景技术
随着移动互联网的普及应用,越来越多的人通过智能终端以电子文档的形式保存信息或传递信息,因此,为确保信息的隐私性和安全性,对电子文档的内容信息的检测越来越重要。
现有技术中,对于涉及有隐私或敏感内容的文本,一般通过在线检测工具(例如网易云易盾)或动态多线程敏感信息泄露检测工具(weakfilescan)进行检测,具体的,通过将待检测的文本输入至检测工具中,通过检测工具的检测输出检测结果。主要的检测方法可以包括:敏感信息关键字匹配技术和传统机器学习检测技术。其中,敏感信息关键字匹配技术,例如AC自动机(Aho-Corasick automation,AC)算法和WM算法(Wu-Manber,WM)算法等多模式匹配算法,通过收集预定义的隐私或敏感词汇,形成敏感词典,然后,将待检测文本与敏感词典中的词汇进行匹配。传统机器学习检测技术主要利用传统机器学习手段,将大量预定义的隐私或敏感信息的文本作为数据集,根据数据集训练分类模型,进而将待检测文本输入至模型进行检测。
由于现有技术中仅仅通过文本中的关键词或特征来判断文本是否为敏感内容,使得检测结果准确度不高。
发明内容
为解决现有技术中存在的问题,本发明提供一种文本的处理方法、装置和存储介质。
第一方面,本发明实施例提供一种文本的处理方法,该方法包括:
获取待检测文本;
对所述待检测文本进行预处理,得到所述待检测文本对应的词向量;
将所述待检测文本对应的词向量输入至基于卷积神经网络的文本检测模型,得到所述待检测文本的检测结果。
可选的,所述将所述待检测文本对应的词向量输入至基于卷积神经网络的文本检测模型,得到所述待检测文本的检测结果之前,还包括:
提取多个训练样本中每个训练样本中的特征信息,构建每个训练样本对应的特征向量;
根据所述每个训练样本对应的特征向量和每个训练样本中标记的属性信息,确定所述基于卷积神经网络文本检测模型。
可选的,所述根据所述每个训练样本对应的特征向量和每个训练样本中标记的属性信息,确定所述基于卷积神经网络的文本检测模型,包括:
采用深度学习算法,对所述每个训练样本对应的特征向量和每个训练样本中标记的属性信息进行训练,确定所述基于卷积神经网络的文本检测模型。
可选的,所述方法还包括:
根据所述检测结果更新基于卷积神经网络的文本检测模型中的参数。
可选的,所述获取待检测文本,还包括:
对初始待检测文本进行分词处理,得到分词处理后的待检测文本;
对所述分词处理后的待检测文本进行去停用词处理,得到所述待检测文本。
可选的,所述对初始待检测文本进行分词处理之前,还包括:
对输入文本进行文本解析处理,得到所述初始待检测文本。
第二方面,本发明实施例提供一种文本的处理装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910412454.2/2.html,转载请声明来源钻瓜专利网。