[发明专利]用于识别敏感文本信息的系统和方法有效
申请号: | 201310749656.9 | 申请日: | 2013-12-31 |
公开(公告)号: | CN103761221B | 公开(公告)日: | 2017-05-17 |
发明(设计)人: | 何泉昊;权圣;陆强 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 中原信达知识产权代理有限责任公司11219 | 代理人: | 李宝泉,周亚荣 |
地址: | 100080 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 识别 敏感 文本 信息 系统 方法 | ||
技术领域
本发明涉及一种用于识别敏感文本信息的系统和方法。
背景技术
例如微博等的文本信息已成为社会思潮多样化的助推器和放大器,在舆论环境的角色正在发生着重大的变化。如果网络舆论环境遭到不法的破坏,违背信息自由和公正传播的原则,会造成不正当的商业竞争等,进而扰乱社会秩序。复杂多变的网络舆论环境以及背后各种利益体的驱使,给微博和社区论坛BBS等文本信息的有效监控带来了前所未有的挑战。
在处理文本信息内容的安全领域,目前采用的技术主要有基于规则的方法和基于概率统计的方法。
(1)基于规则的方法是指事先设计好一组规则,用以指明某条信息是否属于敏感信息。如图1所示,该方法主要由数据输入预处理模块、数据规则提取模块、规则判断模块和结果输出模块来实现。其利用规则判断模块对数据进行是否符合条件的相关的判定,规则判断模块为核心模块,在具体的实现中,基于规则的几种典型方法如下:
基于IP、域名和路由规则:对IP设置黑白名单,IP在黑名单的信息源将会被过滤等处理,而IP在白名单的信息源被放过;服务器端的配置可以实现对Access control List、Top wrappers、主机路由表等服务器端配置;安全认证方法有测试/回复系统和计算测试系统等。
基于内容规则和行为规则:例如邮件中包含adertisement或者英文大写字母过度使用,与房产或药品等相关词语的过度使用,或是过于花哨的HTML模式用色等,这些内容规则一旦被识别出来,该信息源将会被过滤等;根据信息源邮件头中的信息判定为群发邮件并且在MTA端监控该信息源的IP在规定的时间内超过了流量阈值,则被进行过滤等特殊处理。
(2)基于概率统计的方法是指利用某些特征来对不同的内容进行分类,计算某个特征属于某个类别的测度,取最大值,如果这个最大值所属的类别为敏感类,则将该信息进行相关处理。如图2所示,该方法主要由测试数据输入模块、训练数据训练模块、分类器分类模块、结果输出模块来实现。数据训练过程是一个统计学习的过程,得到相应的分类器。训练分类器时所使用的分类算法可根据实际应用场景而确定,如朴素贝叶斯,K-mean等分类算法等。
基于规则的方法存在的缺点:在规律性不明显的应用领域效果较差,一些正常的信息源常会被归为非正常的信息源。即使在规律性明显的应用领域,当信息源制造者知道了所有的规则以后,为了绕开规则处理,其行为会变得更加隐蔽。基于规则的方法另外一个问题,信息源是否会被识别为敏感信息因其所面对的读者和张贴位置的不同而不同,对于某些特定用户、公告留言或者维基百科而言,那些可以用来明确指示是否为敏感信息,而其他场合可能变得相当正常。即由于不同用户界定敏感信息的标准不同,还需要为不同的用户、群组等建立起各自的实例和数据集合。
基于概率统计的方法也因采用的不同的算法而存在各自的缺点,例如朴素贝叶斯分类器最大的缺陷就是,他无法处理基于特征组合所产生的变化结果,当我们假设单词“美国”和“911”为非敏感词,而实际上“美国911”这样的敏感信息也会被识别为非敏感信息放过。再例如K-mean的主要缺点在于,为了找到最为接近的数据项,每一项带预测的数据都必须和所有的数据项进行比较且缺一不可,面对百万甚至上千万的数据集,在时间和空间上都是非常低效的。
因此,期望提供一种高性能的识别敏感文本信息的系统和方法。
发明内容
为了解决现有技术中的上述缺点和问题中的至少一个而提出本发明。基于现有技术存在的缺点,我们提出了划分信息源集合,并采用不同类型的特征对信息源先后进行识别的方法,它一方面可以在处理大数据集时表现出较高的性能;另一方面,该方法应用于敏感信息识别时,较之普通的分类算法在效果上也会有大大的提高。
根据一个方面,本发明提出了一种用于识别敏感文本信息的系统,包括:数据训练模块,用于将训练文本表示为向量空间形式的特征空间模型;数据测试模块,用于将测试文本表示为向量空间形式的特征空间模型;以及信息源分块识别模块,用于根据文本点在二维空间的分布,将测试文本集合划分为模糊区和非模糊区以及对模糊区和非模糊区分别进行分类识别。
可选地,所述数据训练模块包括:训练文本预处理模块,用于对训练文本进行预处理;特征抽取模块,用于根据所述训练文本预处理模块的预处理结果进行特征抽取;以及特征选择模块,用于对所述特征抽取模块所抽取的特征进行特征选择,从而对由字、词和字词串组成的特征进行特征选择而得到特征空间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310749656.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:内燃机燃烧室镶块精密铸造模具
- 下一篇:涡轮增压器间隙诊断工具