[发明专利]用于识别敏感文本信息的系统和方法有效
申请号: | 201310749656.9 | 申请日: | 2013-12-31 |
公开(公告)号: | CN103761221B | 公开(公告)日: | 2017-05-17 |
发明(设计)人: | 何泉昊;权圣;陆强 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 中原信达知识产权代理有限责任公司11219 | 代理人: | 李宝泉,周亚荣 |
地址: | 100080 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 识别 敏感 文本 信息 系统 方法 | ||
1.一种用于识别敏感文本信息的系统,包括:
数据训练模块,用于将训练文本表示为向量空间形式的特征空间模型;
数据测试模块,用于将测试文本表示为向量空间形式的特征空间模型;以及
信息源分块识别模块,用于根据文本点在二维空间的分布,将测试文本集合划分为模糊区和非模糊区以及对模糊区和非模糊区分别进行分类识别;
所述数据训练模块包括:训练文本预处理模块,用于对训练文本进行预处理;第一特征抽取模块,用于根据所述训练文本预处理模块的预处理结果进行特征抽取;第一特征选择模块,用于对所述特征抽取模块所抽取的特征进行特征选择,从而对由字、词和字词串组成的特征进行特征选择而得到特征空间;
所述数据测试模块包括:测试文本预处理模块,用于对测试文本进行预处理;第二特征抽取模块,用于根据所述测试文本预处理模块的预处理结果进行特征抽取;第二特征选择模块,用于对所述特征抽取模块所抽取的特征进行特征选择,从而对由字、词和字词串组成的特征进行特征选择而得到特征空间;
所述信息源分块识别模块包括:区域划分模块,用于根据文本点在二维空间的分布将所述测试文本集合划分为所述模糊区和所述非模糊区;第一分类识别模块,用于以字或词作为特征对所述模糊区进行分类识别;第二分类识别模块,用于以相邻两个字或词组成的二元字符串作为特征对所述非模糊区进行分类识别。
2.根据权利要求1所述的系统,其中所述字或词是通过分词工具获得的。
3.一种用于识别敏感文本信息的方法,包括:
将训练文本表示为向量空间形式的特征空间模型;
将测试文本表示为向量空间形式的特征空间模型;
根据文本点在二维空间的分布,将测试文本集合划分为模糊区和非模糊区;
以字或词作为特征,对所述模糊区进行分类识别;以及
以由相邻两个字或词组成的二元字符串作为特征,对所述非模糊区进行分类识别;
其中将训练文本表示为向量空间形式的特征空间模型包括:对训练文本进行预处理;对预处理结果进行特征抽取;对所抽取的特征进行特征选择;
其中将测试文本表示为向量空间形式的特征空间模型包括:对测试文本进行预处理;对预处理结果进行特征抽取;对所抽取的特征进行特征选择。
4.根据权利要求3所述的方法,其中,所述字或词是通过分词工具获得的。
5.根据权利要求3所述的方法,其中,采用贝叶斯或者K-means作为分类算法来训练分类器,以将测试文本集合分割为所述模糊区和所述非模糊区。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310749656.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:内燃机燃烧室镶块精密铸造模具
- 下一篇:涡轮增压器间隙诊断工具