[发明专利]用于识别敏感文本信息的系统和方法有效
申请号: | 201310749656.9 | 申请日: | 2013-12-31 |
公开(公告)号: | CN103761221B | 公开(公告)日: | 2017-05-17 |
发明(设计)人: | 何泉昊;权圣;陆强 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 中原信达知识产权代理有限责任公司11219 | 代理人: | 李宝泉,周亚荣 |
地址: | 100080 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种用于识别敏感文本信息的系统和方法。所述包括数据训练模块,用于将训练文本表示为向量空间形式的特征空间模型;数据测试模块,用于将测试文本表示为向量空间形式的特征空间模型;以及信息源分块识别模块,用于根据文本点在二维空间的分布,将测试文本集合划分为模糊区和非模糊区以及对模糊区和非模糊区分别进行分类识别。 | ||
搜索关键词: | 用于 识别 敏感 文本 信息 系统 方法 | ||
【主权项】:
一种用于识别敏感文本信息的系统,包括:数据训练模块,用于将训练文本表示为向量空间形式的特征空间模型;数据测试模块,用于将测试文本表示为向量空间形式的特征空间模型;以及信息源分块识别模块,用于根据文本点在二维空间的分布,将测试文本集合划分为模糊区和非模糊区以及对模糊区和非模糊区分别进行分类识别;所述数据训练模块包括:训练文本预处理模块,用于对训练文本进行预处理;第一特征抽取模块,用于根据所述训练文本预处理模块的预处理结果进行特征抽取;第一特征选择模块,用于对所述特征抽取模块所抽取的特征进行特征选择,从而对由字、词和字词串组成的特征进行特征选择而得到特征空间;所述数据测试模块包括:测试文本预处理模块,用于对测试文本进行预处理;第二特征抽取模块,用于根据所述测试文本预处理模块的预处理结果进行特征抽取;第二特征选择模块,用于对所述特征抽取模块所抽取的特征进行特征选择,从而对由字、词和字词串组成的特征进行特征选择而得到特征空间;所述信息源分块识别模块包括:区域划分模块,用于根据文本点在二维空间的分布将所述测试文本集合划分为所述模糊区和所述非模糊区;第一分类识别模块,用于以字或词作为特征对所述模糊区进行分类识别;第二分类识别模块,用于以相邻两个字或词组成的二元字符串作为特征对所述非模糊区进行分类识别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310749656.9/,转载请声明来源钻瓜专利网。
- 上一篇:内燃机燃烧室镶块精密铸造模具
- 下一篇:涡轮增压器间隙诊断工具