[发明专利]一种数据检测方法及检测装置有效
申请号: | 201811286207.4 | 申请日: | 2018-10-31 |
公开(公告)号: | CN109492118B | 公开(公告)日: | 2021-04-16 |
发明(设计)人: | 李海波;帅伟良 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06F16/43 | 分类号: | G06F16/43;G06F16/9032;G06F40/258 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 丁芸;项京 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 检测 方法 装置 | ||
本发明实施例提供了一种数据检测方法及检测装置,其中方法包括:获取待检测数据的标题信息;利用预先建立的敏感词匹配树对待检测数据的标题信息进行匹配处理,得到标题信息中的敏感词;将匹配得到的敏感词转换为哈希值;利用预先建立的哈希数组对哈希值进行匹配处理;当哈希值匹配成功时,确定待检测数据中存在敏感信息。本发明实施例提供的一种数据检测方法及检测装置,能够提高数据中敏感信息的检测效率,尤其适合需进行海量检测运算的影音服务网站应用。
技术领域
本发明涉及数据处理技术领域,特别是涉及一种数据检测方法及检测装置。
背景技术
影音服务网站通过抓取站外资源以更新网站内容,这些站外资源通常包括视频数据、音频数据等数据。在抓取上述资源的过程中,由于数据本身存在涉黄词语等其它敏感信息,因此需要对该数据进行屏蔽。例如,如果网站抓取到的一条视频数据的标题中含有色情信息,则会将该视频数据屏蔽,因此需要对数据中的敏感信息进行检测,以作为是否对数据进行屏蔽的条件。
现有的数据检测方法,通常基于关键字匹配来检测数据中的敏感信息。具体而言,通过构成各敏感词的关键字预先组成一个大的正则表达式,当服务器获取数据的标题信息后,将标题信息中的各个关键字与正则表达式进行匹配,如果匹配成功,则表明该数据的标题信息含有敏感信息,需要被屏蔽。
然而,发明人在实现本发明的过程中发现,现有技术至少存在如下问题:
现有的基于关键字匹配的数据检测方法,由于是将数据标题信息的各个关键字与正则表达式进行匹配,当数据中敏感信息较多时关键字也随之增多,因此服务器需要花费更多的时间进行匹配。目前的影音服务网站每天都会抓取海量的数据,需要进行数亿次的检测,现有的基于关键字匹配的数据检测方法,在检测数据中是否含有敏感信息时,存在检测效率低的问题。
发明内容
本发明实施例的目的在于提供一种数据检测方法及检测装置,以实现提高在检测数据中是否含有敏感信息时的检测效率。具体技术方案如下:
第一方面,本发明实施例提供了一种数据检测方法,所述方法包括:
获取待检测数据的标题信息,所述待检测数据为视频数据、图片数据、音频数据或者文本数据;
利用预先建立的敏感词匹配树对所述待检测数据的标题信息进行匹配处理,得到所述标题信息中的敏感词,所述敏感词匹配树基于Aho-Corasick算法建立;
将匹配得到的所述敏感词转换为哈希值;
利用预先建立的哈希数组对所述哈希值进行匹配处理,所述哈希数组中记录有样本屏蔽词对应的哈希值;
当所述哈希值匹配成功时,确定所述待检测数据中存在敏感信息。
可选地,所述获取待检测数据的标题信息之后,所述方法还包括:
将所述标题信息中的文字转换为Unicode码。
可选地,所述利用预先建立的敏感词匹配树对所述待检测数据的标题信息进行匹配处理,得到所述标题信息中的敏感词的步骤,包括:
利用预先建立的敏感词匹配树,对转换为Unicode码后的所述标题信息进行匹配处理,得到所述标题信息中的多个敏感词。
可选地,所述利用预先建立的敏感词匹配树,对转换为Unicode码后的所述标题信息进行匹配处理,得到所述标题信息中的多个敏感词之后,所述方法还包括:
将多个所述敏感词组合为新的敏感词;
所述将匹配得到的所述敏感词转换为哈希值的步骤,包括:
将所述新的敏感词转换为哈希值字符串。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811286207.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:专利数据分析系统
- 下一篇:一种用户信息记录方法及装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置