[发明专利]一种多线程屏蔽字查询替换方法有效
申请号: | 202110844719.3 | 申请日: | 2021-07-26 |
公开(公告)号: | CN113434641B | 公开(公告)日: | 2022-10-11 |
发明(设计)人: | 邝剑洪;罗培羽;张永明;李勇;刘效法 | 申请(专利权)人: | 广州四三九九信息科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/23;G06F9/46 |
代理公司: | 北京市盛峰律师事务所 11337 | 代理人: | 席小东 |
地址: | 510000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多线程 屏蔽 查询 替换 方法 | ||
本发明提供一种多线程屏蔽字查询替换方法,包括以下步骤:获取CPU的核心数,为N个,然后启动对应数量的N个线程;按分配算法,将m个屏蔽字分配给N个线程;并行执行N个线程;如果为屏蔽字查询模式,则执行屏蔽字查询流程;如果为屏蔽字查询替换模式,则执行屏蔽字查询替换流程。本发明提供的一种多线程屏蔽字查询替换方法具有以下优点:本发明提供一种多线程屏蔽字查询替换方法,采用屏蔽字多线程并行查询的方法,对得到的屏蔽字查询结果进行合并处理后,再集中进行屏蔽字替换,既提高屏蔽字查询替换的准确性和全面性,也极大提高了屏蔽字查询和替换的效率。
技术领域
本发明属于数据查询技术领域,具体涉及一种多线程屏蔽字查询替换方法。
背景技术
屏蔽字,也称为敏感字,是指带有敏感政治倾向、暴力倾向、不健康色彩的字或不文明语。目前,各类内容网站对于需要发布的内容,均需要进行屏蔽字审核,只有审核不存在屏蔽字时,才允许发布。
传统的屏蔽字审核方式为:采用逐个屏蔽字依次查询待发布内容,并对查询到的屏蔽字实时进行替换处理。例如,需要查询两个屏蔽字,分别为:屏蔽字1,其字符串为:AAA;屏蔽字2,其字符串为:AAABBB。需要进行内容审核的原始字符串为“XXXAAABBBXXXAAACCC”。因此,首先采用屏蔽字1查询原始字符串,并将查询到的屏蔽字1替换为“*”,由此得到第一字符串为“XXX*BBBXXX*CCC”;然后,再采用屏蔽字2查询第一字符串,此时在第一字符串中无法查询到屏蔽字2。因此,处理后的字符串,即第一字符串为“XXX*BBBXXX*CCC”。
此种方式存在以下问题:(1)一般来说,屏蔽字的数量比较多,而且随着时间的持续,屏蔽字数量成正比增加,导致屏蔽字查询替换效率低。(2)如果存在多个屏蔽字叠加的情况,在进行屏蔽字查询替换时,前面屏蔽字查询替换的结果,会影响后面屏蔽字查询结果,导致屏蔽字查询替换不全面。对于前面屏蔽字1和屏蔽字2的例子,采用屏蔽字1查询替换后,破坏了原来的字符串AAABBB,因此,当后面采用屏蔽字2查询时,无法查询到字符串AAABBB,从而无法对仍然具有敏感的字符串BBB进行处理,导致屏蔽字查询替换不全面。
如何解决以上问题,提高屏蔽字查询和替换的效率,提高屏蔽字查询替换结果的准确性和全面性,是目前急需解决的问题。
发明内容
针对现有技术存在的缺陷,本发明提供一种多线程屏蔽字查询替换方法,可有效解决上述问题。
本发明采用的技术方案如下:
本发明提供一种多线程屏蔽字查询替换方法,包括以下步骤:
步骤1,确定需要进行屏蔽字处理的内容Content;针对内容Content,确定屏蔽字范围,假设为m个屏蔽字,表示为:屏蔽字Word(1),屏蔽字Word(2),...,屏蔽字Word(m);
步骤2,获取CPU的核心数,为N个,然后启动对应数量的N个线程;
步骤3,按分配算法,将m个屏蔽字分配给N个线程;
步骤4,并行执行N个线程;如果为屏蔽字查询模式,则执行步骤5;如果为屏蔽字查询替换模式,则执行步骤6;
步骤5,屏蔽字查询模式:
步骤5.1,N个线程并行执行;
对于任意线程,表示为线程Pi,以被分配给自身的至少一个屏蔽字为查询关键字,查询所述内容Content,只要在内容Content中查询到存在对应的屏蔽字时,立即向控制模块返回内容Content存在屏蔽字的通知消息;否则,如果对内容Content查询完成时,均未在内容Content中查询到对应的屏蔽字,则向控制模块返回内容Content不存在屏蔽字的通知消息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州四三九九信息科技有限公司,未经广州四三九九信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110844719.3/2.html,转载请声明来源钻瓜专利网。