[发明专利]文本相似度的计算方法及装置有效
申请号: | 202010419437.4 | 申请日: | 2017-04-07 |
公开(公告)号: | CN111611786B | 公开(公告)日: | 2023-03-21 |
发明(设计)人: | 郑丹丹 | 申请(专利权)人: | 创新先进技术有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/30 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 周嗣勇 |
地址: | 开曼群岛大开曼岛*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 相似 计算方法 装置 | ||
本申请提供一种文本相似度的计算方法,包括:通过基于相同的过滤策略,对原始的黑样本库中的文本样本以及新录入的文本样本进行分词处理得到的文本分词,按照多个保持梯度的文本过滤比例分别进行文本分词过滤处理,并使用过滤后剩余的文本分词分别对原始的黑样本库中的文本样本以及新录入的文本样本进行重构,然后利用文本分词的过滤比例来表征新录入的文本样本与黑样本的相似度,通过匹配重构后的黑样本库与新录入的文本样本中的文本分词,为新录入的文本样本进行分词得到的文本分词设置黑样本相似度。本申请可以显著提升在计算新录入的文本样本与黑样本库中的文本样本的相似度时的计算效率。
技术领域
本申请涉及计算机应用领域,尤其涉及一种文本相似度的计算方法及装置。
背景技术
社交应用,通常都会面临内容审核的问题。而一款社交产品,通常可能会有几千万甚至几亿的用户量,每天每时每刻都有巨大的信息量在交互。因此如何基于已审核出的不良历史内容,快速的完成各种不良内容的实时线上防控,具有十分重要的意义。
在相关技术中,在基于已审核出的不良历史内容针对各种不良内容进行实时的线上防控时,通常是基于文本相似度来实现的;比如,可以基于编辑距离或者余弦距离等算法,计算社交应用产生的文本样本与已审核出每一条包含不良内容的黑样本的文本相似度,然后通过计算出的文本相似度来完成不良内容的实时线上防控。
然而,通过诸如编辑距离或者余弦距离等算法,计算社交文本产生的文本样本与每一条黑样本的相似度时,通常都面临着1:N的轮询;因此,当黑样本的数量较多,轮询所有的黑样本依次进行相似度的计算,从响应速度上看,无法满足实时的线上防控的要求。
发明内容
本申请提出一种文本相似度的计算方法,应用于计算机设备,所述计算机设备包括多个黑样本库;所述多个黑样本库为基于预设过滤策略,针对原始的黑样本库中的部分文本样本进行过滤后,基于剩余的文本样本创建得到;其中,所述多个黑样本库分别对应不同的文本过滤比例;所述方法包括:
针对新录入的文本样本进行分词处理,得到若干文本分词;
将所述多个黑样本库依次选定为目标样本库,并基于所述预设过滤策略,按照所述目标样本库对应的文本过滤比例,针对所述若干文本分词中的部分文本分词进行过滤;
将所述若干文本分词中剩余的文本分词依次选定为目标文本分词,并将所述目标文本分词与所述目标样本库中的文本分词依次进行匹配;
如果所述目标文本分词与所述目标样本库中任一文本分词匹配时,基于与所述目标样本库对应的文本过滤比例,为所述目标文本分词设置黑样本相似度。
本申请还提出一种文本相似度的计算装置,应用于计算机设备,所述计算机设备包括多个黑样本库;所述多个黑样本库为基于预设过滤策略,针对原始的黑样本库中的部分文本样本进行过滤后,基于剩余的文本样本创建得到;其中,所述多个黑样本库分别对应不同的文本过滤比例;所述装置包括:
分词模块,针对新录入的文本样本进行分词处理,得到若干文本分词;
过滤模块,将所述多个黑样本库依次选定为目标样本库,并基于所述预设过滤策略,按照所述目标样本库对应的文本过滤比例,针对所述若干文本分词中的部分文本分词进行过滤;
匹配模块,将所述若干文本分词中剩余的文本分词依次选定为目标文本分词,并将所述目标文本分词与所述目标样本库中的文本分词依次进行匹配;
设置模块,如果所述目标文本分词与所述目标样本库中任一文本分词匹配时,基于与所述目标样本库对应的文本过滤比例,为所述目标文本分词设置黑样本相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010419437.4/2.html,转载请声明来源钻瓜专利网。