[发明专利]非法信息的识别方法、装置有效

专利信息
申请号: 201910073513.8 申请日: 2019-01-25
公开(公告)号: CN111488738B 公开(公告)日: 2023-04-28
发明(设计)人: 康杨杨;孙常龙;刘晓钟;司罗 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: G06F40/295 分类号: G06F40/295;G06F40/30;G06F16/35;G06F16/36
代理公司: 北京合智同创知识产权代理有限公司 11545 代理人: 李杰
地址: 英属开曼群岛大开*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 非法 信息 识别 方法 装置
【说明书】:

发明实施例提供了一种非法信息的识别方法、装置,非法信息的识别方法包括:确定待识别信息中实体词及对应的属性数据的组合,其中,所述实体词及对应的属性数据的组合与常识相悖,所述实体词被用于非法信息的概率小于第一阈值;若所述属性数据被用于非法信息的概率大于第二阈值,则根据与常识相悖的所述实体词及对应的属性数据的组合确定常识推理表征;至少根据所述常识推理表征进行识别,以确定所述待识别信息是否非法。通过本申请实施例提供的方案,可以准确地识别出实体词被用于非法信息的概率小于第一阈值、词语或者语义较为正向的非法信息。

技术领域

本发明实施例涉及数据处理技术领域,尤其涉及一种非法信息的识别方法、装置。

背景技术

现有技术中,对于由文本形式传播的信息来说,在识别信息是否非法时,可以将是否非法的问题转换为文本分类的问题,然后通过部分人工标注的样本信息训练机器学习模型,使得机器学习模型可以根据信息中的词语或者语义等进行文本分类,例如可以通过机器学习模型将信息分为非法类和合法类两类。

但是,这种方法仅可以识别词语或者语义较为明显的非法信息,但是,有些非法的信息,其中的词语和语义等均比较正向,例如,涉黄信息“【**车行】好消息!车行新车已到,出厂日期99年底,车况极品,试驾先预约,预约电话158*******1”,这则信息中的词语以及语义均比较正向并无明显的涉黄倾向,通过上述方法进行分类的结果为非涉黄(即合法),但是进行分析后可知出厂日期为99年的车与今年(2019年)相差极大,不可能是新车,并结合信息中的“车况极品”、“试驾先预约”等可以确定,上述信息的分类结果应为涉黄(即非法),但通过上述现有技术的方案进行识别时,无法正确识别词语和语义等均比较正向但实际非法的情形。

发明内容

有鉴于此,本发明实施例提供一种非法信息的识别方法、装置,以解决上述问题中的任一种。

根据本发明实施例的第一方面,提供了一种非法信息的识别方法,其包括:确定待识别信息中实体词及对应的属性数据的组合,其中,所述实体词及对应的属性数据的组合与常识相悖,所述实体词被用于非法信息的概率小于第一阈值;若所述属性数据被用于非法信息的概率大于第二阈值,则根据与常识相悖的所述实体词及对应的属性数据的组合确定常识推理表征;至少根据所述常识推理表征进行识别,以确定所述待识别信息是否非法。

根据本发明实施例的第二方面,提供了一种非法信息的识别装置,其包括:实体词确定模块,用于确定待识别信息中实体词及对应的属性数据的组合,其中,所述实体词及对应的属性数据的组合与常识相悖,所述实体词被用于非法信息的概率小于第一阈值;常识推理确定模块,用于若所述属性数据被用于非法信息的概率大于第二阈值,则根据与常识相悖的所述实体词及对应的属性数据的组合确定常识推理表征;识别模块,用于至少根据所述常识推理表征进行识别,以确定所述待识别信息是否非法。

根据本发明实施例提供的方案,通过确定待识别信息中与常识相悖的所述实体词及对应的属性数据的组合,并且,若所述属性数据被用于非法信息的概率大于第二阈值,则进一步根据与常识相悖的所述实体词及对应的属性数据的组合确定常识推理表征;并至少根据所述常识推理表征进行识别,以确定所述待识别信息是否非法,从而可以准确地识别出实体词被用于非法信息的概率小于第一阈值、词语或者语义较为正向的非法信息。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。

图1为本发明实施例一的一种非法信息的识别方法的步骤流程图;

图2为本发明实施例二的一种确定与常识相悖的所述实体词及属性数据的组合的方法步骤流程图;

图3为本发明实施例二的一种知识图谱的结构示意图;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910073513.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top